Hét vraag- en antwoordplatform van Nederland

Hoe vindt een computer de kernwoorden uit een zin?

Hoe worden de kernwoorden uit de vraag gehaald hier op GV.

Bijvoorbeeld uit deze vraag:
"Is het stelen van een artikel, en het vervolgens weer terug leggen strafbaar?"
Haalt GV de kernwoorden stelen-artikel-vervolgens-terug-leggen (http://www.goeievraag.nl/vraag/stelen-artikel-vervolgens-terug-leggen.178057)

Is hier een speciaal algoritme voor, of verwijdert GV gewoon voorgeprogrammeerde woorden (de, het, is, zijn, waar, hoe, wanneer, ect.)?

Ik gebruik GV als voorbeeld, maar ik stel deze vraag in het algemeen.

Verwijderde gebruiker
13 jaar geleden
1K

Heb je meer informatie nodig om de vraag te beantwoorden? Reageer dan hier.

Het beste antwoord

Het kan bijna niet anders, dan dat het zoekprogramma van GV werkt met een lijst van woorden, die niet geaccepteerd worden. En natuurlijk kan die lijst aangepast worden. B.v. als er op een gegeven moment 5 keer zoveel vragen en antwoorden zijn. Je kunt dat zelf eens controleren, door wat gangbare woorden in te voeren, zoals om, voor, pen, val, ma, ze, is en op.

Het is wel duidelijk, dat in jouw voorbeeld alle woorden worden opgenomen, die er maar enigszins toe doen. Dat zijn dus in ieder geval stelen, artikel en strafbaar. Het is dus zeker niet zo, zoals eerder gesteld, dat er van zelfstandige naamwoorden uitgegaan zou worden.

Voorbeelden van woorden die in ieder geval niet worden onthouden, (en dus nul hits tonen) zijn: op-in-het-ik-zijn-haar.

Maar grappig genoeg doet "jij" weer wel mee (24038 hits) en dat ligt niet aan de woordlengte. Want ook "ga" krijgt 25178 hits. Andere opvallende woorden die toch worden meegenomen zijn: wel, laat, heet, maar (113609), met als klap op de vuurpijl "niet" met 120289 treffers. Ga dus niet op "niet" zoeken, want je bent weken bezig met vragen en antwoorden lezen ;-)
(Lees meer...)
Verwijderde gebruiker
13 jaar geleden

Andere antwoorden (2)

Het lijkt erop dat de zelfstandig naamwoorden blijven staan, de lidwoorden eromheen worden verwijderd en de werkwoorden (m.u.v. hulwerkwoorden zoals zijn hebben).
Misschien ligt het wat gecompliceerder, maar als ik zo kijk vallen bovenstaande dingen mij op.
(Lees meer...)
Verwijderde gebruiker
13 jaar geleden
Verwijderde gebruiker
13 jaar geleden
en hoe weet een computer dan wat een zelfstandig naamwoord is en wat niet?
Verwijderde gebruiker
13 jaar geleden
Als er een lidwoord voor staat.
Net als hier in de url: vind-computer-kernwoorden-zin.
In werkelijkheid staat hier de computer, de kernwoorden, de zin. Als er dus lidwoorden voor staan is het een zelfstandignaamwoord en kan de computer hem herkennen.
Verwijderde gebruiker
13 jaar geleden
oke, en dan de werkwoorden, hoe vindt de computer die?
Verwijderde gebruiker
13 jaar geleden
Die zullen (net als zelfstandignaamwoorden) ongetwijfeld in een database staan, net als de spellingscontrole in je browser of in Word.
Misschien wel lange woorden?
(Lees meer...)
Verwijderde gebruiker
13 jaar geleden
Verwijderde gebruiker
13 jaar geleden
ja want 'zin' is zo'n lang woord. -

Weet jij het beter..?

Het is niet mogelijk om je eigen vraag te beantwoorden Je mag slechts 1 keer antwoord geven op een vraag Je hebt vandaag al antwoorden gegeven. Morgen mag je opnieuw maximaal antwoorden geven.

0 / 5000
Gekozen afbeelding