Hét vraag- en antwoordplatform van Nederland

Hoe vindt een computer de kernwoorden uit een zin?

Hoe worden de kernwoorden uit de vraag gehaald hier op GV.

Bijvoorbeeld uit deze vraag:
"Is het stelen van een artikel, en het vervolgens weer terug leggen strafbaar?"
Haalt GV de kernwoorden stelen-artikel-vervolgens-terug-leggen (http://www.goeievraag.nl/vraag/stelen-artikel-vervolgens-terug-leggen.178057)

Is hier een speciaal algoritme voor, of verwijdert GV gewoon voorgeprogrammeerde woorden (de, het, is, zijn, waar, hoe, wanneer, ect.)?

Ik gebruik GV als voorbeeld, maar ik stel deze vraag in het algemeen.

Verwijderde gebruiker
13 jaar geleden
Geef jouw antwoord
0 / 2500
Geef Antwoord

Het beste antwoord

Het kan bijna niet anders, dan dat het zoekprogramma van GV werkt met een lijst van woorden, die niet geaccepteerd worden. En natuurlijk kan die lijst aangepast worden. B.v. als er op een gegeven moment 5 keer zoveel vragen en antwoorden zijn. Je kunt dat zelf eens controleren, door wat gangbare woorden in te voeren, zoals om, voor, pen, val, ma, ze, is en op.

Het is wel duidelijk, dat in jouw voorbeeld alle woorden worden opgenomen, die er maar enigszins toe doen. Dat zijn dus in ieder geval stelen, artikel en strafbaar. Het is dus zeker niet zo, zoals eerder gesteld, dat er van zelfstandige naamwoorden uitgegaan zou worden.

Voorbeelden van woorden die in ieder geval niet worden onthouden, (en dus nul hits tonen) zijn: op-in-het-ik-zijn-haar.

Maar grappig genoeg doet "jij" weer wel mee (24038 hits) en dat ligt niet aan de woordlengte. Want ook "ga" krijgt 25178 hits. Andere opvallende woorden die toch worden meegenomen zijn: wel, laat, heet, maar (113609), met als klap op de vuurpijl "niet" met 120289 treffers. Ga dus niet op "niet" zoeken, want je bent weken bezig met vragen en antwoorden lezen ;-)
Verwijderde gebruiker
13 jaar geleden

Andere antwoorden (2)

Het lijkt erop dat de zelfstandig naamwoorden blijven staan, de lidwoorden eromheen worden verwijderd en de werkwoorden (m.u.v. hulwerkwoorden zoals zijn hebben).
Misschien ligt het wat gecompliceerder, maar als ik zo kijk vallen bovenstaande dingen mij op.
Verwijderde gebruiker
13 jaar geleden
Misschien wel lange woorden?
Verwijderde gebruiker
13 jaar geleden
Deel jouw antwoord
0 / 2500
Geef Antwoord
logo van Kompas Publishing

GoeieVraag.nl is onderdeel van Kompas Publishing