Werbung

Roboter lernen mit Wikipedia

Online-Enzyklopädie ist zur Schnittstelle zwischen natürlicher und künstlicher Intelligenz geworden

  • Von Hans-Arthur Marsiske
  • Lesedauer: 4 Min.

Echt jetzt? Ihr wollt Geld von mir?

Ja, herrgottnochmal, es kostet!

Auch, wenn's nervt – wir müssen die laufenden Kosten für Recherche und Produktion decken.

Also, mach mit! Mit einem freiwilligen regelmäßigen Beitrag:

Was soll das sein

Wir setzen ab sofort noch stärker auf die Einsicht der Leser*innen, dass linker Journalismus auch im Internet nicht gratis zu haben ist – mit unserer »sanften« nd-Zahlschranke.

Wir blenden einen Banner über jedem Artikel ein, verbunden mit der Aufforderung sich doch an der Finanzierung und Sicherstellung von unabhängigem linkem Journalismus zu beteiligen. Ein geeigneter Weg besonders für nd-Online-User, die kein Abo abschließen möchten, die Existenz des »nd« aber unterstützen wollen.

Sie können den zu zahlenden Betrag und die Laufzeit frei wählen - damit sichern Sie auch weiterhin linken Journalismus.

Aber: Für die Nutzung von ndPlus und E-Paper benötigen Sie ein reguläres Digitalabo.

Die Wissensressource Wikipedia, zusammengetragen von Millionen Internetnutzern weltweit, hat auch im 13. Jahr ihrer Existenz die Anrüchigkeit noch nicht ganz abgestreift. Zwar ist die Qualität der hier versammelten Beiträge weithin anerkannt, doch berufen mögen sich nur wenige darauf. In Universitätsseminaren und Zeitungsredaktionen sind Zitate aus dem Internet-Lexikon ebenso unerwünscht wie bei Juristen, obwohl Wikipedia bei Recherchen häufig der erste Anlaufpunkt ist. Was bei personalisierten, urheberrechtlich geschützten Texten schon Bundesminister gestürzt hat, ist demnach bei Wikipedia nicht nur erlaubt, sondern häufig sogar ausdrücklich gefordert: Man nutzt es, ohne die Quelle zu nennen.

Der kollektiv zusammengetragene Wissensspeicher bekommt jetzt aber Unterstützung von unerwarteter Seite. Seit etwa Mitte des vergangenen Jahrzehnts, als Wikipedia einen gewissen Umfang in mehreren Sprachen erreicht und eine stabile Form entwickelt hatte, beschäftigen sich mehr und mehr Forschungsteams mit deren Potenzial als Schnittstelle zwischen natürlicher und künstlicher Intelligenz (KI). Die Fachzeitschrift »Artificial Intelligence« (Vol. 194) hat diesem Thema jetzt sogar ein komplettes Heft gewidmet. Dessen Herausgeber sehen eine »Renaissance wissensgeprägter Ansätze in der KI«, die sie maßgeblich auf Wikipedia zurückführen.

Denn wenn Computerprogramme auch sehr schnell Suchbegriffe im Internet finden können, so sind Worte für sie doch erst mal lediglich Kombinationen von Buchstaben ohne jede Bedeutung. Ob mit »Bank« ein Sitzgerät oder ein Kreditinstitut gemeint ist, wissen sie nicht. Genau hier hilft Wikipedia. Was die Wissenschaftler an der Online-Enzyklopädie so begeistert, ist die dort vorgenommene »semistrukturelle« Aufbereitung des Wissens: Die Artikel sind nach einem Schema verfasst, untereinander verlinkt und einem hierarchischen Kategoriensystem zugeordnet. Das bietet viele Ansatzpunkte, um mit statistischen Verfahren Wortbedeutungen auf die Spur zu kommen und gezielt Informationen herauszufiltern.

Das an der University of North Texas bereits im Jahr 2007 entwickelte System »Wikify!« etwa ermittelt in einem Textdokument durch den Abgleich mit Titeln von Wikipedia-Artikeln und darin verlinkten Passagen zunächst Schlüsselwort-Kandidaten. Um diese Kandidaten hinsichtlich ihrer Bedeutung für den jeweiligen Text zu bewerten und in eine Rangfolge zu bringen, zählt »Wikify!« dann, in wie vielen Wikipedia-Artikeln ein Begriff bereits als Schlüsselwort genutzt wird, und teilt diese Zahl durch die Anzahl aller Dokumente, in denen der Begriff auftaucht. Bereits dieses einfache Verfahren erzielt eine höhere Trefferquote als etablierte statistische Methoden.

»Wikify!« ist von vielen Forschungsgruppen aufgegriffen und von den texanischen Forschern weiterentwickelt worden. Ihr Algorithmus erkennt nicht nur Schlüsselwörter, sondern auch inhaltliche Übereinstimmungen, selbst wenn unterschiedliche Begriffe verwendet werden. Mehr und mehr nutzen Forscher neben den Wikipedia-Kategorien und Artikeltiteln auch die erweiterten Abstracts oder Tabellen. Auf diese Weise soll es bald möglich sein, auch in stärker »verrauschten« Alltagstexten wie Chats und Online-Foren automatisch deren Kerninhalte zu identifizieren.

Damit Computer automatisch auf Wissen zugreifen können, muss es maschinenlesbar aufbereitet werden. Solche hochgradig strukturierten Wissensspeicher werden als Ontologien bezeichnet. Sie erfassen nicht nur Begriffe, sondern auch deren Eigenschaften und Beziehungen untereinander. Da sie bislang noch weitgehend von Hand erzeugt werden, decken sie zumeist nur einen schmalen, für die jeweilige Anwendung erforderlichen Bereich ab, etwa bei medizinischen Diagnosehilfen. Wikipedia erlaubt jetzt die automatische Erstellung von Ontologien und erschließt ihnen das allgemeine, in der englischsprachigen Wikipedia in über vier Millionen Artikeln enthaltene Wissen.

In die am Max-Planck-Institut für Informatik in Saarbrücken entwickelte Ontologie »YAGO« sind neben Wikipedia allerdings auch die lexikalische Datenbank »WordNet« und die geografische Datenbank »GeoNames« eingeflossen. Gegenwärtig umfasst »YAGO« zehn Millionen Einträge mit über 120 Millionen Fakten und ist damit der in internationaler Kooperation erzeugten Ontologie »DBPedia« ebenbürtig. Anders als »YAGO«, das sich auf die englische Sprache konzentriert, liegt »DBPedia« allerdings in 111 Sprachen vor. Die Mehrsprachigkeit von Wikipedia macht sich auch die am Heidelberger Institut für Theoretische Studien entwickelte Wissensdatenbank »WikiNet« zunutze und erreicht damit gute Ergebnisse bei der Identifizierung von Eigennamen: Die sind im Englischen gut an der Großschreibung zu erkennen und lassen sich von dort in andere Sprachen übertragen.

Für Roboter und andere intelligente Maschinen ist Wikipedia damit zum unverzichtbaren Wörterbuch geworden, mit dessen Hilfe sie nach und nach nicht nur das gesamte übrige Internet, sondern auch die reale Welt immer besser verstehen werden. Jan W. Amtrup, Computerlinguist bei der Firma Kofax, erwartet als Folge dieser Entwicklung, »dass das Internet immer weniger als eine passive Informationsquelle angesehen werden muss, sondern dass man quasi mit ihm kooperiert«. Bei Reisevorbereitungen könnte es dann bald passieren, dass der Computer empfiehlt: »Das Hotel ist in einer Gegend mit hoher Kriminalität. Ich weiß, es ist billig, aber vielleicht solltest Du doch besser dieses hier nehmen.«

ndPlus

Ein kleiner aber feiner Teil unseres Angebots steht nur Abonnenten in voller Länge zur Verfügung. Mit Ihrem Abo haben Sie Vollzugriff auf sämtliche Artikel seit 1990 und helfen mit, das Online-Angebot des nd mit so vielen frei verfügbaren Artikeln wie möglich finanziell zu sichern.

Testzugang sichern!

9 Ausgaben für nur 9 €

Jetzt nd.DieWoche testen!

9 Samstage die Wochenendzeitung bequem frei Haus.

Hier bestellen