»Sie ha-ben ein-e neu-e Nach-richt«

Wie Computer sprechen lernen: Arndt Riester sucht neue Wege, Spracherkennung und Verarbeitung zu programmieren

  • Birgit Vey
  • Lesedauer: 4 Min.

Stuttgart. »Sie ha-ben ein-e neu-e Nach-richt«, so holprig-hölzern hören sich Computer- oder Roboter-Stimmen oft an. Diese Maschinen sind mit Spracherkennung und Sprachverarbeitungs-Programmen gefüttert - doch nicht immer geben sie den gemeinten Inhalt wieder. Der Stuttgarter Computerlinguist Arndt Riester sucht neue Wege, um der Elektronik das richtige Sprechen beizubringen.

Texte in Gesprochenes verwandeln, das leisten beispielsweise Vorlesegeräte, die vor allem Blinde häufig nutzen. Für den umgekehrten Weg, Worte in Schriftliches umwandeln, kann man zu Diktierprogrammen greifen. Sprechende Tablets und Navi-Geräte sowie Anwendungen auf Smartphones sind weitere Einsatzgebiete für Sprachtechnologien. »Diese Maschinen-Stimmen sollen natürlicher klingen«, nennt Riester, Mitarbeiter beim Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart, als Ziel. Das gelingt, indem der monotone Sprachfluss durch Klangfarben, wie etwa hohe oder tiefe Stimmlagen, ersetzt wird. Gleichzeitig bilden sich so inhaltliche Schwerpunkte heraus.

»Man geht mit der Stimme nach oben, wenn etwas betont wird«, erläutert der Wissenschaftler. Wobei durch das hervorgehobene Wort Unterschiedliches ausgesagt wird. Denn wird im Satz »Das Geschenk brachte Paul« das Geschenk hervorgehoben, soll deutlich gemacht werden, um welches Objekt es geht: also um ein Geschenk und nicht etwa um Gepäck. Hat dagegen das Wort am Satzende mehr Bedeutung, zielt diese Betonung auf die Person ab: Gemeint ist Paul und nicht etwa Peter.

»Die Betonung muss an die richtige Stelle gesetzt werden«, sagt der Linguist. Dafür braucht eine Software Regeln. Eine Regel lautet: Neue Information finden und verstärken. »Es werden die vorherigen Text- oder Sprachstellen durchsucht. War beispielsweise schon mehrfach von Paul die Rede, ist das neue und damit zu betonende Wort ‘Geschenk’«, sagt Riester.

Doch die Sache ist komplizierter. Beispielsweise bei Angela Merkel. Steht an anderen Textstellen Bundeskanzlerin oder CDU-Politikerin, »übersieht« der Rechner, dass dieselbe Person gemeint ist. »Dieses Wissen hat jeder von uns im Kopf. Damit aber eine Software die Zusammenhänge erkennt, muss ihr diese Hintergrundinformation mitgeliefert werden, etwa durch Datenbanken wie Wikipedia.«

Fachleute sprechen dann von »Wissensquellen«, mit denen eine Software ausgestattet wird. Durch diese lassen sich auch Gemeinsamkeiten finden und in Klassen einordnen. Obst (Äpfel, Birnen usw.) ist eine Klasse, die sich von anderen Klassen wie Orte (Markt, Geschäft) unterscheidet. Hat eine Software diesen Schritt geschafft, greift eine weitere Regel: Gegensätze werden betont.

Ab den späten 50er Jahren startete die Computerlinguistik in den USA. Damals hoffte man auf automatische, also maschinelle Übersetzungen. Die Resultate waren schlecht, die Förderung wurde eingestellt. Seit den 70er Jahren wird der Begriff Computerlinguistik offiziell verwendet. Die ersten entsprechenden Studiengänge in Deutschland bot neben dem Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart die Universität des Saarlandes an. Heute kann man das Fach unter anderem in Potsdam, München oder Zürich studieren.

Im Vergleich zu den Anfängen können Computerlinguisten wie Riester heute auf große Datenmengen zugreifen, die durchs Internet zugänglich sind. Aber es gibt noch viel tun. Denn damit eine Roboter-Stimme natürlicher wirkt, müssen auch Gespräche analysiert werden. Riester wird etwa deutsche und französische Dialoge vergleichen: Er will klären, welche Rolle Pausen bei der Akzentuierung in der jeweiligen Sprache spielen. Ein weiteres Feld sind Fragen. Denn ein »Gehen wir in den Zoo?« (Nachfrage), »Wir gehen in den Zoo?« (Entsetzen) oder »Wir gehen in den Zoo, oder?« (Unsicherheit) sagt Verschiedenes aus - und das spiegelt sich in unterschiedlichen Tonlagen.

Riester nutzt für seine Forschungen 60 Interviews des Radiosenders SWR 2. Die Auswertung dieser spontan gesprochenen Worte ist noch in vollem Gange. Nach einem Jahr abgeschlossen ist der zweite Basis-Datensatz, vorgelesene und abgetippte Radionachrichten des Deutschlandfunks. Langfristig visiert er an, Texte vom Computer so gut in ihren Feinheiten und Komplexitäten zu erfassen, dass sich genaue Regeln aufstellen lassen. Klappt das, wird die Maschinenstimme wie ein guter Vorleser funktionieren: Sie versteht den Inhalt, betont richtig - und sagt korrekt, was gesagt werden soll. epd/nd

Abonniere das »nd«
Linkssein ist kompliziert.
Wir behalten den Überblick!

Mit unserem Digital-Aktionsabo kannst Du alle Ausgaben von »nd« digital (nd.App oder nd.Epaper) für wenig Geld zu Hause oder unterwegs lesen.
Jetzt abonnieren!

Linken, unabhängigen Journalismus stärken!

Mehr und mehr Menschen lesen digital und sehr gern kostenfrei. Wir stehen mit unserem freiwilligen Bezahlmodell dafür ein, dass uns auch diejenigen lesen können, deren Einkommen für ein Abonnement nicht ausreicht. Damit wir weiterhin Journalismus mit dem Anspruch machen können, marginalisierte Stimmen zu Wort kommen zu lassen, Themen zu recherchieren, die in den großen bürgerlichen Medien nicht vor- oder zu kurz kommen, und aktuelle Themen aus linker Perspektive zu beleuchten, brauchen wir eure Unterstützung.

Hilf mit bei einer solidarischen Finanzierung und unterstütze das »nd« mit einem Beitrag deiner Wahl.

Unterstützen über:
  • PayPal