4 minute read

Topstory School of Computer Science: Spracherkennung

Next Article
Behörden

Behörden

Topstory School of Computer Science

Spracherkennung

Jetzt lernt die künstliche Intelligenz Schweizerdeutsch

Auf dem Gebiet der maschinellen Verarbeitung von Sprache findet aktuell eine rasante Entwicklung statt. Künstliche Intelligenz macht es möglich. Doch wie bringt man Maschinen Dialekte bei, die nicht verschriftlicht sind? Damit beschäftigen sich Professor Siegfried Handschuh und sein Team.

Natural Language Processing, kurz NLP, befasst sich mit Techniken und Methoden zur maschinellen Verarbeitung natürlicher Sprache. Professor Siegfried Handschuh, Ordinarius für Data Science and Natural Language Processing an der School of Computer Science, beschäftigt sich intensiv damit. Aktuell bringt er einer künstlichen Intelligenz Schweizerdeutsch bei. Das hat seine besonderen Tücken, denn Schweizerdeutsch ist nicht verschriftlicht. «Hochsprachen wie Deutsch oder insbesondere Englisch sind sehr gut abgedeckt. Denken Sie an Alexa, Cortina oder Siri: Für Englisch gibt es massenhaft Ressourcen, obwohl es natürlich dort auch regionale Prägungen gibt.» Für Schweizerdeutsch hingegen gibt es aber keinen Standard, weshalb ihn die Aufgabe reizt: «Für einen Wissenschaftler ist das ein hochinteressantes Problem.»

Service Public

Um eine künstliche Intelligenz zu trainieren, braucht es Daten. Eine ganze Menge davon. «Gemeinhin geht man von mindestens 3000 Stunden gesprochener Sprache aus, die nötig sind, und idealerweise mehrere Varianten jedes Worts, das man abdecken will. Das ist schwierig zu bekommen.» Bevor Siegfried Handschuh nach St.Gallen berufen wurde, war er in Bayern tätig, an der Universität Passau. Dort beschaffte man sich in einem ähnlichen Projekt die Daten in mühsamer Kleinarbeit: «Da ging man mit einer Liste Wörter von Dorf zu Dorf und bat die Leute, diese auszusprechen. So hat man eine riesige Datenbank aufgebaut.» Das ist aber sehr aufwendig und dauert angesichts der nötigen Datenmenge lange. Wie macht er es beim aktuellen Forschungsprojekt? «Wir haben mit Daten des Schweizer Fernsehens gearbeitet. Der Vorteil dabei ist, dass das SRF Untertitel in Hochdeutsch für Gehörlose anbietet. Da gibt es einfache Trainingsdaten wie die Wetterberichte und kompliziertere, etwa Diskussionssendungen wie Club, wo sich die Leute ständig ins Wort fallen und die Sprechertrennung schwierig ist.» Man habe auch verschiedene Firmen für Daten angefragt, doch leider vergebens. «Da stehen wohl kommerzielle Interessen im Weg.»

Die Technik dahinter

Siegfried Handschuh und sein Team arbeiten mit Deep-Learning-Ansätzen nach dem «Transfer-Learning-Verfahren». Sie verwenden also das Modell einer komplett trainierten Sprache wie Englisch und lernen es auf Schweizerdeutsch um. «Das funktioniert erstaunlich gut. Lustigerweise funktioniert bei Schweizerdeutsch das englische Modell besser als das deutsche, auch wenn das intuitiv nicht zu erwarten wäre.» Siegfried Handschuh vermutet, es liege daran, dass es im Englischen viel mehr Ressourcen gibt.» In der Frühphase der NLP ging man davon aus, dass sich Sprache mittels formaler Logik erfassen lässt, was aber zu kurz greift. «Sprache ist viel mehr als das.» So haben sich statistische Ansätze, die Wahrscheinlichkeiten berechnen, erstaunlicherweise als viel besser herausgestellt. Wichtige Erfolgsfaktoren für NLP-Projekte sind die Datenmenge, der Algorithmus sowie die Rechenleistung. «Da sind wir an der HSG mit dem Supercomputer Nvidia DGX-2 gut aufgestellt. Es wäre aber toll, noch mehr Trainingsdaten zu haben.» Das bekannte Risiko unbewusster Bias, das bei Deep Learning auftreten kann, sieht Siegfried Handschuh in seinem Projekt nicht als Problem. «Das ist vor allem dann problematisch, wenn einer künstlichen Intelligenz Weltwissen beigebracht wird. Da kann es sein, dass alle möglichen Arten

Der sprachgesteuerte Roboter «Pepper» in Aktion.

von Voreingenommenheit in die Modelle einfliessen und lange nicht entdeckt werden. Bei NLP können aber kulturelle Prägungen einfliessen, etwa wenn man geschlechterneutrale in geschlechtsspezifische Sprachen übersetzt. Zum Beispiel werden gewisse Eigenschaften statistisch eher Frauen und andere eher Männern zugeschrieben.»

Vielfältige Anwendungen

Das grosse wirtschaftliche Potenzial von NLP ist unbestritten. In Bezug auf Schweizerdeutsch sieht es Siegfried Handschuh besonders bei Chatbots, die zum Beispiel in den USA und Deutschland weit verbreitet sind, hierzulande aber noch verhältnismässig wenig Anwendung finden. Es gibt viele Anwendungen, etwa für Handel, Banken und Versicherungen. Neben den kommerziellen Möglichkeiten können diese Systeme auch im sozialen Bereich eingesetzt werden, zum Beispiel beim E-Learning für Studierende oder in der Altenpflege. Die Möglichkeiten sind nahezu unbegrenzt; Spracherkennung wird in der Zukunft allgegenwärtig sein. Insbesondere E-Learning hält Prof. Handschuh für ein spannendes Gebiet: «Gerade da sehe ich enormes Potenzial, weil man einem Bot keine falschen Fragen stellen kann, dieser nie müde wird, nervös oder verstimmt ist. Die übliche Schüler-Lehrer-Hierarchie wird im Dialog mit dem Chatbot aufgehoben und ermöglicht ein entspannteres Lernen.» Grosse Chancen bieten sich auch auf dem Gebiet der Rechtswissenschaften, wo es nicht nur um gesprochene Sprache geht, sondern um Texte an sich. Legal Tech sei speziell im angelsächsischen System sehr gefragt, da Präzedenzfälle dort eine wichtige Rolle spielen. «Aktuell betreue ich eine Masterarbeit, in der wir untersuchen, ob es bei Gerichtsurteilen Bias gibt, die der Parteizugehörigkeit der Richter zuzuschreiben sind. Es zeichnet sich ab, dass es so ist.» Das disruptive Potenzial von NLP schätzt Siegfried Handschuh ähnlich hoch ein wie jenes beim autonomen Fahren. «Was aktuell in der NLP passiert, ist enorm. Doch kann man diese Entwicklung nur bedingt extrapolieren. Es ist noch ein grosser Schritt von der automatischen Spracherkennung zum umfassenden menschlichen

Campus

This article is from: