Recherche und Analyse von Spracherkennungssystemen


28.08.2017 von

https://www.iteratec.de/fileadmin/Bilder/News/iteratec_logo.png https://www.iteratec.de/fileadmin/Bilder/News/iteratec_logo.png iteratec GmbH

Hallo, ich heiße Michael Danninger, bin 31 Jahre alt und habe an der LMU München Medieninformatik studiert. Auf der Suche nach einer Abschlussarbeit bin ich auf iteratec aufmerksam geworden. Nach ersten Gesprächen und der Potenzialanalyse fing ich zunächst als Werkstudent bei iteratec an. Währenddessen machte mich auf die Suche nach einem geeigneten Thema für eine Abschlussarbeit.

Während meiner Tätigkeit als Werkstudent recherchierte ich bereits einige Spracherkennungssysteme. Hierbei fiel mir auf, dass es – im Vergleich zur englischen Sprache – nur sehr wenige Systeme gibt, die die deutsche Sprache verstehen. Außerdem gab es keinerlei Vergleichstests. Die Idee für meine Bachelorarbeit war fertig.

Nun aber von Anfang an: Was habe ich in meiner Arbeit denn gemacht? Zunächst machte ich mich auf die Suche nach APIs, die deutsche Sprache verstehen. Wie schon erwähnt, waren dies nicht viele.

In diesem Feld stellt CMU Sphinx eine Besonderheit dar:

Es ist das einzige nicht-kommerzielle System und wurde von der Carnegie Mellon University entwickelt. Außerdem sollte erwähnt werden, dass das System keine und jede Sprache versteht. Die Software verfügt über ein Trainingselement, mit dem man akustische Modelle und Sprachmodelle erstellen kann und somit der Software neue Sprachen beibringen kann.

Leider konnte ich nicht alle genannten Systeme untersuchen:

  • Da ich auf einem Windows-Rechner arbeitete konnte ich das System von Apple leider nicht anbinden.
  • Eine Testversion von Nuance hätte 1500€ gekostet
  • Der Testfokus meiner Arbeit lag im Vergleich von Wortfehlerraten. Die „Antworten“ von Amazon Echo waren leider nicht für einen solchen Vergleich geeignet.

Bevor ich euch nun etwas über meinen Test oder die Ergebnisse mitteile möchte ich noch erklären, was überhaupt Wortfehlerraten sind: Stellt euch vor, ihr habt eine Audiodatei, auf der ihr eine Person sprechen hört. Jetzt schreibt ihr auf, was diese Person auf der Aufnahme spricht:

„gut dann zu Wege und Plätze“

Eine Transkription, die von Menschen geschrieben wurde, wird Originaltranskript genannt. Wenn diese Datei nun an ein Spracherkennungssystem gesendet wird, könnte die Transkription dieser Datei z. B. so aussehen:

„dann zuwege und Plätze bitte“

Ein von Maschinen erstelltes Transkript wird hypothetisches Transkript genannt. Vergleicht man diese beiden Transkripte nun bezüglich Wortfehlerraten, werden Einfügungen, Vertauschungen und Löschungen gezählt.

Originaltranskript: „gut dann zu Wege und Plätze“ 6 

Hypothetisches Transkript: „    dann zuwege  und Plätze bitte“

Bewertung:   L   K    V  L    K   K      E

Wird „zu“ mit „zuwege“ verglichen, ist das nicht dasselbe Wort und wird als Vertauschung gewertet. Da „Wege“ im Folgenden nicht zu finden ist, wird das fehlende Wort als Löschung betrachtet, genau wie „gut“ zu Beginn. Tauchen erfundene Worte in den Transkripten auf, werden diese als Einfügung gezählt. Anschließend werden die Einfügungen Löschungen und Vertauschungen addiert, mit 100 multipliziert und durch die Anzahl aller Wörter des Originaltranskripts geteilt. Das Ergebnis ist eine prozentuale Wortfehlerrate. In diesem Fall 66,67%.

Mein Test sah nun folgendermaßen aus:

Ich organisierte mir eine Datenbank mit vielen Sprachdateien, zu denen bereits Transkripte existierten. Am Institut für Phonetik der LMU wurde ich fündig und fand eine Datenbank, bei der die Sprecher mit einem fiktiven Boardcomputer eines Autos sprachen. Das hatte den Vorteil, dass die Personen sehr spontan (also nicht grammatikalisch korrekt) sprachen, Aufträge an einen Computer formuliert wurden und Hintergrundgeräusche auf den Aufnahmen zu hören waren. Das sollte dazu beitragen, dass der Test für die Spracherkennungssysteme nicht zu leicht wird.

Die einzelnen Dateien lud ich nun aus meiner Datenbank, sendete sie an die verschiedenen Systeme und konnte die Ergebnisse wiederum in meiner Datenbank speichern.

Nach dem Test hatte ich also Originaltranskripte, welche die wissenschaftlichen Mitarbeiter des Instituts erstellt hatten und die verschiedenen Hypothesen der Systeme. Daraus konnte ich die einzelnen Wortfehlerraten und einen durchschnittlichen Mittelwert errechnen. Die Unterschiede der drei Systeme waren dabei sehr deutlich:

Insgesamt sollte erwähnt werden, dass Microsoft bei der Verwendung der REST-Schnittstelle nur die ersten 10 Sekunden einer Sprachdatei auswertet. Von den insgesamt 1507 Audiodateien waren 274 Dateien kürzer als 10 Sekunden. Die durchschnittliche Abspieldauer betrug 5,82 Sekunden.

Zu CMU Sphinx sollte gesagt werden, dass das System über 70 Stunden lang trainiert wurde und insgesamt 27.000 verschiedene Wörter versteht. Allerdings kann das System nur absolute Wörter verstehen. „Ein“ und „eine“ sind demnach schon zwei verschiedene Wörter. Wie sich also herausstellt, sind 27.000 Wörter bei Weitem nicht genug für eine hohe Performanz in der Spracherkennung.

Fazit

Zusammenfassend möchte ich einerseits noch meine Ergebnisse zusammentragen und einige Worte über meine Zeit als Bachelorant bei iteratec verlieren:

  • Die höchste Performanz wurde bei Google gemessen, gefolgt von Microsoft und CMU Sphinx als Schlusslicht.
  • Die Systeme sind in ihrer Verwendung sehr inhomogen bzgl.
    • Anzahl der verschiedenen Sprachen, die ein System erkennt
    • Schnittstellen (REST, SDK, http, Asynchronous http…)
    • Kosten (kostenlos bis mehrere tausend Euronen)
    • Erweiterbarkeit des Sprachumfangs (einige Systeme können um spezielle Sprachdomänen wie bsplsw. medizinschie Fachbegriffe erweitert werden)
    • Anzahl der auswertbaren Dateiformate (WAV, MP3, OGG, OCM …)
    • On-/Offline-Verfügbarkeit

Über meine Entscheidung, die Abschlussarbeit bei der Firma iteratec zu schreiben, bin ich sehr glücklich! Studiert man an einer Universität, ist es nicht einfach, ein Abschlussthema zu finden, das sowohl für eine Firma und den universitären Betreuer von Interesse ist. iteratec verhielt sich hier extrem kooperativ und aufgeschlossen! Neben dieser Tatsache profitierte ich sehr von dem Know-how der Werkstudenten und Mitarbeiter um mich herum und wurde von Firmenseite von Dr. Tobias Girschick bestens betreut. Das ausgesprochen angenehme Betriebsklima trägt sehr zu einer produktiven Arbeit bei.

Diesen Artikel bewerten
 
 
 
 
 
 
 
1 Bewertungen (100 %)
Bewerten
 
 
 
 
 
 
1
5
5