Voice-Technologie für alle – um Mensch-Maschine-Interaktionen zu verbessern

Katharina Borchert

vor 4 Jahren

Spracherkennungssysteme können dazu beitragen, ein ansprechendes, nahtloses Benutzererlebnis zu schaffen, bei dem die Anwender auf natürliche Weise kommunizieren können. Denn es ist einfacher, die eigene Stimme einzusetzen als Wörter einzutippen. So wird die Hürde zwischen uns und unseren Geräten abgebaut.

Richard Strauss sagte einst: „Die menschliche Stimme ist das schönste Instrument, aber es ist am schwierigsten zu spielen.“ Damals bezog Strauss sich wohl auf einen seiner Opernsänger. Heute beschäftigen sich auch Technologiefirmen mit den Höhen und Tiefen der menschlichen Stimme, um die Interaktionen mit den Nutzern personalisierter zu gestalten.

Die meisten Menschen kennen sprachgesteuerte digitale Assistenten wie Siri von Apple, Amazons Alexa, Microsoft Cortana und Google Voice. Sie nutzen diese Technologien, um Informationen zu finden, Lebensmittel zu bestellen, Termine zu vereinbaren, Musik zu hören oder Fernsehen zu schauen. In nur einem Jahrzehnt haben sich Sprachtechnologien von einer unterhaltsamen Neuheit zu einem häufig verwendeten Tool entwickelt, das inzwischen in vielen Verbraucheranwendungen und einigen Unternehmenslösungen zu finden ist.

Die Vielfalt der Sprachen

Trotz dieser Entwicklung sind die Fortschritte bei der Voice-Technologie nicht so groß, wie viele sich erhofft hatten. Die meisten Projekte auf dem Gebiet der Spracherkennung werden von einer Handvoll führender Unternehmen durchgeführt. Sie haben früh damit begonnen und viel Geld in die Entwicklungsarbeit gesteckt. Deshalb sind diese Sprachdaten meist teuer und urheberrechtlich geschützt. Und für die Entwicklung von Spracherkennungsanwendungen werden enorme Datenmengen benötigt.

Um möglichst viele Nutzer zu gewinnen und hohe Umsatzchancen zu schaffen, konzentrierten sich die großen Unternehmen auf weit verbreitete Sprachen wie Englisch und Spanisch. Sie haben Stimmdatensätze erstellt, um ihre Spracherkennungs-Engines zu trainieren. Doch die meisten dieser Stimmproben wurden von geschulten Sprechern erstellt – von Männern, die in ihrer Muttersprache kommunizieren.

Infolgedessen ist die Sprachtechnologie in Bezug auf die Vielfalt der Redner und Sprachen nicht gerade inklusiv. Das zeigt folgendes Beispiel: Eine Freundin von mir ist Österreicherin und spricht sowohl Englisch als auch Deutsch. Doch sie hat Probleme mit ihrem intelligenten Assistenten. Aufgrund ihres starken österreichischen Akzents versteht der virtuelle Assistent sie nicht – weder in der einen noch in der anderen Sprache und auch dann nicht, wenn sie jedes Wort besonders klar ausspricht. So verlässt sie sich nun auf ihre Kinder, die Englisch-Muttersprachler sind, und bittet sie, dem Computer die mündlichen Anweisungen zu geben.

Die Wahrscheinlichkeit, dass die großen Unternehmen Engines für kleinere, unterrepräsentierte Sprachen erstellen werden, ist eher gering. Das ist bedauerlich, denn Sprache ist wichtig für die kulturelle und politische Identität der Menschen. Englisch ist zwar die Verkehrssprache des Internets geworden, aber eine Software in der eigenen Sprache zur Verfügung zu haben ist etwas anderes.

Wenn wir uns bei Sprachtechnologien auf eine Handvoll dominanter Sprachen beschränken, riskieren wir, viel vom kulturellen Reichtum zu verlieren, den wir durch unsere weltweiten sozialen Interaktionen gewinnen. Spracherkennungssoftware auf weniger verbreitete Sprachen auszudehnen, könnte neue Türen für Innovationen öffnen. Man denke an Regionen mit niedrigen Alphabetisierungsraten. Dort sind schriftliche Interaktionen ein bedeutender Hemmschuh für die Nutzung neuer Technologien. Unsere Hypothese ist, dass sich mit Sprachtechnologie ein enormes digitales Potenzial erschließen lässt – und zwar für Gruppen, die bisher noch nicht in die digitale Zukunft einbezogen wurden. Das Wachstumspotential für die digitale Wirtschaft könnte beachtlich sein.

Open Source – Quelle der Innovation

Um dieser Herausforderung zu begegnen, bitten wir die Open-Source-Community, zur Demokratisierung der Sprachtechnologien beizutragen, indem sie die Spracherkennung und die Algorithmen der natürlichen Sprachverarbeitung verbessern. Aber es gibt zweifellos Hindernisse für Open-Source-Innovationen.

Entwickler benötigen einen Sprachtechnologie-Stack, einschließlich einer Trainingsdatenbank, die dem Computer beibringt, Sprache zu verstehen. In dieser Datenbank müssen Trainingsdaten enthalten sein – je mehr, desto besser. Die großen Unternehmen verfügen über diese Daten und können deren Nutzung durch Lizenzen einschränken. In der Regel stehen solche Datenbanken auch nur für eine begrenzte Anzahl von Sprachen zur Verfügung. Und sich wenn eine Anwendung als erfolgreich erweist, werden die Lizenzkosten für die Daten nahezu unerschwinglich.

Um diesen Herausforderungen zu begegnen, hat Mozilla eine IT-Infrastruktur geschaffen, die dazu beiträgt, dass die Spracherkennung von der Öffentlichkeit genutzt werden kann. Mit unserer Common-Voice-Datenbank stellen wir eine Online-Plattform zur Verfügung, die es Freiwilligen ermöglicht, zufällig ausgewählte Sätze in ihrer Sprache einzusprechen.

Die Sprachaufzeichnungen werden auf der Plattform in einem Datensatz gesammelt. Die Freiwilligen können auch bewerten, ob andere Sätze korrekt ausgesprochen wurden und tragen so dazu bei, die Qualität der Datensammlung zu verbessern. Common Voice hält derzeit Hunderttausende validierte Sprachaufnahmen bereit – eingesprochen von mehr als 51.000 Personen. Und dieser Datensatz steht Open-Source-Entwicklern zur Verfügung. Jede Entwickler-Community, die damit beginnen möchte, einen Sprachkorpus in ihrer Muttersprache aufzubauen, kann diesen Datensatz verwenden und sogar ergänzen.

Wir bei Mozilla setzen uns dafür ein, die digitale Sprachkluft zu überbrücken. Deshalb haben wir eine Spracherkennungs-Engine namens DeepSpeech entwickelt. Damit stellen wir unabhängigen Entwicklern eine Spracherkennungssoftware und trainierte Modelle zur Verfügung. Indem wir Sprachdaten öffentlich und frei verfügbar machen und sicherstellen, dass die Daten die Vielfältigkeit der Menschen widerspiegeln, hoffen wir, die Spracherkennungstechnologie für alle zu verbessern.

Die Ergebnisse unserer Projekte sind ermutigend und manchmal überraschend. Zu Beginn des Projekts haben wir mit Englisch gearbeitet. Als wir die Plattform dann für weitere Sprachen öffneten, rechneten wir mit den größten Zuwächsen in den am meisten gesprochenen Sprachen wie Deutsch, Spanisch und Französisch.

Aber wir hatten nicht bedacht, dass Sprache politisch sein kann. Vor etwa zwei Jahren war unser am schnellsten wachsender Datensatz Katalanisch, die Sprache der Konfliktregion Katalonien im Nordosten Spaniens. Die Menschen in dieser Region vertreten seit jeher mit großem Stolz ihre Kultur, indem sie Katalanisch statt Spanisch sprechen. Dort hatte sich eine große Community gebildet, die Voice-Samples auf Katalanisch für das Common-Voice-Projekt zusammentrug. Damit hatten wir nicht gerechnet.

Aber es war eigentlich nicht verwunderlich. In Software ist immer auch ein kulturelles Element verankert, unabhängig davon, ob es wahrgenommen wird oder nicht. Software soll neutral sein, aber wir sollten uns bewusst sein, dass darin auch implizite kulturelle Wertaussagen und Urteile zum Ausdruck kommen.

Gleiche Wettbewerbsbedingungen

Unabhängig davon, ob wir Business-to-Business- oder Business-to-Consumer-Software entwickeln, werden Spracherkennungstechnologien in absehbarer Zukunft ein wesentlicher Bestandteil von Software sein. Doch wenn nur wenige Unternehmen über die erforderlichen Ressourcen verfügen, um die Spracherkennung in Anwendungen einzusetzen, kann dies zum Problem werden. Hinzu kommt, dass der große Kundenstamm dieser Unternehmen stets mit ihren Geräten interagiert. Das bedeutet, dass die großen Konzerne im Hinblick auf das Sammeln vielfältigerer Voice-Samples dem Wettbewerb Lichtjahre voraus sind.

Firmen ohne eigene Sprachtechnologie sind zunehmend von den vier oder fünf führenden Unternehmen abhängig. Diese Unternehmen können den Preis für ihre Technologie festlegen und bestimmen, ob die Nutzer einen Anspruch auf den Schutz ihrer persönlichen Daten haben sollten oder nicht. Das ist ein Problem – für Mozilla und für mich persönlich.

Wir wissen, dass Spracherkennungssysteme uns jederzeit zuhören können, auch wenn sie eigentlich nur auf bestimmte Weckwörter reagieren sollten. Die anonymisierten Aufzeichnungen in der Cloud sind nicht immer anonym. Wir wissen, dass Sprachaufnahmen auch dann gesammelt und gespeichert werden, wenn die Benutzer das Weckwort nicht gesprochen haben. In einigen Fällen wurde der Polizei Zugang zu Aufzeichnungen gewährt, um strafrechtliche Ermittlungen zu erleichtern. Jedes Unternehmen – und jede Privatperson – sollte sich Gedanken um diese Datenschutzthemen machen.

Eine Open-Source-Alternative zu haben, die nicht zur beherrschenden Stellung dieser Unternehmen beiträgt, würde sich lohnen. Die Technologie wird innovativer, wenn sie nicht von wenigen Konzernen kontrolliert und der Weg von ihnen vorgegeben wird. Aus unserer Erfahrung mit der Entwicklung des Open-Source-Webbrowsers Firefox über den letzten 20 Jahre wissen wir, dass einige der besten Produktinnovationen von Nutzern und Open-Source-Entwicklern stammen. Erfolgreiche Open-Source-Technologien stehen einer hohen Anzahl an Entwicklern und Unternehmern zur Verfügung. Freie Software eröffnet rasch ein dynamischeres Partnernetz und ebnet den Weg in eine bessere, digitale Zukunft.

Informationen zu Horizons by SAP

Horizons by SAP ist ein Innovationsmagazin, in dem führende Technologieexperten ihre Sichtweise der neuesten Technologien und Geschäftstrends vorstellen und darlegen, was diese Entwicklungen für SAP-Kunden bedeuten. Die Ausgabe 2020 von Horizons by SAP startet mit einem Blick auf kontextbezogene Anwendungen und bietet Beiträge von Unternehmen wie SAP, Microsoft, Verizon und Mozilla. Um mehr zu erfahren und Artikel führender Experten zu lesen, besuchen Sie die Webseite www.sap.com/horizons.

Über die Autorin:
Katharina Borchert ist Chief Open Innovation Officer der Mozilla Corporation