Die prothetische Stimme
Die Technologie ermöglicht es uns jetzt, über die Stimme nachzudenken, 'wie wir über Schriftarten für geschriebenen Text' denken.

Shutterstock / Pablo Inones
Als Roger Ebert seinen Unterkiefer – und damit auch seine Stimme – durch Krebs verlor, gründete die Text-to-Speech-Firma CereProc eine synthetische Stimme das wäre maßgeschneidert für den Filmkritiker. Die computerisierte Stimme, eine Verschmelzung der Worte, die Ebert in seiner langen Karriere aufgenommen hatte, würde nicht ganz natürlich klingen; es würde jedoch unverwechselbar klingen. Es sollte Ebert helfen, etwas zurückzugewinnen, das er durch die Entfernung seiner Stimmbänder verloren hatte: eine eigene Stimme.Die meisten Leute haben nicht so viel Glück. Diejenigen, die Schlaganfälle hatten – oder die mit Krankheiten wie Parkinson oder Zerebralparese leben – verlassen sich oft auf Versionen synthetischer Stimmen, die in ihrer Darbietung völlig generisch sind. (Denken Sie an Stephen Hawkings computerisierte Monotonie. Oder an Alex , die Stimme von Apples VoiceOver-Software.) Die gute Nachricht ist, dass diese Leute gehört werden können; Die schlechte Nachricht ist, dass sie immer noch eines der mächtigsten Dinge beraubt sind, die uns eine Stimme geben kann: eine einzigartige und hörbare Identität. Oben in Boston, Rupal Patel hofft, das zu ändern. Sie und ihr Mitarbeiter, Tim Bunnell vom Nemours AI DuPont Hospital for Children, entwickeln seit mehreren Jahren Algorithmen, die Stimmen für diejenigen erzeugen, die nicht sprechen können – ohne Computerunterstützung. Die Stimmen klingen nicht nur natürlich; sie sind auch einzigartig. Sie sind im Wesentlichen Stimmprothesen, die auf die vorhandenen Stimmen (und allgemeiner auf die Identitäten) ihrer Benutzer zugeschnitten sind. Sie basieren auf der Idee, sagte mir Patel, dass die Technologie es uns jetzt ermöglicht, über die Stimme nachzudenken, „genau wie wir über Schriftarten für geschriebenen Text denken“.Es funktioniert so : Freiwillige kommen in ein Studio und lesen sich mehrere tausend Beispielsätze durch (aus Büchern wie Weißer Fang und der wunderbare Zauberer von Oz ). Patel, Bunnell und ihr Team nehmen dann, wenn möglich, Aufnahmen der eigenen Stimme des Empfängers auf, um ein Gefühl für Tonhöhe und Tonlage zu bekommen. (Wenn der Empfänger überhaupt keine Stimme hat, wählt er nach Dingen wie Geschlecht, Alter und regionaler Herkunft aus.) Dann zerlegt das Team die Sprachaufnahmen in Mikroeinheiten der Sprache (mit beispielsweise einem einzelnen Vokal bestehend aus mehrere dieser Einheiten). Dann mit der von ihnen erstellten Software – VocaliD , es heißt-Sie vermischen die beiden Sprachproben zu einem neuen, im Labor entwickelten Lexikon: eine akustische Sammlung von Wörtern, die einer Person zur Verfügung stehen, die sie zur Kommunikation benötigt.Dies ist trotz der algorithmischen Unterstützung ein mühsamer Prozess. Erstellen einer Stimme, die einfach verwendbar ist, Neuer Wissenschaftler Anmerkungen , verlangt von einem Spender, mindestens (mindestens!) 800 Sätze zu lesen. Und um eine relativ natürlich klingende Stimme zu finden, müssen 3.000 Sätze laut vorgelesen werden. Außerdem erfordert das aktuelle System – Human Recording in Kombination mit algorithmischem Remixing – die physische Anwesenheit von Stimmgebern.„Im Moment“, sagte mir Patel, „ist unser Prozess, Leute ins Labor zu rufen – und das skaliert nicht.“Trotz all dieser Hindernisse scheinen die Menschen jedoch daran interessiert zu sein, Bedürftigen ihre Stimme zu verleihen. Patel, in ihrer Eigenschaft als Associate Professor an der Northeastern University , entwickelt jetzt die Human Voicebank Initiative, ein Projekt, das darauf abzielt, eine Sammlung menschlicher Stimmen zu schaffen, die an Menschen gespendet werden können, die keine eigene Stimme haben. Die Initiative hat derzeit mehr als 10.000 Menschen als Stimmspender registriert , sagt Patel. Sie und ihr Team sind dabei, die technische Infrastruktur des Projekts aufzubauen und Tools wie einen Webclient und eine iPhone-App zu entwickeln, die es Spendern ermöglichen, ihre eigenen Aufnahmen in ihrer Freizeit zu machen.Es ist vielleicht eine angemessene Verwendung der Geräte, die zunehmend menschliche Stimmen für ihre Befehle anfordern werden. 'Wenn wir über Technologien nachdenken, die Sie und ich verwenden und auf die wir uns verlassen, werden wir jetzt viel mehr Sprache verwenden', sagt Patel. 'Wir sprechen mit unseren Telefonen, und unsere Telefone sprechen mit uns.'