Arbeitshilfe Spracherkennung?

Ein Computer, der Menschen versteht – das gab es die längste Zeit nur im Film. Der wohl bekannteste dürfte HAL 9000 gewesen sein, der in dem Kultfilm 2001: Odyssee im Weltraum eine der Hauptrollen spielt und dessen Sprüche (nachzulesen und zu hören bspw. hier) mich noch heute schaudern lassen. Cool fand ich es, als mein Freund Eric H. schon vor 20 Jahren den Soundclip „I’m sorry Dave, I’m afraid I can’t do that“ mit der Fehlermeldung seines Rechners verknüpfte und – JA – ich wollte eigentlich schon immer einen Computer haben, mit dem ich sprechen kann.

Mein erster Versuch vor bald zehn Jahren aber scheiterte, gekauft hatte ich das Programm zwar, sogar mit Zusatzwortschatz Medizin – aber so richtig nützlich war es nicht und bald habe ich es wieder deinstalliert. Auch vor fünf Jahren verstand mein Handy mich nicht wirklich. Erst jetzt, wo sowohl Apple sein Kultgerät, das neue iPhone 4S mit der Spracherkennungs-Software Siri augestattet hat, und wo eine Kollegin behauptete, das wäre für sie eine echte Arbeitserleichterung, war ich bereit für den nächsten Versuch:

Bei Amazon bestellte ich mir deshalb die Spracherkennungssoftware „Dragon Naturally Speaking“ von Nuance, fand das Päckchen tags darauf vor meiner Haustüre und habe das Programm sofort installiert in der Hoffnung, meine Produktivität im Büro zu steigern. Vorausgegangen war dieser Entscheidung die übliche Googelei und das Lesen einiger Testberichte, vor allem in den Kundenbewertungen bei Amazon. Die aktuelle Home-Version des Programmes für ca. 40 Euro ist angeblich die meistverkaufte Spracherkennungssoftware überhaupt, doch habe ich mich nach dem Vergleich mit den anderen Varianten der Software für die Premium-Version 11.5 entschieden. Die kostet zwar fast drei Mal so viel, bietet aber offenbar im Gegensatz zur Home-Version die Möglichkeit, Texte sowohl auf deutsch als auch in einer anderen Sprache zu erkennen und in Schrift umzusetzen – was mir sinnvoll schien, da ich gelegentlich auch englischsprachige E-Mails und Artikel verfasse. Es gibt übrigens auch eine Download-Version, bei der dann logischerweise kein Kopfhörer mitgeliefert wird, die aber trotzdem keinen Cent weniger kostet, als das komplette Paket inklusive Versand durch Amazon!

Soviel also zum Vorspiel. Hier nun meine ersten Erfahrungen mit der neuen Software:

Die Bedienungs- und Installationsanleitung meiner Version von Dragon Naturally Speaking beschränkt sich auf ein achtseitiges Faltblatt. Dort wird zwar auch auf die aktuelle Online-Version des Benutzerhandbuches verwiesen, doch als ich die genannten Adresse http://www.nuance.de/naturallyspeaking/support/documentation.asp eingebe, lande ich bei: Fehler 404. Das ist schon mal ziemlich schlampig, ebenso wie das Faltblatt selbst, das man durchaus vor dem Druck nochmals hätte Korrektur lesen können. „Wenn das schon so los geht, halte ich mich lieber genau an die Anweisungen“, denke ich ich mir und beende vor der Installation brav alle Anwendungen und auch das Antivirusprogramm, wie mir geheißen.

Eine dreiviertel Stunde später habe ich das Programm zwar installiert und auch auf der Webseite registriert, die Bestätigungsmail finde ich aber nicht gleich in meiner Mailbox und werde deshalb nach dem Neustart des Rechners mit dem Hinweis begrüßt, dass ich das Programm nur fünf mal starten könne, wenn ich die Prozedur nicht zum Abschluss bringe. Spätestens jetzt ist ein Punktabzug fällig, auch wenn die Mail mich nach einer halben Stunde doch noch erreicht und ich die lästige Prozedur durch einen Klick auf den Bestätigungslink endlich abschießen kann.

Weiter geht es mit der Erstellung eines Benutzerprofils. Dort hätte man ja praktischerweise den Namen vorgeben können, den ich auch bei der Installation schon eingegeben hatte – doch auf derart innovative Gedanken ist beim Hersteller Nuance wohl noch niemand gekommen. Ich stöpsele das mitgelieferte Gerät ein, den Stereo Communication Headset HS-GEN-B und folge den Anweisungen. Wärend die Einstellung der Lautstärke noch erfolgreich ist, floppt es gleich beim nächsten Schritt: „Die Überprüfung der Tonqualität ist fehlgeschlagen. Möglicherweise gibt es ein Problem mit ihrem MS-Windows-Sound-System“, belehrt mich ein Bildschirmfenster. Nach zwei weiteren gescheiterten Versuchen und nachdem auch das Einstöpseln eines hochwertigen Aufnahmegerätes via USB-Schnittstelle nicht fuktioniert, habe ich die erste Stunde meiner Zeit investiert und werde langsam sauer.

Also nochmal systematisch von vorne: Erneut schließe ich das Head-Set an und stelle diesmal im Windows-Sound-System das Mikrofon auf mittlere Einstellungen plus Nachhallunterdrückung ein, dann den Kopfhörer, wobei ich auch feststelle, dass ich hier die Seiten vertauscht hatte (nein, Links und Rechts waren auf dem mitgelieferten Teil nicht gekennzeichnet). Die Systemeinstellungen sehen nun richtig aus und wenn ich den Kopfhörer des Headsets ausstöpsele ertönt der Klang – so wie es sein soll – statt dessen aus meinen Boxen.

Im zweiten Durchgang klappt es dann auch mit der Erkennung des Mikros. Auf der Menüleiste, am oberen Bildschirmrand, steht jedoch noch immer der Hinweis: „Benutzerdateien sind nicht zum Diktat bereit“. Im Profil finde ich den Eintrag „Benutzerprofil auf Verwendung vorbereiten“, klicke den an und beginne mit dem Training der Software. Das dauert sechs Minuten, und anschließend rechnet Dragon Naturally Speaking noch ein bißchen vor sich hin, um das Gesagte zu verdauen. Anschließend lasse ich das Programm in meinen ausgehenden E-Mails und im Ordner „Eigene Dateien“ stöbern, damit es sich besser auf meine Sprachgewohnheiten einstellen kann und ich füge dem Vokabular noch Einiges hinzu, das sich in weiteren, auf der Festplatte verstreuten Dokumenten findet. Andere Benutzer müssten die gleiche Prozedur durchlaufen, aber dieses Zugeständnis an die im Vergleich zum Menschen immer noch bescheidene „Sprachintelligenz“ des Programmes mache ich gerne.

Es wird Zeit für den großen Test: ich habe das Mikrofon eingeschaltet und diese Zeilen kommen direkt vom Mund in den Text. Ich bin beeindruckt, denn der erste Satz enthält keine Fehler. Als nächstes will ich auf Facebook posten, und abgesehen davon, dass Dragon mir erst einen husten will, (dann einen pusten) funktioniert die Schnittstelle zu diesem Dienst richtig gut, ebenso wie zu Twitter, das ich auch häufig nutze. Das könnte wirklich eine zeitsparende Funktion sein, denke ich mir. Angeblich kann das Programm auch Audio-Dateien erkennen und in Text umsetzen. Spaßeshalber teste ich dies mit einer mp3-Datei aus meiner iTunes-Bibliothek, doch Dragon mag den Song „Fischsuppe“ von Funny van Dannens gleichnamigen neuen Album nicht – angeblich, weil er in Stereo statt Mono daher kommt. Mit einem Podcast zum Thema Achtsamkeit / Neid erhalte ich folgendes Ergebnis:

Das Welthandels allgemeines 16 zu dem edlen Wahrheiten des Tourismus habe ich das Thema gehen und kurz angerissen eine Spielart in unserer Gesellschaft häufig auf Taufstellerei sicher findest auf Du problemlos etwas von jemanden anderen Neides Managerin eines kleinen Angestellten seine Freizeit die Erzieherin der Karrierefrau ihren Marken Mode der Familienvater im Sinne kleinen? Die Hausfrau der Journalist Ehrgeiz usw….

Natürlich ist Dragon nicht auf die fremde Stimme geschult, denke ich mir, spreche daher selbst ein paar Sätze in mein hochwertiges Aufnahmegerät (das H 2 von Zoom), das ich zuvor auf Mono-Aufnahmen umgestellt habe und lese dann:

Schreibe dazu einen Text auf meinem Blog und ich will wissen ob eine MP3 Datei die als Monodatei vorliegt wirklich erkannt wird.

Da ich keine Satzzeichen diktiert habe, bin ich mit diesem Ergebnis sehr zufrieden. Vielleicht kann ich mir jetzt also doch eine Sekretärin leisten – nicht perfekt zwar, aber immer für mich da, und das zum Pauschalpreis von 114 Euro…

In den nächsten Tagen habe ich mich dann zunehmends mit Dragon angefreundet. Alte Aufzeichnungen, Tagebucheinträge und ähnlich unkomplizierte Texte spreche ich inzwischen in den PC, statt sie einzutippen, und das geht wirklich schneller. Es geht auch ohne gedrucktes Handbuch, habe ich festgestellt. Schneller, als solch einen Wälzer durchzulesen, ist bei konkreten Fragen ja doch die Hilfefunktion. Außerdem gibt es eine zuschaltbare Seitenleiste mit den wichtigsten Sprachbefehlen und auch mehrere Lernprogramme, die mir das Korrigieren der Texte beibringen. „Alles wird gut“, denke ich mir, beende diesen Test für heute, gebe der Software trotz der Startschwierigkeiten vier von fünf möglichen Punkten und verabschiede mich in der Hoffnung, Michels Universum einen weiteren nützlichen Beitrag hinzugefügt zu haben.

Ein Gedanke zu „Arbeitshilfe Spracherkennung?“

  1. „nein, Links und Rechts waren auf dem mitgelieferten Teil nicht gekennzeichnet“
    > es gibt keine links und rechts stöpsel sondern eingang und ausgang. Wenn das Mikrofon im Kopfhörerausgang steckt kann das nichts werden. Üblicherweise sind die dinger grün (kopfhörer) und rosa (mikrofon).

    Interessant. Hatte mich kürzlich gefragt was eigentlich aus so Programmen geworden ist nach dem hype vor 10 Jahren oder so.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert