Kruse-IT GmbH - Wyve - Webbasierter Spracherkennungsdienst

01/2007 ‐ 07/2007

Referenzprojekt »Wyve«

Webbasierter Spracherkennungsdienst

Wyve
keyboard_arrow_right
keyboard_arrow_left

Spracherkennung als Webdienst

Entwicklung eines standortunabhängigen, webbasierten Sprach­er­ken­nungs­dienstes (freies Diktieren) mit darauf basierenden Client-An­wen­dungen. Der Webdienst war SOAP-basiert und konnte Sprach­daten im WAV-Format von jedem SOAP-Client entgegennehmen.

Sofort einsatzbereiter Client

Als Prototyp einer typischen Client-Anwendung wurde ein C#-ba­sie­render Client implementiert. Der Client hatte eine minimale Grösse (ca. 300KB) und war ohne Installation nutzbar (z.B. von einem USB-Stick).

Er übernahm die Sprachentgegennahme und -vor­bereitung (Schwell­wert-Analyse und Pausenerkennung), ver­schick­te die Sprach­pakete über Webservices (SOAP over HTTP) an die Ser­ver­an­wendung und fügte die erkannten Sprachpassagen in die kon­fi­gurierten Ziel­appli­ka­tionen ein.

Server mit Unterstützung beliebiger Sprachengines

Für den Tomcat-basierten Server wurde ein Framework entwickelt, das beliebige 3rdparty-Speech-Recognition-Engines integrieren und zur Laufzeit umschalten konnte.

Mittels des Prototyps wurden die Speech-Engines Sphinx 4.1 (Java) und Loquendo ASR (C/C++) evaluiert (Spracherkennungsqualität, Parallelisierbarkeit, Stabilität, Lastverhalten). Für die Anbindung von Loquendo wurde zudem ein JNA-basierter Mapper (Java zu C/C++) entwickelt.

Aufgabe im Gesamtprojekt

Technische Gesamt-Verantwortung, Design- und Architektur-Ver­ant­wor­tung, Analyse, Design und Implementierung des Prototyps, tech­ni­sche Evaluierung der Speech-Engines.

Technik

Windows XP/LinuxTomcat 5.5.20Java (1.5)C#CC++Sphinx 4.1Loquendo 7.4.0WebServicesServletsSubversionIdea 6.2Visual Studio 2005JDomAxis 1.4JNAJfiglog4j

Projektgröße

3 MAVerteilte Entwicklung an drei Stand­orten in Deutsch­landProjektsprache Deutsch/Englisch

×