Regelbasierte Modellierung Fremdsprachlich Akzentbehafteter Aussprachevarianten

Regelbasierte Modellierung fremdsprachlich akzentbehafteter Aussprachevarianten Grundlagen, Entwurf und Implementierung eines Regelsystems für sprachtechnologische Anwendungen Dissertation zum Erwerb des akademischen Grades Dr. phil. vorgelegt von Stefan Schaden, geb. in Essen im Fach Kommunikationswissenschaft Fachbereich Geisteswissenschaften Universität Duisburg-Essen Gutachter der Arbeit: Prof. Dr. Achim Eschbach, Prof. Dr. Ute Jekosch Datum der Disputation: 16. Juni 2006 Vorwort Die vorliegende Arbeit entstand im Rahmen meiner Tätigkeit am Institut für Kommunikationsakustik (IKA) der Ruhr-Universität Bochum von 1999 bis 2004. Wesentliche Teile der Arbeit wurden von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen des Projektes Typisierung und regelbasierte Modellierung akzentgefärbter Aussprachevarianten für die maschinelle Sprachverarbeitung (BL189/27-1) finanziell gefördert. Mein Dank gilt allen ehemaligen Kollegen am IKA, insbesondere Prof. Ute Jekosch (heute TU Dresden) für die Übernahme der Betreuung der Arbeit, die Unterstützung bei der Realisierung des damit verbundenen Forschungsprojektes und fachliche Diskussionen, die dazu beitrugen, die Zielrichtung dieser Arbeit klarer hervortreten zu lassen. Danken möchte ich auch Prof. Jens Blauert für die Möglichkeit, diese Arbeit am IKA durchzuführen. Unter den Kollegen am IKA möchte ich mich besonders bei Dr.-Ing. Sebastian Möller, Dr.-Ing. Alexander Raake, Dr.-Ing. Jörg Buchholz und Dipl.-Ing. Jan Krebber für die angenehme Ar- beitsatmosphäre und die Unterstützung in vielen kleinen und größeren Dingen bedanken. Herrn Dr.-Ing. Hans-Wilhelm Rühl (Wetzlar) gebührt der Dank für den ersten Anstoß zur Behandlung des Themas dieser Arbeit sowie auch für ihre Förderung in der Anfangsphase. Prof. Achim Eschbach (Universität Duisburg-Essen) gilt mein ganz besonderer Dank nicht nur für die Übernahme des Referates, sondern vor allem auch für die Ermutigung zur Aufnahme eines Dissertationsprojektes und die freundschaftliche Unterstützung in den vergangenen Jahren. Keinesfalls unerwähnt lassen möchte ich den Einsatz der studentischen Mitar- beiterinnen und Mitarbeiter, ohne deren Hilfe die umfangreiche Datengrundlage der Arbeit nicht zustande gekommen wäre: Andreea Niculescu für die Durchfüh- rung von Sprachaufnahmen und die Betreuung von „Versuchspersonen“ sowie Anders Krosch für die unermüdliche Anwerbung von Sprechern, die Realisierung von Sprachaufnahmen in Bochum und Udine sowie die Bearbeitung der Audio- daten. Mein besonderer Dank gilt zudem Katja Keßelmeier und Anneli von Kö- nemann, die mit Sachkenntnis (und Geduld!) die phonetische Transkription der Sprachdaten übernommen haben und sich dabei trotz zum Teil unlösbarer pho- netischer Detailfragen nicht entmutigen ließen. Schließlich geht mein Dank auch an Nino Peterek und Alena Böhmová (Prag) für ihre freundliche Hilfe bei der Transkription tschechischer Namen. Und obwohl sie von den fachlichen Details dieser Arbeit (weitgehend) ver- schont geblieben sind, haben Dr. Thorsten Kieren und Melanie Elsner dennoch einen ebenso großen Anteil an ihrer Fertigstellung. Danke auch an Euch. Dolcédo, im Mai 2006 INHALT 1 Einleitung 1 1.1 Ausgangspunkt: Variabilität gesprochener Sprache............................ 1 1.2 Ziel dieser Arbeit ................................................................................. 3 1.3 Eingrenzung des Untersuchungsgebietes............................................ 5 1.4 Übersicht der Kapitel........................................................................... 6 I. HINTERGRUND UND PROBLEMSKIZZE 9 2 Fremdsprachlicher Akzent: Sprachwissenschaftliche Perspektiven 10 2.1 „Akzent“: Eine erste Begriffsbestimmung......................................... 11 2.1.1 Akzente aus der Perspektive des Sprechers........................ 11 2.1.2 Akzente aus der Perspektive des Hörers............................ 12 2.2 Sprachvergleich und Fehlerprognosen.............................................. 13 2.2.1 Kontrast, Transfer und Interferenz..................................... 13 2.2.2 Interferenz und Fehler im Fremdsprachenerwerb............. 17 2.2.3 Beispiel einer kontrastiven Analyse .................................... 18 2.2.4 Kritik der Kontrastivhypothese........................................... 21 2.3 Interlanguage und approximative Systeme ....................................... 25 2.3.1 Lernersprachen als eigenständige Sprachsysteme.............. 25 2.3.2 Approximationen und Übergangsstufen ............................ 26 2.4 Perzeptive Assimilation und Äquivalenzklassifizierung..................... 28 2.4.1 Einfluß der Perzeption auf die Produktion........................ 28 2.4.2 Äquivalenzklassifizierung und Stabilisierung von Lautkategorien..................................................................... 30 2.5 Überwindung von Akzenten und „Fossilisierung“............................ 34 2.6 Weitere Einflüsse ............................................................................... 37 2.7 Implikationen für die vorliegende Arbeit ......................................... 39 2.7.1 Systematizität der L2-Produktion........................................ 39 2.7.2 Direkte Implikationen für die Modellbildung ................... 41 3 Varietäten und Akzente in der Sprachtechnologie 43 3.1 Automatische Spracherkennung........................................................ 44 3.1.1 Grundprobleme ................................................................... 44 3.1.2 Adaptionstechniken............................................................. 47 3.1.3 Spracherkennung und fremdsprachliche Akzente.............. 49 3.2 Generierung von Varietäten in der Sprachsynthese ......................... 53 3.3 Exkurs: Eigennamen als sprachtechnologisches Problem............... 56 3.3.1 Linguistische Besonderheiten von Eigennamen................. 56 3.3.2 Sprachtechnologische Studien zu Eigennamen.................. 60 3.4 Varietäten und Akzente in der Sprachtechnologie: Zwischenbilanz................................................................................... 62 4 Vorüberlegungen zu einer regelbasierten Modellierung 65 4.1 Grundproblem: Die Bestimmung von Zielformen........................... 65 4.2 Das Verfahren der lexikalischen Adaption ....................................... 66 4.3 Interindividuelle Variabilität als Modellierungsproblem.................. 70 4.3.1 Die Situation bei Dialekten................................................. 70 4.3.2 Die Situation bei fremdsprachlichen Akzenten.................. 73 4.3.3 Finite-State-Modelle............................................................. 73 4.4 Das Modell prototypischer Akzentstufen ......................................... 78 II. DATENERHEBUNG UND ANALYSE 83 5 Erstellung einer domänenspezifischen Sprachdatenbank 84 5.1 Zur Rolle von Sprachdatensammlungen in Linguistik und Sprachtechnologie ...................................................................... 84 5.2 Beschreibung der Datenbank ............................................................ 87 5.2.1 Sprachen, Sprachenpaare und Sprachrichtungen............... 87 5.2.2 Vorbemerkung zur Selektion von Sprechern...................... 90 5.2.3 Sprecher ............................................................................... 92 5.2.4 Sprachmaterial ..................................................................... 93 5.2.5 Versuchsdesign und -durchführung .................................... 96 5.2.6 Teilaufgaben/Szenarien....................................................... 98 5.3 Lexikon und phonetische Transkription ........................................ 100 5.3.1 Kanonische Transkription................................................. 100 5.3.2 Transkription der Sprachdaten......................................... 101 5.4 Von sprachlichen Daten zu Regeln................................................. 103 5.5 Sprachdatensammlung: Grenzen, Probleme, Ausblick................... 105 6 Fehlertypen und Implikationen für eine regelbasierte Modellierung 108 6.1 Grundlage und Motivation der Fehlertypologie............................. 108 6.2 Substitutionen, Einfügungen, Elisionen .......................................... 109 6.2.1 Vorbemerkung: Die segmentale Betrachtungsweise ........ 109 6.2.2 Typen des Lautersatzes ..................................................... 110 6.2.3 Alternationen der Vokalqualität........................................ 112 6.2.4 Alternation allophonischer Realisierungen ...................... 114 6.2.5 Elisionen ............................................................................ 116 6.2.6 Einfügungen....................................................................... 117 6.2.7 Kontextfaktoren bei Lautsubstitutionen........................... 118 6.3 Die Rolle phonologischer Regeln aus L1 oder L2......................... 119 6.3.1 Sprachspezifische phonologische Regeln ......................... 119 6.3.2 Transfer phonologischer Regeln aus L1 auf L2 .............. 123 6.3.3 Nichtanwendung phonologischer Regeln aus L2............ 126 6.4 Einflüsse der Schriftaussprache ....................................................... 129 6.4.1 Transfer der Graphem-Phonem-Beziehungen .................. 129 6.4.2 Interferenz der Graphem-Inventare und Diakritika ......... 132 6.4.3 Einflüsse der Schriftaussprache: Vorläufiges Fazit........... 136 6.5 Einflüsse der Morphologie.............................................................. 137 6.5.1 „Dual Route“-Strategien bei der Aussprache von Eigennamen ......................................................................

Load more