Masarykova Univerzita Filozofická Fakulta Učitelství Českého Jazyka a Literatury Pro SŠ 2015
Total Page:16
File Type:pdf, Size:1020Kb
Masarykova univerzita Filozofická fakulta Ústav českého jazyka Učitelství českého jazyka a literatury pro SŠ Barbora Kočařová Korpus češtiny nerodilých mluvčích – začátečníků Magisterská diplomová práce Vedoucí práce: doc. PhDr. Klára Osolsobě, Dr. 2015 Prohlašuji, že jsem diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury. ………………………………… Podpis autora práce Na tomto místě bych chtěla poděkovat doc. PhDr. Kláře Osolsobě, Dr. za cenné rady, kon- zultace a odborné vedení mé práce. Poděkování dále patří Bc. Anetě Kselíkové, Mgr. Janě Zmrzlíkové, mým studentům a všem, kteří mi poskytli svůj čas. Anotace Novým zdrojem poznání v oblasti studia a výuky cizího jazyka, respektive druhého jazyka, se staly žákovské korpusy. V teoretické části této práce věnujeme prostor parametrům, koncepci a účelům budování žákovských korpusů. Zároveň popisujeme aktuální stav kor- pusů tohoto typu v českém prostředí. V praktické části představujeme vlastní projekt malé- ho mluveného korpusu češtiny nerodilých mluvčích – začátečníků. Zabýváme se přede- vším otázkami spojenými s převodem mluvených projevů do elektronické podoby. Hlav- ním cílem práce není analýza jazykových schopností nerodilých mluvčích, ale evaluace náročnosti sestavení korpusu podobného typu. Klíčová slova žákovský korpus, mluvené korpusy, čeština jako cizí jazyk, jazyková akvizice, výuka ci- zích jazyků, transkripce Abstract Learner corpora has recently become a new source of data for variety of research in different theo- retical areas, e.g. second language acquisition, didactic and foreign language teaching. In the first part of this thesis the theoretical background is presented. We mainly focus on a parametric description of this highly specialized type of corpora. In the second part the small spoken learner corpus of Czech (beginners) is introduced. The main aim of this thesis is to give an account of the essentials of how corpora are designed and compiled. Beside this the thesis presents current state of learner corpora in the Czech Republic. Key words learner corpora, spoken corpora, Czech as a second language, language acquisition, foreign language teaching, transcription Obsah Úvod ........................................................................................................................................... 7 TEORETICKÁ ČÁST ........................................................................................................... 10 1 Terminologie .................................................................................................................. 10 1.1 Teorie osvojování druhého jazyka .................................................................. 10 1.2 Korpusová lingvistika ..................................................................................... 11 1.3 Přehled českých mluvených korpusů .............................................................. 14 2 Žákovské korpusy ......................................................................................................... 17 2.1 Historie žákovských korpusů .......................................................................... 18 2.2 Typologie žákovských korpusů ...................................................................... 19 3 Rozdíly mezi obecnými a žákovskými korpusy .......................................................... 21 3.1 Velikost korpusu ............................................................................................. 21 3.2 Data ................................................................................................................. 23 3.3 Autentičnost dat .............................................................................................. 25 3.4 Metadata .......................................................................................................... 27 3.5 Anotace ........................................................................................................... 30 4 Korpusy nerodilých mluvčích češtiny jako cizího jazyka a další projekty .............. 34 4.1 CZESL-PLAIN ............................................................................................... 34 4.2 CzeSL-SGT ..................................................................................................... 35 4.3 Mezinárodní projekt MERLIN ....................................................................... 39 4.4 Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem a Databáze CHRUP ........................................................................................... 41 4.5 Shrnutí ............................................................................................................. 43 5 Možnosti a limity žákovských korpusů ....................................................................... 45 5.1 Teorie osvojování druhého jazyka .................................................................. 45 5.2 Pedagogika a didaktika ................................................................................... 48 5.3 Limity žákovských korpusů ............................................................................ 50 PRAKTICKÁ ČÁST .............................................................................................................. 52 6 Mluvený korpus nerodilých mluvčích – začátečníků ................................................. 52 6.1 Mluvčí ............................................................................................................. 52 6.2 Průběh nahrávání ............................................................................................ 53 6.3 Transkripce nahrávek ...................................................................................... 55 6.4 Typy transkripce ............................................................................................. 56 6.5 Výběr transkripčního systému ........................................................................ 60 7 Řešení dílčích jevů ......................................................................................................... 65 7.1 Anonymizace .................................................................................................. 65 7.2 Promluvy tazatele ........................................................................................... 66 5 7.3 Změny jazykového kódu ................................................................................. 67 7.4 Nedokončené promluvy, nesrozumitelné a simultánní úseky ........................ 67 7.5 Interpunkce, pauzy, velká písmena ................................................................. 68 7.6 Ostatní doprovodné zvuky .............................................................................. 68 8 Vytvoření korpusu ........................................................................................................ 69 8.1 Úprava nahrávek ............................................................................................. 69 8.2 Kompilace korpusu v aplikaci Sketch Engine ................................................ 69 9 Zhodnocení praktické části .......................................................................................... 71 Závěr ........................................................................................................................................ 73 Použitá literatura a zdroje ..................................................................................................... 75 Seznam tabulek ....................................................................................................................... 83 Seznam obrázků ...................................................................................................................... 84 Seznam příloh ......................................................................................................................... 85 6 Úvod Klíčovým slovem předkládané diplomové práce je korpus. Pro lingvistiku tento pojem představuje „rozsáhlý soubor elektronicky uložených jazykových textů nebo jejich částí určený k vědeckému výzkumu jazyka“ (Kraus, 2005, s. 338). Obor korpusové lingvistiky se vyvíjel od druhé poloviny 20. století a v roce 2015 již představuje obor s řadou ukončených projektů a etablovaných korpusových pracovišť. S rozvojem nástrojů pro zpracování korpusů roste také jejich velikost, která v některých případech dosahuje k počtu v miliardách slov.1 Toto obrovské číslo tak umožňuje uskutečnit výzkum v rozsahu, který byl dříve zcela nemyslitelný. Na druhou stranu roste počet případů, kdy badatelé chtějí pomocí nástrojů korpusové lingvistiky sledovat jiné kategorie, a pro tyto specifické výzkumné otázky se pak obecný korpus poskytující pohled na jazykový úzus v jeho celku jeví jako nevyhovující. Badatelé tedy vytvoří úzce zaměřený korpus, který je z hlediska korpusové terminologie označován jako speciální nebo specializovaný. Tvorba korpusů tohoto typu představuje aktuálně na poli korpusové lingvistiky celosvětový trend. Předkládaná diplomová práce tento současný směr vývoje odráží a zaměřuje se na tvorbu speciálních korpusů, tzv. žákovských korpusů. Zvolené adjektivum žákovský může být poněkud zavádějící, protože v nás vyvolává asociaci žáka – studenta základní či střední školy. V souvislosti s žákovskými korpusy má však mnohem širší význam. Označuje každého, kdo se učí cizí jazyk. Bylo zvoleno jako rovný ekvivalent k anglickému learner, tj. ten, kdo se učí.2 Jedná se o typ korpusu, který má osvětlit specifický proces osvojování cizího, respektive druhého