Masarykova univerzita

Filozofická fakulta

Ústav českého jazyka Učitelství českého jazyka a literatury pro SŠ

Barbora Kočařová

Korpus češtiny nerodilých mluvčích – začátečníků

Magisterská diplomová práce

Vedoucí práce: doc. PhDr. Klára Osolsobě, Dr.

2015

Prohlašuji, že jsem diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury. ………………………………… Podpis autora práce

Na tomto místě bych chtěla poděkovat doc. PhDr. Kláře Osolsobě, Dr. za cenné rady, kon- zultace a odborné vedení mé práce. Poděkování dále patří Bc. Anetě Kselíkové, Mgr. Janě Zmrzlíkové, mým studentům a všem, kteří mi poskytli svůj čas.

Anotace

Novým zdrojem poznání v oblasti studia a výuky cizího jazyka, respektive druhého jazyka, se staly žákovské korpusy. V teoretické části této práce věnujeme prostor parametrům, koncepci a účelům budování žákovských korpusů. Zároveň popisujeme aktuální stav kor- pusů tohoto typu v českém prostředí. V praktické části představujeme vlastní projekt malé- ho mluveného korpusu češtiny nerodilých mluvčích – začátečníků. Zabýváme se přede- vším otázkami spojenými s převodem mluvených projevů do elektronické podoby. Hlav- ním cílem práce není analýza jazykových schopností nerodilých mluvčích, ale evaluace náročnosti sestavení korpusu podobného typu.

Klíčová slova

žákovský korpus, mluvené korpusy, čeština jako cizí jazyk, jazyková akvizice, výuka ci- zích jazyků, transkripce

Abstract

Learner corpora has recently become a new source of data for variety of research in different theo- retical areas, e.g. second language acquisition, didactic and foreign language teaching. In the first part of this thesis the theoretical background is presented. We mainly focus on a parametric description of this highly specialized type of corpora. In the second part the small spoken learner corpus of Czech (beginners) is introduced. The main aim of this thesis is to give an account of the essentials of how corpora are designed and compiled. Beside this the thesis presents current state of learner corpora in the Czech Republic.

Key words learner corpora, spoken corpora, Czech as a second language, language acquisition, foreign language teaching, transcription Obsah

Úvod ...... 7 TEORETICKÁ ČÁST ...... 10 1 Terminologie ...... 10 1.1 Teorie osvojování druhého jazyka ...... 10 1.2 Korpusová lingvistika ...... 11 1.3 Přehled českých mluvených korpusů ...... 14 2 Žákovské korpusy ...... 17 2.1 Historie žákovských korpusů ...... 18 2.2 Typologie žákovských korpusů ...... 19 3 Rozdíly mezi obecnými a žákovskými korpusy ...... 21 3.1 Velikost korpusu ...... 21 3.2 Data ...... 23 3.3 Autentičnost dat ...... 25 3.4 Metadata ...... 27 3.5 Anotace ...... 30 4 Korpusy nerodilých mluvčích češtiny jako cizího jazyka a další projekty ...... 34 4.1 CZESL-PLAIN ...... 34 4.2 CzeSL-SGT ...... 35 4.3 Mezinárodní projekt MERLIN ...... 39 4.4 Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem a Databáze CHRUP ...... 41 4.5 Shrnutí ...... 43 5 Možnosti a limity žákovských korpusů ...... 45 5.1 Teorie osvojování druhého jazyka ...... 45 5.2 Pedagogika a didaktika ...... 48 5.3 Limity žákovských korpusů ...... 50 PRAKTICKÁ ČÁST ...... 52 6 Mluvený korpus nerodilých mluvčích – začátečníků ...... 52 6.1 Mluvčí ...... 52 6.2 Průběh nahrávání ...... 53 6.3 Transkripce nahrávek ...... 55 6.4 Typy transkripce ...... 56 6.5 Výběr transkripčního systému ...... 60 7 Řešení dílčích jevů ...... 65 7.1 Anonymizace ...... 65 7.2 Promluvy tazatele ...... 66 5

7.3 Změny jazykového kódu ...... 67 7.4 Nedokončené promluvy, nesrozumitelné a simultánní úseky ...... 67 7.5 Interpunkce, pauzy, velká písmena ...... 68 7.6 Ostatní doprovodné zvuky ...... 68 8 Vytvoření korpusu ...... 69 8.1 Úprava nahrávek ...... 69 8.2 Kompilace korpusu v aplikaci ...... 69 9 Zhodnocení praktické části ...... 71 Závěr ...... 73 Použitá literatura a zdroje ...... 75 Seznam tabulek ...... 83 Seznam obrázků ...... 84 Seznam příloh ...... 85

6

Úvod

Klíčovým slovem předkládané diplomové práce je korpus. Pro lingvistiku tento pojem představuje „rozsáhlý soubor elektronicky uložených jazykových textů nebo jejich částí určený k vědeckému výzkumu jazyka“ (Kraus, 2005, s. 338). Obor korpusové lingvistiky se vyvíjel od druhé poloviny 20. století a v roce 2015 již představuje obor s řadou ukončených projektů a etablovaných korpusových pracovišť. S rozvojem nástrojů pro zpracování korpusů roste také jejich velikost, která v některých případech dosahuje k počtu v miliardách slov.1 Toto obrovské číslo tak umožňuje uskutečnit výzkum v rozsahu, který byl dříve zcela nemyslitelný. Na druhou stranu roste počet případů, kdy badatelé chtějí pomocí nástrojů korpusové lingvistiky sledovat jiné kategorie, a pro tyto specifické výzkumné otázky se pak obecný korpus poskytující pohled na jazykový úzus v jeho celku jeví jako nevyhovující. Badatelé tedy vytvoří úzce zaměřený korpus, který je z hlediska korpusové terminologie označován jako speciální nebo specializovaný. Tvorba korpusů tohoto typu představuje aktuálně na poli korpusové lingvistiky celosvětový trend.

Předkládaná diplomová práce tento současný směr vývoje odráží a zaměřuje se na tvorbu speciálních korpusů, tzv. žákovských korpusů. Zvolené adjektivum žákovský může být poněkud zavádějící, protože v nás vyvolává asociaci žáka – studenta základní či střední školy. V souvislosti s žákovskými korpusy má však mnohem širší význam. Označuje každého, kdo se učí cizí jazyk. Bylo zvoleno jako rovný ekvivalent k anglickému learner, tj. ten, kdo se učí.2 Jedná se o typ korpusu, který má osvětlit specifický proces osvojování cizího, respektive druhého jazyka u všech studujících bez rozdíl věku nebo typu vzdělávání.

Práce je rozdělena na dvě části, a to na teoretickou a praktickou. V teoretické části mapujeme vznik žákovských korpusů a zasazujeme jej do teoretického rámce. Především se soustředíme na specifika žákovských korpusů, zejména jejich technických parametrů, které je nutné při tvorbě těchto korpusů naplnit. Zároveň mapujeme oblasti, které mohou čerpat z dat v žákovských korpusech obsažených. V další části představujeme český žákovský korpus a jiné projekty, které svým obsahem úzce souvisí se zpracovávanou problematikou. Sledujeme jejich parametry, stanovené hypotézy a výzkumné cíle.

1 Například české korpusy psaného současného jazyka disponují velikostí přes 2 miliardy slov, viz kapitolu Korpusová lingvistika, s. 8. 2 Termín byl poprvé užit v rámci projektu Inovace vzdělávání v oboru čeština jako druhý jazyk v roce 2008, srov. Štindlová, 2013, s. 15. 7

Následně na základě teoretických východisek prezentujeme náš vlastní projekt, a to projekt malého žákovského korpusu nerodilých mluvčích začátečníků. V praktické části tedy sledujeme problematiku spojenou s tvorbou žákovského korpusu. Konkrétně se zaměřujeme na tematiku sběru nahrávek, přepisování a převodu jazykových dat do elektronické podoby.

Motivace „Potřebujeme širší škálu žákovských korpusů,“3 vyzývá Grangerová (2004, s. 138), která stojí za korpusem ICLE (International Corpus of Learner English), tedy za jedním z prvních nekomerčních žákovských korpusů, jenž začal vznikat na počátku 90. let. V českém prostředí na rozšíření žákovských korpusů apeluje Karel Šebesta. Podle něj sice u menších jazyků typu češtiny nelze v současné době očekávat velký nárůst různorodých žákovských korpusů, projekty by se proto měly zaměřit na pokrytí vývoje jazykových znalostí od počátku (2012b, s. 16). Tato slova a také potřeby vycházející z vlastní pedagogické praxe vyústily ve vytvoření vlastního korpusového projektu.

Cíle diplomové práce Práce se soustředí na naplnění několika cílů. Zaprvé se snaží poskytnout detailnější pohled na aktuální stav na poli tvorby žákovských korpusů. Především je kladen důraz na popis a reflexi projektů žákovských korpusů vznikajících v České republice. Zadruhé se zaměřuje na praktickou stránku těchto projektů, sleduje parametry a kritéria, která jsou zásadní vůbec pro vznik korpusů tohoto typu. Soustředí se tedy více na proces vzniku než na jejich výzkumný dopad. S touto praktickou stránkou také souvisí návrh a následné vytvoření vlastního mluveného korpusu. Návrh a zpracování korpusu bude sloužit jako inspirace pro další badatele, kteří chtějí budovat korpus s podobným zaměřením, ale také jako nástroj pro odhalení potenciálních problémů, které s tvorbou mluvených korpusů souvisejí. Cílem práce tedy není výsledný korpus analyzovat, ale sepsat úskalí, která tvorbu tohoto korpusu doprovázela, a sepsat doporučení z toho plynoucí.

Výchozí projekty Žákovské korpusy propojují především dvě oblasti, a to korpusovou lingvistiku a výzkum osvojování (druhého) jazyka,4 z tohoto důvodu v práci čerpáme z teoretických základů těchto vědeckých disciplín. Z hlediska problematiky žákovských korpusů

3 V anglickém originále: „We need a wider range of learner corpora.“ Překlad vlastní. 4 Grangerová představuje celkem 4 hlavní disciplíny, na kterých staví žákovské korpusy, a to korpusovou lingvistiku, jazykovědné teorie, výuku/didaktiku cizích jazyků a teorii osvojování jazyka, srov. 2002, 15. 8 vycházíme především z poznatků Sylviane Grangerové, jež byla v úvodní části zmíněna jako spolutvůrkyně jednoho z prvních žákovských korpusů. Grangerová působí na belgické univerzitě v Louvaine a je považována za průkopnici tohoto oboru.

Pokud se soustředíme na žákovské korpusy v českém prostředí, musíme zmínit dvě monografie na toto téma. Jsou jimi kolektivní sborník textů Čeština – cílový jazyk a korpusy (Šebesta – Škodová, 2012) a disertační práce Barbory Štindlové s názvem Žákovský korpus češtiny a evaluace jeho chybové anotace (2013). Tato publikace představuje především rozsáhlý informační základ, který doplňuje analýza vybraných světových žákovských korpusů. Analýza se zaměřuje na technické aspekty zpracování projevů nerodilých mluvčích, zejména chybové anotace.

K problematice osvojování češtiny jako cizího jazyka vzniklo několik příspěvků díky programu na Karlově univerzitě s názvem Osvojování a vývoj jazykové a komunikační kompetence u vybraných komunit České republiky. V roce 2014 v rámci tohoto programu vznikl slovník termínů z oblasti teorie osvojování jazyka, jehož autorem je Karel Šebesta. V letošním roce přispěl k dané problematice Jaroslav Mašín (2015) publikací na téma osvojování pragmatické kompetence u nerodilých mluvčích češtiny. Nicméně je stále upozorňováno na nedostatek relevantních studií věnovaných osvojování češtiny jako cizího jazyka (srov. Šebesta, 2012b), proto jsme také čerpali z anglických zdrojů, především z okruhu autorů spojených s michiganskou univerzitou v USA, kterou reprezentuje řada důležitých lingvistů, jejichž poznatky významně obohatily osvojování cizích jazyků jako vědecký obor.

9

TEORETICKÁ ČÁST

1 Terminologie

1.1 Teorie osvojování druhého jazyka Žákovské korpusy jsou silně spjaty s teorií osvojování cizího, resp. druhého jazyka. Tento obor disponuje vlastním souborem termínů, definic a výzkumných metod, proto zde nyní představujeme v diplomové práci často užívané pojmy s jejich anglickým překladem a krátkou definicí. Věříme, že to povede k lepší orientaci v textu, zvlášť když se tato oblast zájmu vyznačuje nadměrným užíváním zkratek, zejména pohybujeme-li se a v anglicky psané literatuře.

Mateřský jazyk, první jazyk, L1 (angl. mother tongue, first language)

Všechny tři pojmy se vztahují k jazyku, který jsme si jako děti osvojili. Někdy se také užívá pojmu rodný jazyk. V některých případech, tj. u multilingválních mluvčích, se tyto pojmy nechápou synonymně a důsledně se rozlišují. Za první jazyk je pak považován ten jazyk, který mluvčí považuje za dominantní (Štindlová, 2013, s. 14). Ovšem mimo tyto případy je rozlišování mezi prvním a mateřským jazykem irelevantní, a proto je v práci užíváme ve stejném významu.

Cizí jazyk, druhý jazyk, L2 (angl. foreign language, second language)

Termínem druhý jazyk se označuje jazyk, který se učíme až poté, co jsme si osvojili mateřský jazyk. Přídavné jméno druhý je zde užito v opozici k prvnímu jazyku, může však označovat i třetí nebo čtvrtý jazyk, kterému se v životě učíme. Upozorňuje se na rozdíly mezi druhým a cizím jazykem. Za učení se druhému jazyku je označována situace, kdy se žák učí L2 v přirozeném prostředí, tj. tam, kde se tento jazyk užívá jako oficiální (např. cizinci studující češtinu v ČR). Naproti tomu cizí jazyk a taktéž učení se cizímu jazyku pak odkazuje k situaci, kdy je jazyk studován v kontextu žákova mateřského jazyka a je mnohem více spojen s výukou v jazykových kurzech (např. Američané studující češtinu v USA) (srov. Gass, 2012, s. 4–5). V tomto textu však v souladu se Štindlovou (2013, s. 14) a Ellisem (1990, s. 6) užíváme spojení druhý jazyk jako pojem zastřešující všechny jazyky, které se žák učí po svém mateřském jazyku, a to bez ohledu na kontext jejich nabývání.

10

Cílový jazyk, TL (angl. target language) Termín odkazuje na jazyk, který je studován a o jehož ovládnutí se studenti snaží (Štindlová, 2013, s. 14). Například pro cizince, kteří se učí češtinu, je čeština také jejich cílovým jazykem.

Osvojování jazyka, akvizice (angl. acquisition)

Je neuvědomovaný proces, během kterého se dítě učí mateřský jazyk (Šebesta, 2014, s. 27).

Osvojování druhého jazyka (angl. second language acquisition)

Oproti osvojování prvního jazyka, které je neuvědomovaným procesem, tento pojem zastřešuje jak podvědomé, tak i vědomé procesy (tzn. studium jazyka), během kterých je jazyk učen, a to v přirozeném nebo řízeném prostředí ve vyučovacích hodinách (Ellis, 1990, s. 6).

Žákovský jazyk (angl. learners language)

Žákovský jazyk jsme pro účely práce definovali jako jazyk a jazykové projevy (psané i mluvené) nerodilých mluvčích.

Elicitace (angl. elicitation)

V tomto textu pod pojmem elicitace rozumíme techniku sběru jazykových dat, která spočívá ve vyvolávání reakcí žáka (mluvených nebo psaných) na základě různých podnětů (Šebesta, 2014, s. 27).

1.2 Korpusová lingvistika V této kapitole se zaměříme na terminologii z oblasti korpusové lingvistiky. Představíme aktuální stav projektů publikovaných pod hlavičkou Ústavu Českého národního korpusu (dále jen ČNK) i mimo něj. Prezentovanou terminologii užíváme právě v souladu s Českým národním korpusem, a proto jsme převážně čerpali ze slovníku pojmů z korpusové lingvistiky, který je dostupný na webu ČNK.

Korpus Termín korpus (angl. corpus) je zcela zásadním pojmem, protože samotný vznik korpusů mohl dát vzniknout nové lingvistické disciplíně – korpusové lingvistice, ze které dnes čerpáme. V lingvistice korpus představuje rozsáhlou sbírku autentických, tj. z reálných situací získaných textů. Jedná se o texty svým charakterem mluvené nebo 11 psané, které jsou převedeny do elektronické podoby v jednotné standardizované formě, tak aby v nich bylo možné opakovaně vyhledávat požadované jazykové jevy včetně informací o jejich původu. Někteří lingvisté užívají pojmu korpus v jeho obecnějším významu. Následně pak rozlišují mezi korpusem ve smyslu jakékoliv sbírky textů a počítačovým korpusem (angl. computer corpus), který pak souhlasí s definicí popsanou výše (srov. Sinclair, 1996, online). Z tohoto důvodu je v literatuře i o žákovských korpusech, které jsou hlavním zájmem této diplomové práce, v některých případech referováno jako o počítačových žákovských korpusech (srov. Díaz-Negrillo – Fernánduez-Domínguez, 2006, s. 84). V předkládané práci pojem korpus v souladu s ČNK používáme pouze ve smyslu počítačem zpracované sbírky jazykových dat.

Korpusová typologie Počet publikovaných korpusů neustále roste, zároveň každý nově vznikající korpusový projekt se snaží zachytit jiné speciální cíle. Nicméně ve všech projektech lze nalézt určité pevné body, které umožňují korpusy kategorizovat. V této práci představujeme obecnou typologii podle tradičně sledovaných kritérií, a to na základě počtu jazyků, obsahu, časového záběru a kategorie módu.5

Korpusy podle počtu jazyků

V současné době vedle dominantních korpusů monolingvních můžeme sledovat vznik a vývoj korpusů bilingvních a multilingvních, jež nabývají na důležitosti (srov. Čermák, 2011, s. 16). Za hlavní představitele multilingvních korpusů jsou označovány korpusy paralelní. Tyto korpusy se dále dělí do dvou skupin, a to na srovnatelné paralelní korpusy, které se snaží o srovnatelnost v oblasti kvality a kvantity (stejný obsah a rozsah), a překladové. Ty jsou složeny z originálních textů a jejich překladů. Korpusy zpracovávající více jazyků umožnují jazykové srovnání.

Korpusy podle obsahu

Korpusy mohou zpracovávat obecné jazykové projevy bez ohledu na téma zpracování, pouze z hlediska časového záběru k nim referují buď jako k synchronním, nebo diachronním (viz odstavec Korpusy podle časového záběru). Oproti nim se vymezují korpusy označované jako speciální, někdy též specializované, které zpřístupňují úzce

5 Typologie korpusů není jednotná. Například František Čermák rovněž pracuje se 4 kritérii jako my, tato kritéria však nejsou zcela totožná (srov. Čermák, 2011, s. 14–17). ČNK pracuje s 6 kritérii, srov. Cvrček – Richterová, 2004a, online. 12 vymezený jazyk, například v podobě úzce vybrané skupiny respondentů nebo úzkého vědeckého cíle, a tak nás informují o užívání jazyka ve specifických situacích. Ve srovnání s tím se obecné korpusy snaží poskytnout pohled na jazykový úzus jako celek (Cvrček – Richterová, 2013b, online).

Korpusy podle časového záběru

Na základě časového záběru se korpusy dělí na synchronní a diachronní. Synchronní korpusy usilují o zachycení podoby jazyka v jednom období, které je většinou úzce vyměřené. V praxi to znamená, že se korpusy zaměřují na současný živý jazyk, tj. jazyk, který je užíván žijícími mluvčími. Jejich tvorbu doprovází přísné zásady, které musí být naplněny z hlediska této časové zásady (Cvrček – Richterová, 2013, online). Na rozdíl od synchronních korpusů se diachronní korpusy nezaměřují pouze na jedno časové období, ale snaží se pokrýt delší časový úsek. Díky tomu mohou poskytnout možnost badatelům zkoumat jazykový vývoj. Do této kategorie také spadá další typ korpusu označovaný jako monitorovací (Cvrček – Richterová, 2014a, online). Na rozdíl od výše prezentovaných typů není ukončený, tj. do již sestaveného korpusu se mohou stále přidávat nové texty. Tím vzniká možnost sledovat určité jazykové jevy v jejich časových proměnách. Nicméně tento typ korpusů není příliš často zastoupen, a to z důvodu jeho velmi komplikovaného budování (srov. Čermák, 2011, s. 17).

Korpusy podle módu

Pokud se zaměříme na mód korpusů, pracujeme s rozdělením na psané a mluvené korpusy, přičemž psané korpusy dnes představují nejběžnější typ korpusů. Za tímto faktem stojí především pragmatické důvody spojené s dostupností psaných dat a jejich možného přímého elektronického zpracování, například díky elektronické sazbě tiskovin a knih. Právě komplikace technického rázu stojí za menším rozšířením mluvených korpusů. Mluvený projev je přepsán podle určitých pravidel a v ideálním případě také propojen se zvukovou stopou, kterou můžeme doplnit příslušný přepis nahraného projevu. Kombinací různých módů vznikají relativně nové typy korpusů, tzv. multimodální, někdy též označované jako multimediální. Ty se snaží psané texty obohatit o další sledovatelné jevy (neverbální komunikace) například v podobě doprovodného videozáznamu. V oblasti mluvených korpusů se dále vymezuje speciální typ mluveného korpusu, tzv. korpus

13 projevu (angl. speech corpus).6 Představuje soubor projevů různých mluvčích, kteří čtou stejný text. Výzkum je zaměřen na detailní výzkum fonetické stránky jazyka (Sinclair, 1996, online).

Český národní korpus

Korpusovou lingvistiku v České republice reprezentuje Český národní korpus, což je nekomerční akademický projekt založený v roce 1994 profesorem Františkem Čermákem a institucionálně zaštítěný Ústavem Českého národního korpusu při FF UK. ČNK poskytuje přístup ke svým korpusům a korpusovým nástrojům zdarma a zároveň nabízí prostor pro zpřístupnění korpusům, které vznikly mimo ČNK (Cvrček – Richterová, 2014a, online). V současné době ČNK zastupuje všechny typy korpusů, mimo korpus multimodální. Dosud bylo v korpusech zpracováno a zpřístupněno přes 2,2 miliardy slov v českých jednojazyčných a 850 milionů slov v cizojazyčných paralelních korpusech (informace platná k 22. 10. 2015, srov. Cvrček – Richterová, 2015b, online).

1.3 Přehled českých mluvených korpusů V této kapitole představujeme aktuální přehled českých mluvených korpusů. V další části práce, zejména té praktické, je k vybraným korpusům poměrně často odkazováno, proto poskytujeme alespoň základní informace o těchto projektech. Zařazení některých korpusů do přehledu doprovázely komplikace, především v nejasném typologickém zařazení korpusu. Jedná se především o korpus, jenž je složen z mluvených a psaných projevů romských dětí a mládeže. Je zveřejněn jako subkorpus korpusu CZESL- PLAIN, který je v rámci ČNK řazen mezi korpusy psané. V přehledu jsme se rozhodli respektovat zavedený systém ČNK a zařazujeme zde pouze ty korpusy, které sami autoři ČNK zařadili do kategorie mluvených korpusů (srov. Cvrček – Richterová, 2015b, online). Na přehledu, případně v zobecněné tabulce (viz tabulku 1) lze pozorovat široké rozpětí korpusových projektů a zároveň jistou nesouměrnost mezi počtem obecných a speciálních korpusů. Ty oproti obecným disponují menší velikostí a tedy i menší časovou náročností pro komplikaci korpusu, což může být i vysvětlení pro zvyšující se počet korpusů tohoto typu. Údaj v závorce představuje užívanou zkratku projektu a rok jeho zveřejnění.

6 Záměrně zvýrazňujeme anglický termín, neboť v češtině dosud není tento typ korpusů zaveden a není k němu tedy často užívaný ekvivalent. 14

Korpusy dostupné přes webové rozhraní ČNK

Pražský mluvený korpus (2001) Historicky první český mluvený korpus, který vznikl pod vedením Františka Čermáka. Zachycuje autentickou mluvu z Prahy a blízkého okolí v časovém rozpětí let 1988 až 1996. Podařilo se tak zachytit jazyková data dvou společenských období (před a po roce 1989).

Brněnský mluvený korpus (2002) Speciální regionální korpus mluvené češtiny z Moravy. Konktrétně zpracovává nahrávky autentického jazyka z města Brna, jež byly pořízeny v letech 1994–1999. V rámci ČNK je to první korpus založený na jazykových datech z Moravy. Na tvorbě se podílel autorský kolektiv z Filozofické fakulty Masarykovy univerzity pod vedením Z. Hladké (Cvrček – Richterová, 2014c, online).

Korpusy řady ORAL (2006, 2008, 2013) Tuto řadu korpusů spojuje jejich obsah. Všechny korpusy zpracovávají nahrávky vzniklé výhradně v neformálních situacích, kdy se mluvčí vzájemně znali. Liší se pouze v letech, kdy pro ně probíhal sběr, a v pokrytí území České republiky. Sběr dat pro korpus ORAL2006 probíhal v letech 2002–2006 pouze na území Čech, pro korpus ORAL2008 sběr probíhal mezi lety 2002 a 2007 a rovněž zaznamenává mluvu Čech. Nahrávky pořízené nejen v Čechách, ale zároveň i na Moravě a ve Slezsku jsou součástí korpusu ORAL2013. Sběr probíhal v letech 2008 a 2011. Mimo to se korpus odlišuje i v jiných rysech, například je možné v korpusovém manažeru propojit přepis se zvukovou stopou.

Korpus SCHOLA2010 (2010) Korpus tvoří přepis nahrávek vyučovacích hodin pořízených na základních a středních školách v různých částech České republiky mezi lety 2005–2008. Projekt je pojatý interdisciplinárně, tzn. není určen primárně pro lingvisty, ale také pro pedagogy a sociology (Cvrček – Richterová, 2015d, online).

Korpus SPEECHES (2015) Představuje velmi specializovaný korpus mapující prezidentské projevy (příp. projevy politiků v zastoupení prezidenta) pronesené u příležitosti výročí a svátků. Vybrány byly ty svátky, které se periodicky opakují, např. novoroční projev. Svým charakterem v korpusové typologii se nachází mezi korpusy mluvenými a psanými, protože se jedná o psané texty určené ke čtenému projevu (Cvrček – Richterová, 2015c, online).

15

Korpus ORTOFON a DIALEKT (předpokládané zveřejnění 2016) Jedná se o dva korpusové projekty ve výstavbě. První z nich, ORTOFON, shromažďuje různé neformální projevy širokého spektra mluvčích. Navazuje na metodologii předchozích mluvených korpusů stejného typu, tj. korpusů řady ORAL. Oproti nim nabídne badatelům tři různé typy transkripce – fonetickou, ortografickou a metalingvistickou. Druhý aktuálně budovaný korpus DIALEKT představuje diachronní typ korpusu. Zpracovává nahrávky mluvčích různých českých nářečí mezi lety 1960 až 1990.

Korpusy nepublikované na stránkách ČNK

Korpus DIALOG 1.2 (DIALOG, 2015) Speciální multimediální korpus mluvené češtiny. Je založen na veřejných jazykových projevech z diskuzních pořadů českých televizí, např. Otázky Václava Moravce, Uvolněte se, prosím aj. Zpracovává pouze dialogy. Korpus uživatelům nabízí možnost pracovat s nahrávkami, přepisy i odpovídajícími videozáznamy. Korpus DIALOG 1.2 představuje aktuální verzi, obsahující více než 1 milion textových pozic, dostupné jsou však i jeho verze předchozí. Korpus spravuje Ústav pro jazyk český Akademie věd České republiky ve spolupráci s Ústavem formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy (Korpus Dialog, 2015, online).

Olomoucký korpus mluvené češtiny (OMK, předpokládané zveřejnění podzim 2015) Systematicky budovaný korpus, který doplňuje osu regionálních mluvených korpusů Praha – Brno – Olomouc, vzniká na Palackého univerzitě v Olomouci od roku 2002. Tento několikaletý vývoj doprovází metodologické a koncepční změny, jež jsou nejspíše důvodem, proč korpus nebyl zatím veřejně publikován (srov. Pořízka, 2008).

Mluvený korpus – Velikost (v počtu Rok zveřejnění obecný slov) ORAL2006 1 milion 2006 ORAL2008 1 milion 2008 ORAL2013 2.8 milionu 2013 Mluvený korpus – Velikost (v počtu Rok zveřejnění speciální slov) PMK 675 tisíc 2001 BMK 490 tisíc 2002 SCHOLA2010 790 tisíc 2010 DIALOG 1.2 1 milion 2015 SPEECHES 215 tisíc 2015

Tabulka 1 Přehled zveřejněných českých mluvených korpusů k 20. 11. 2015, Zdroj: vlastní kompilace 16

2 Žákovské korpusy

V předchozí kapitole jsme prezentovali terminologii dvou různých oborů, a to teorie osvojování druhého jazyka a korpusové lingvistiky. Tyto obory spojuje zájem o cizí jazyky, který vykrystalizoval do podoby dvou formálních přístupů. První z nich se nazývá Data-driven Learning a spočívá především v přímém zapojení korpusu do výuky. Studenti mají možnost pracovat s korpusovými nástroji nebo s cvičeními, která jsou na korpusových datech založena. K poznání určitého jazykového systému tak dochází skrze autentická a aktuální data, kterými korpusy disponují, studenti mohou uplatňovat vlastní pozorování následované dedukcí a generalizací. V případě češtiny jako cizího jazyka tento přístup reprezentují práce Pavlíny Vališové nebo také učebnice Česká čítanka (2013), která zpracovává především problematiku vidu na základě upravených dat z Českého národního korpusu. Jedná se ovšem o publikaci na českém trhu dosud ojedinělou.

Aplikovaná lingvistika zabývající se jazykovým vzděláváním tedy může využívat data z korpusu rodilých mluvčích, v poslední době se však soustřeďuje na bližší poznání jazyka studentů, a to na různých stupních vývoje. Druhý přístup tedy spočívá ve využití základních metod, principů a nástrojů korpusové lingvistiky pro podrobnější deskripci žákovského jazyka s obecným cílem zlepšit jazykové vzdělávání. V rámci tohoto přístupu vznikl nový významný nástroj – žákovský korpus (angl. learner corpus),7 který je, jak uvádí Geoffrey Leech, užitečným zdrojem pro všechny, kteří chtějí zkoumat, jak se lidé učí jazyky a jak by se je mohli učit lépe (1998).

Vznik žákovských korpusů koresponduje se současným trendem na poli korpusové lingvistiky. Ten je charakteristický dynamickým rozvojem specializovaných korpusů, které se snaží detailněji zachytit vybrané aspekty psané či mluvené komunikace z různých pohledů (dialektologie, sociolingvistika, psycholingvistika).8

7 V angličtině tento typ korpusů můžeme najít ještě pod pojmy interlangue corpus nebo L2 corpus. V češtině můžeme najít označení studijní korpus (Čermák, 2004). 8 Viz Přehled mluvených korpusů speciálních, s. 13. 17

2.1 Historie žákovských korpusů Samostatně vznikající žákovské korpusy jsou relativně novými nástroji pro poznání jazyka studentů – nerodilých mluvčích. Vznikají zhruba od devadesátých let 20. století a ideově navazují na nedigitalizované korpusy žákovského jazyka, které byly sbírány v Anglii během 60. a 70. let za účelem chybové analýzy (Štindlová, 2013, s. 47). Již dříve začaly vznikat tzv. akviziční korpusy (angl. acquisition corpora), které s uvedenými korpusy úzce souvisí, neboť mohou obsahovat rovněž data od nerodilých mluvčích. Vznik těchto specializovaných korpusů byl motivován zejména studiem osvojování jazyka u dětí, respektive žáků, což je etablovaný lingvistický obor s dlouholetou tradicí a řadou již dokončených projektů.

Jedním z těchto projektů, který bychom chtěli v práci zmínit, je databáze The Child Language Data Exchange Systém (CHILDES). Práce na něm inicioval Brian MacWhinney, který chtěl vytvořit centrální úložiště dat pro výzkum osvojování jazyka dětmi. Korpus obsahuje audio a video nahrávky s jejich přepisy, představuje tak dosud největší soubor akvizičních korpusů na světě. Brian MacWhinney v roce 2002 dokončil další velkolepý projekt. V průběhu práce na CHILDES si uvědomil, že jazyk je v centru pozornosti několika vědeckých disciplín, které se na jazyk dívají různým způsobem, např. psychologie, informatika, lingvistika. Každý obor disponuje vlastními soubory nahrávek, které specificky využívá. V momentě, kdy se rozhodly všechny obory svá data propojit, vznikla multimediální databáze TalkBank, která se už nezaměřuje pouze na dětský jazyk, ale na komunikaci obecně. Hlavními kategoriemi jejího zájmu jsou komunikace mezi zvířaty, diskurz školního vzdělávání, gesta a znaky, text a diskurz, lingvistický výzkum a technický vývoj počítačového zpracování jazyka. Databáze TalkBank pracuje na principech otevřeného přístupu a hlavně sdílení výzkumného materiálu. Projekt je zaštítěn Carnegie Mellon University v USA (TalkBank, online).

Na žákovské korpusy pak můžeme společně s Karlem Šebestou nahlížet jako na funkční podtyp akvizičních korpusů. Samotné akviziční korpusy Šebesta vymezuje na základě jejich funkce, kterou je primárně studium principů osvojování jazyka takovými mluvčími, kteří neovládají vybraný jazyk na úrovni dospělého rodilého mluvčího (2012a, s. 5). K hlavní motivaci pro budování žákovských korpusů tedy patří úsilí shromáždit data, podle nichž lze poznat jazyk určité skupiny a jeho specifika. Výsledná data pak umožňují

18 komparaci s jazykem rodilých mluvčích a následný popis shod či odchylek od standardu. V tomto korpusu se tak mohou objevit vstupy pocházející od dětí přes dospělé mluvčí z jiného sociálního prostředí až po cizince.9

2.2 Typologie žákovských korpusů V předchozí kapitole o korpusové lingvistice jsme dosud existující korpusy rozdělili podle základních kategorií (např. jednojazyčné korpusy, synchronní či diachronní). Pokud bychom tato kritéria uplatnili také na žákovské korpusy, zjistíme, že jsou obvykle jednojazyčné, popisující jazyk obecný. Korpusy jako například Indiana Business Learner Corpus, který je zaměřen na osvojování specifické slovní zásoby obchodní angličtiny, je spíše výjimkou, jak zmiňuje S. Grangerová (2002, s. 10). Z hlediska časového záběru patří do kategorie synchronních korpusů, neboť zachycují jazykové projevy studentů v jednom konkrétním čase. Pokud korpus pokrývá nějaké delší časové období (nejlépe roky) a mapuje vývoj studentových znalostí, používáme pojem longitudinální korpusy. Vzhledem k časové a technické náročnosti těchto projektů jsou tyto typy korpusů zastoupeny v malém množství.

Častěji se setkáme s pseudolongitudinálními (někdy též kvazilongitudiálními) korpusy, které srovnávají studenty, například v první třídě na základní škole a poté ve třetí, s cílem analyzovat stupeň pokroku nebo naopak úpadku získaných znalostí (tamtéž, s. 8). Komplikace spojené s tvorbou těchto specifických korpusů také vysvětlují to, proč se většina zaměřuje pouze na analýzu psaných projevů.

Barbora Štindlová ve své disertační práci uvádí 7 kritérií, podle kterých lze existující korpusy rozdělit. S výše uvedeným popisem se Štindlová shoduje v dělení na žákovské korpusy psané a mluvené a podle charakteru časového období, tj. synchronní nebo longitudinální. Typologii pak doplňuje podle kritéria cílového jazyka, když rozděluje žákovské korpusy na ty, které se zaměřují na angličtinu jako cizí jazyk a ostatní – neanglické. Další přidané kritérium je prostředí nebo spíše sféra, ve které dané korpusy vznikají. Hovoříme tak o korpusech komerčních a nekomerčních.

Poté se Štindlová zaměřuje na technickou stránku korpusů a rozděluje korpusy na ty se systematickou chybovou anotací podle jasně vymezených principů a na korpusy s částečnou nebo žádnou anotací. Za další možné kritérium označuje první jazyk mluvčích.

9 S tímto obecným zaměřením pak pracuje i v Česku projekt AKCES, více viz kapitolu Žákovské korpusy v České republice. 19

Žákovský korpus se může orientovat na projevy mluvčích s jediným nebo více mateřskými jazyky. Poslední uváděné kritérium se týká rozsahu, což je kritérium poměrně sporné, jak si přiblížíme v následující kapitole, nicméně jej v práci zachováváme.

My typologii v souladu s popisem světových korpusů na webových stránkách louvainské univerzity (UCL, 2015, online) rozšiřujeme o další 2 kritéria, a to o kritérium úrovně a kritérium dostupnosti. V případě úrovně máme na mysli úroveň jazykových znalostí žáka v kontextu osvojování druhého jazyka. Tato úroveň může mít podobu slovního popisu (např. mírně pokročilý) nebo standardizovanou podobu podle Společného evropského referenčního rámce pro jazyky (např. A1). Žákovské korpusy se mohou zaměřovat na sběr dat od žáků jedné úrovně nebo bez omezení na více úrovní. V případně dostupnosti sledujeme informaci, zda je korpus dostupný veřejnosti (např. online) či nikoliv.

Pro lepší orientaci ve výše zmíněných kritériích, na základě kterých bývají žákovské korpusy posuzovány, prezentujeme následující tabulku. V tabulce uvádíme obecnou typologii B. Štindlové rozšířenou o naše kritéria.10

Kritérium

cílový jazyk angličtina jiný

původ akademický komerční

sběr dat průřezový longitudinální

rozsah velký malý

médium psaný mluvený

chybová anotace ano ne

první jazyk jeden více

úroveň jedna více

veřejně dostupný ano ne

Tabulka 2 Kritéria žákovských korpusů. Zdroj: vlastní kompilace.

10 Světové korpusy, které v práci uvádíme, souhrnně prezentujeme spolu se sledovanými kritérii v příloze této práce. 20

3 Rozdíly mezi obecnými a žákovskými korpusy

Korpusy jsou rozsáhlé soubory autentických textů, které jsou svou povahou psané nebo mluvené. Tyto texty jsou následně převedeny do elektronické podoby tak, aby v nich bylo možné pomocí počítačových nástrojů vyhledávat a aby s nimi bylo možné jednoduše pracovat. V takových podmínkách je pak umožněn jazykový výzkum, který byl v takovém rozsahu dříve nepředstavitelný (Cvrček – Richterová, 2014a, online). Na této základní definici obecných jazykových korpusů si můžeme všimnout, na které parametry je kladen důraz. Jedná se především o rozsah či velikost korpusu, výběr materiálu s důrazem na jeho autenticitu, převod do elektronické podoby a metody práce s výsledným korpusem.

Ve všech výše zdůrazněných parametrech se žákovské korpusy více či méně odlišují od těch obecných, proto se v této kapitole budeme věnovat právě možným odchylkám a jejich vysvětlení. Výsledný popis těchto klíčových parametrů nám pak poslouží k charakteristice českého žákovského korpusu a také k popisu výchozích kritérií, která byla zásadní pro náš projekt žákovského korpusu začátečníků.

3.1 Velikost korpusu Korpusy obsahují velký počet slov a zároveň se předpokládá, že jejich velikost bude neustále růst. V podstatě můžeme říct, že shromažďovat data ve velkém množství je hlavním záměrem budování korpusů (Sinclair, 1996, online).11 V případě, že označujeme jazykové korpusy přídavným jménem rozsáhlé nebo velké, musíme se spoléhat na jistou vágnost, která toto vyjádření doprovází. Co v tomto případě znamená velký korpus, respektive jaká je ideální velikost korpusu? Neaspirujeme zde na zodpovězení této velmi komplikované otázky, nicméně se pokusíme do problematiky rozsahu žákovských korpusů nahlédnout blíže. Velikost je totiž první kritérium, které musíme zhodnotit, chystáme-li se korpus vytvářet či na základě korpusových dat stanovovat teorie a výzkumné cíle.

11 V anglickém originálu: „The default value of Quantity is large. A corpus is assumed to contain a large number of words. The whole point of assembling a corpus is to gather data in quantity.“ 21

Obecné jazykové korpusy vykazují velikost v celkovém počtu slov, tento údaj je udáván v milionech (např. český mluvený korpus ORAL2013, celkem 2,8 milionu slov)12 nebo dokonce v miliardách (např. The Oxford English Corpus, celkem 2,5 miliard slov). Tak vysoká čísla rozhodně nemůžeme čekat u žákovských korpusů, a to z několika důvodů. Zaprvé menší rozsah ovlivňuje náročnost sběru požadovaných vzorků. Tím nechceme tvrdit, že sběr dat pro obecné korpusy nenaráží na určité překážky a meze, ale snažíme se zde vyzdvihnout zejména specifika související se sběrem dat pro žákovské korpusy. Jazyková produkce nerodilých mluvčích je dostupná v mnohem menším objemu ve srovnání s projevy rodilých mluvčích. Náročnost se ještě navíc úměrně zvyšuje tomu, jak specifický korpus tvoříme. Obecně se za nejsložitěji dostupná data označují ta pro korpusy longitudinální, tj. časosběrné, které monitorují jazykový vývoj jednotlivce nebo skupiny po určitou dobu (viz kapitolu Typologie žákovských korpusů).

Korpusy velkou velikostí disponují zejména v případech, kdy je navázaná spolupráce se školami nebo jinými často vzdělávacími organizacemi. Takovým příkladem je The Cambridge Learner Corpus, který zpracovává psané eseje z mezinárodně uznávaných zkoušek z angličtiny, jež jsou dostupné v řadě zemí celého světa včetně České republiky. Tento korpus aktuálně udává velikost 50 milionů slov (, 2015, online).

Zadruhé je rozsah limitován způsobem zpracování dat. Projevy se sbírají jako nahrávky nebo jako texty v rukopisné podobě. Badatelé tedy musí manuálně přepisovat jak materiál mluvený, tak i psaný. Využívat přímo počítač nebo jiná zařízení pro tvorbu psaného materiálu není obecně bez výhrad přijímáno, a to například z obavy o ovlivnění materiálů textovými editory pomocí automatických oprav.13 Někteří badatelé se textům psaným na počítači vyhýbají záměrně, protože chtějí sledovat i mimojazykové jevy v psaných projevech žáků, které vznik textu doprovází. Za mimojazykové jevy se v tomto případě považují sekundární zásahy autora do textu v podobě přepisování, vpisování, škrtání atd. Naopak jiní badatelé možnosti přímého zpracovaní dat počítačem vnímají jako výhodu a na základě textů psaných na počítači pak budují své korpusy. To je případ

12 Velikost dalších českých korpusů viz http://wiki.korpus.cz/doku.php/cnk:uvod. 13 Z vlastní pedagogické praxe znám případy, kdy texty žáků, kteří je psali v rámci domácí přípravy na počítači, velmi často neodpovídají jejich úrovni a znalostem, a to nejen ve sledované slovní zásobě, ale také v užívané gramatice.

22 longitudinálního anglicko-německého korpusu, který zpracovává elektronickou komunikaci při tvorbě různých seminárních projektů mezi Američany a Němci v letech 2000 až 2005. Telecollaborative Learner Corpus of English and German Telecorp a další korpusy tohoto typu zároveň významně problematizují korpusovou typologii, neboť se nejedná o psané texty v pravém slova smyslu, ale o texty psané na počítači.14

Autoři publikace Working with specialized language: a practical guige to using corpora zdůrazňují, že velikost korpusu závisí především na jeho vymezení a na výzkumných cílech projektu. V momentě, kdy potřebujeme získat slovní zásobu pro výuku jazyka technických odvětví, je pro nás přínosnější pracovat s malým korpusem, který tuto oblast zpracovává (tj. jako data využívá brožury technických podniků, katalogy, popisy produktů, návody na jejich instalaci a používání), na rozdíl od velkého obecného korpusu. Sami autoři sledují konkordance15 pro výraz matka, matice (angl. nut). Mimo zachycení různých typů matek výsledky z korpusu ukazují rovněž další typicky užívanou slovní zásobu, jako jsou slovesa našroubovat, upevnit (angl. screw, tighten) a také nástroje, které pro práci s matkami můžeme využít. V momentě, kdy stejný výraz sledovali v obecném korpusu, získali sice více výskytů, relativní k cílené slovní zásobě však bylo minimum. Ostatní konkordance zachytily užití slova matka v jiných než technických konotacích (Bowker – Pearson, 2002, s. 46–49).

Malý rozsah tedy může představovat jistá omezení (například v možnostech výzkumné práce a její generalizace), ale také může nabízet nesporné výhody, jak prokázalo porovnání úzce specializovaného a obecného korpusu výše, proto jsou často žákovské korpusy budovány s velmi úzkým zaměřením, např. zpracovávají pouze projevy od mluvčích se společným prvním jazykem aj. Tím se také zvyšují nároky na výběr segmentu mluvčích, což je už spíše problematika materiálu, se kterým korpusy pracují, a to svým obsahem patří do následující kapitoly.

3.2 Data Složení korpusu se jeví stejně důležitým parametrem jako samotná velikost. Pro výzkum je podstatný rozdíl v tom, zda pracujeme s korpusem s počtem 20 000 slov, která jsou kompilací textů od různých autorů, nebo s korpusem o stejné či větší velikosti tvořeným texty od jednoho či maximálně dvou autorů. S tímto tvrzením korespondují také

14Angličtina používá pro upřesnění významu i jiné sloveso – write vs. type. 15Konkordance představuje výskyty slova spolu s jeho okolním kontextem (ČNK, 2015, online). 23 slova Ellise (1994, s. 676), když říká, že dobrý výzkum je takový, který využívá více zdrojů dat.16 Tento citát jsme nevybrali náhodně. Rod Ellis přispěl řadou odborných esejů k problematice osvojování jazyka a jeho poznatky jsou klíčové, pokud se chceme podívat blíže na charakter jazykových dat v žákovských korpusech. Jazyk, na který se žákovské korpusy zaměřují, vykazuje určitá specifika a je k němu v odborné literatuře referováno jako k mezijazyku (angl. interlanguage).

Mezijazyk Tento pojem, který byl poprvé použit L. Selinkerem,17 vznikl za účelem vysvětlit, jak vůbec osvojování druhého jazyka funguje, jaká je jeho lingvistická reprezentace a jak se tato reprezentace mění v čase. Žákovský jazyk představuje proměnlivý a dynamický systém. Mimo jazykové jednotky jazyka, který si žák osvojuje, se zde objevují i jednotky jiné, například z mateřského jazyka. Je řízen abstraktními pravidly, která jsou výsledným souborem toho, jak nerodilý mluvčí rozumí cílovému jazyku (Mašín, 2015, s. 9–10). Teorie osvojování jazyka si pak za svůj cíl klade odtajnit principy užívání žákovského jazyka v různých fázích jeho nabývání a jeho specifika, případně odchylky od jazyka cílového, který reprezentují projevy rodilých mluvčích. Přitom na tento jazyk nenahlíží jako na nějakou nestandardní formu národního jazyka, ale naopak jej vidí jako zcela svébytný útvar, proto podle některých badatelů je primární funkcí žákovských korpusů sloužit jako zdroj pro výzkumy mezijazyka, tak jak jsme jej popsali výše (např. Šebesta, 2012b, s. 17).

Charakteristika jazykových dat Pokud se podíváme na sbíraný materiál blíže, můžeme jej rozdělit podle dvou základních kritérií typologie žákovských korpusů, a to na data průřezová a longitudinální. Nicméně bylo by chybou vnímat toto rozdělení jako paradigmatické, neboť korpusy mohou obsahovat i data smíšená. Průřezová data tvoří projevy velkého počtu žáků sledované v jedné etapě jejich jazykového vývoje. Tato data se od longitudinálních odlišují především v tom, že zahrnují velký počet žáků. To umožnuje badatelům vybrané jevy sledovat a analyzovat v kvantitativní podobě a následně prezentovat výzkum se statistickými a frekvenčními údaji (Gass, 2013, 35–40). Na druhou stranu data často mají

16 V anglickém originále: „Good research is research that makes use of multiple sources of data.“ 17Americký lingvista působící na michigenské univerzitě, více informací na http://www.lsa.umich.edu/linguistics/people/ci.selinkerlarry_ci.detail.

24 experimentální formát, to znamená, že pochází z předem stanovených úkolů za předem určených výzkumných podmínek. Obecně tedy můžeme říci, že jsou primárně sbírána za účelem jejich měřitelnosti.

Longitudinální data jsou projevy malé skupiny objektů, které jsou sbírány v určitých časových intervalech, například týdně, měsíčně, ročně. Soustřeďují se tedy na data od stejné skupiny v různých vývojových stadiích. Velmi často mají výzkumy založené na tomto typu dat deskriptivní charakter prezentovaný ve formátu případových studií s důrazem na detailní popis doplňujících informací, jako je sociální zázemí, osobnost žáka aj. Soustředí se na popis konkrétního jazykového jevu nebo jiných jazykových specifik, nikoliv však za účelem jejich plošné generalizace. Jazykové projevy jsou častěji získávány ze spontánních reakcí výzkumného subjektu, a proto se jich příliš netýká problematika autenticity, jako je tomu v případě dat průřezových (Gass, 2013, 35–40). Pracujeme-li tedy s daty u žákovských korpusů, je nutné sledovat také okolnosti jejich vzniku a posoudit, zda jsou či nejsou autentické.

3.3 Autentičnost dat Popisem jazykových dat v žákovských korpusech jsme se tak dostali k velmi důležitému pojmu užívanému v korpusové lingvistice, a tím je autentičnost dat. Do obecných jazykových korpusů se primárně zařazují pouze projevy, které jsou autentické, tj. vznikly za jiným než výzkumným účelem v reálné, a tedy autentické situaci. Žákovské korpusy mohou jen minimálně čerpat z takovýchto situací, zejména pokud se snaží zachytit projevy žáků s nižší úrovní jazykových znalostí. Tyto projevy jsou navíc téměř vždy zachyceny mimo přirozené prostředí, protože pokud se žák jazyk učí, aktivně jej používá především ve výuce (Šebesta, 2012b, s. 24). Z toho důvodu je na autenticitu pohlíženo z jiné perspektivy a je posuzován především její stupeň, respektive míra autenticity. Ta je hodnocena na škále, jejíž protipóly tvoří projevy neřízené, vzniklé v autentických situacích reálného života, a projevy experimentálně elicitované, které jsou jasně řízené badatelem s primárním záměrem získat data. Ellis tuto škálu doplňuje ještě projevy klinicky elicitovanými, které se na uvedené škále pohybují uprostřed. Tyto projevy jsou sice také elicitované, ale primárně je důležitější obsah sdělení než jejich jazyková rovina (Granger, 1998, s. 14).

Posuzování autentičnosti se však i přesto velmi často liší podle stanovisek výzkumného týmu, který korpus zpracovává. Například Grangerová pokládá veškeré

25

žákovské aktivity vzniklé ve třídě za autentické (Granger, 2002, s. 16). Autentickým projevem se pak stává i pouhé čtení textů nebo umělých dialogů z učebnice. Získávat tento typ dat má své opodstatnění ve fonetických výzkumech – popis zvukové stránky mezijazyka. Považovat tuto činnost za přirozenou aktivitu však odmítá Karel Šebesta, podle něj takový přístup stírá podstatný rozdíl mezi daty vzniklými v situacích mimo výukový kontext a daty spjatými ve větší nebo menší míře s výukou (2012b, s. 19). Za autentický tento materiál není považován ani v případě obecných mluvených korpusů. Tam může mít podobu například zpráv čtených v rozhlase či televizi.18

Elicitace Obecně jsou tedy data v žákovských korpusech považována za klinicky elicitovaná s širokým rozpětím řízenosti. Jakým způsobem tato elicitace probíhá? Existuje mnoho metod elicitace. Gass a Mackey v publikaci Data Elicitation for Second and Foreign Language Research (2007) představují základní metody, které se užívají pro výzkum žákovské kompetence. Jedná se například o elicitovanou imitaci (angl. elicited imitation). Technika spočívá v tom, že výzkumný subjekt slyší větu, kterou poté musí doslovně zopakovat. Pokud je věta dostatečně dlouhá, není možné ji udržet v krátkodobé paměti kompletní. Subjekt, aby byl schopen větu zopakovat, musí použít vlastní jazykové znalosti k rekonstrukci věty a její sémantiky. Další techniky se pak snaží zavést více spontánnosti do výsledné produkce. Mezi takové techniky patří například popis obrázků, vyprávění příběhů, převyprávění obsahu knihy nebo filmu, konverzace s partnerem, interview, debaty, doplňování do vět nebo jejich spojování (Gass, 2013, 44–56).

Jak tyto techniky konkrétně vypadají v praxi, si můžeme přiblížit na příkladu mluveného korpusu španělštiny jako cizího jazyka. Sběr dat tvořila vzájemná interakce mezi studentem a badatelem, která měla 4 fáze postupující od méně po více spontánní projevy. V první fázi se student představil, v druhé musel převyprávět příběh podle obrázků (viz obrázek č. 1). Ve třetí fázi studenti porovnávali dvě fotografie jídla a v poslední fázi vyjadřovali své názory na dnešní stravovací návyky.

18 Viz Cvrček – Richterová, 2014c, online. 26

Obrázek 1 Příběh v obrázcích. Zdroj: Španělský mluvený korpus, online.

3.4 Metadata Dalším parametrem, ve kterém se od sebe odlišují obecné a žákovské korpusy, jsou tzv. metadata. Jedná se o doprovodné informace, které podávají nejčastěji zprávy o vzniku záznamu, o osobě respondenta a vedeném diskurzu. Tento typ informací v obecných korpusech není tak detailně zaznamenán. Informace obsažené v žákovských korpusech jsou obecně bohatší a navíc důsledněji sledovány, aby byla badatelům poskytnuta možnost sledovat nejen působení vnitřních, ale taky vnějších činitelů na proces osvojování jazyka (Šebesta, 2012b, s. 26)

Například české mluvené korpusy řady ORAL (2008, 2010, 2013) se shodují v zaznamenávání 4 informací o mluvčích (pohlaví, věk, vzdělání, místo převažujícího pobytu do 15 let) a 4 informací o provedeném záznamu (rok pořízení nahrávky, počet mluvčích v nahrávce, vzájemný vztah mluvčích, neformálnost promluvy),19 což je oproti žákovskému korpusu poměrně málo. Jaká metadata se za účelem lepšího poznání mezijazyka zaznamenávají, jsme pro potřeby zobecnění rozdělili do tří kategorií. Do první kategorie jsme zahrnuli faktory, které se týkají samotného vzniku textu, ve druhé kategorii prezentujeme informace týkající se žáků a v poslední kategorii se zaměříme na situace a prostředí, které záznam a projev žáka doprovází.

Údaje o textu Na prvním místě se objevují faktory spojené s textem a jeho určením. V této kategorii se nachází především základní dichotomie psaný versus mluvený. Pokud se jedná o mluvený záznam pro korpus, badatelé dále doplňují informace o tom, zda se jedná o monolog či dialog. V dalších sledovaných faktorech se více či méně mluvené i psané korpusy překrývají. Jedná se o popis zadaného žánru, tématu, rozsahu či případného

19 Srov. Cvrček – Richterová, 2015a, online. 27 omezení, např. volného užívání jazykových prostředků. Co se týče jistých omezení, můžeme zmínit systém korpusu ICLE (International Corpus of Learner English), jenž velmi striktně vymezuje typ esejí, které mohou být zařazeny do databáze, jsou to argumentační eseje a eseje ze zkoušek z literatury, ostatní typy jako narativní nebo odborné texty musí být vyřazeny. Stejně tak tvůrci korpusů stanovili maximální rozsah, kterým se jednotliví respondenti mohou na korpusu podílet, a tím je limit tisíc slov (Štindlová, 2013, s. 91)

Údaje o autorovi Mimo základní sociologické konstanty typu pohlaví, věk a dosažené vzdělání jsou pro žákovské korpusy zásadní informace o jazyce, respektive jazycích, které mluvčí aktivně používá a které studuje. V tomto odvětví jsou pak podle Barbory Štindlové (2013, s. 56–59) zcela klíčové otázky na:

 první jazyk mluvčích (viz definici L1),

 úroveň znalosti cílového jazyka,

 kontakt s cílovým jazykem (např. doba a intenzita učení, pobyt na území, kde je cílový jazyk oficiálně užívaným jazykem),

 kontext cizojazyčného vzdělávání (např. typ vzdělávací instituce, metody, materiály),

 znalost jiných jazyků (tj. jiný než jazyk první a cílový).20 Tyto dotazy se objevují napříč různými žákovskými korpusy relativně stále a konzistentně, protože mají oporu v teorii osvojování jazyka, kde se uvedená data tradičně zaznamenávají. I zde však narazíme na problémy, zejména ve druhém bodě, tj. úroveň znalosti cílového jazyka. Ne všechny žákovské korpusy používají standardizované členění podle Společného evropského referenčního rámce pro jazyky a zůstávají u poněkud vágních označení bez bližší charakteristiky – začátečník, mírně pokročilý aj. Na jejich obranu je nutno podotknout, že ne všichni lingvisté či pedagogové s těmito referenčními úrovněmi souhlasí, navíc jsou dostupné pouze pro evropské jazyky.

Údaje o situaci Do této kategorie řadíme informace, které se vážou ke vzniku záznamu, ať psaného nebo mluveného. Dotazy směřují především k prostředí, tedy k tomu, kde a kdy záznam

20 Tyto body jsou někdy označovány jako didaktické značkování, viz Štindlová, 2013, s. 77. 28 vznikl a za jakých podmínek. Konkrétně tak můžeme získat informace například o prostředí, zda je pro žáky známé či nikoliv, je-li záznam součástí zkoušky, je-li možné během záznamu využívat další pomůcky jako slovník, vlastní studijní materiály, předlohy. Další sledovanou proměnnou je průběh před samotným záznamem. V tomto případě se sleduje, jaké aktivity předcházely, např. psaní nanečisto, opakování cílové slovní zásoby s lektorem a další.

Uváděná metadata se v žákovských korpusech velmi liší, především v detailnosti zpracování. Jedním z důvodů je odlišný výzkumný cíl a záměr projektů. Například japonský korpus mluvené angličtiny NICT JLE (National Institute of Information and Communications Technology – Japanese Learner English Corpus) získává data pro korpus z ústní části různých zkoušek z angličtiny, proto se jeho dotazníková část do značné míryvěnuje právě zkouškám, tj. zaměřuje se na typ zkoušky, získaný počet bodů a hodnocení (NICT JLE, online).

Nedůsledné zpracovaní metadat může mít negativní dopad na celý projekt, neboť informace tohoto charakteru mohou pomoci s rozhodnutím, zda se jedná o data vzniklá v autentické situaci, dále umožňují zpřesnit výsledné závěry výzkumů, které jsou na těchto korpusech založeny. Lepší zaměření na mimojazykové jevy by uvítala také Grangerová, která poukazuje na skutečnost, že se výzkum založený na žákovských korpusech věnuje přespříliš vlivu transferu prvního jazyka, a zmiňuje například výzkum švédské lingvistiky Ädel zaměřený na rozdíly mezi texty, u kterých byl nebo nebyl zadán časový limit (Granger, 2009, s. 17). Takové a další práce posunují výzkum na poli žákovských korpusů k cílené komparaci mimojazykových činitelů, které mohou mít vliv na vyšší jazykovou rovinu – rovinu diskurzu.21 V takových případech můžeme sledovat užívané komunikační strategie a jejich případné rozdíly.

Zajímavý je také příspěvek k vlivu učebnic na slovní zásobu studentů. Kawecki (2011, s. 5) hovoří o tzv. formulaic parroting, což bychom mohli do češtiny přeložit jako neoriginální papouškování. Pojem popisuje stav, kdy student používá modely a fráze pro daný kontext, které se naučil nazpaměť a které mu pomáhají zvládnout určité situace bez stresu, ačkoliv nemusí mít pravdivou výpovědní hodnotu. Kawecki pak dodává, že

21 Vybrané práce na téma diskurzu v žákovských projevech prezentuje Škodová (2012, s. 130) 29 v korpusu, na kterém pracuje, se překvapivě často objevuje slovo účetní nebo typ jídla, který je ovšem v oblasti, kde žáci žijí, poměrně vzácný. 22

3.5 Anotace Posledním parametrem pro elektronické korpusy, kterému se v práci budeme věnovat, je požadavek po anotování (pozn.: synonymně je užíván pojem značkování). Anotace je proces, při němž se ručně nebo automaticky doplňují další údaje ke korpusovým datům. Tyto doplňující údaje mohou mít podobu informací:

 lingvistických (např. morgologické, syntaktické, sémantické),

 strukturních (tj. vnitřní strukturace korpusu a jeho jednotek),

 metatextových (tzv. metadata o autorovi textu nebo o textu samotném).23 Pravě možnosti anotace jsou vnímány jako hlavní výhoda, kterou přináší počítačové zpracování jazyka, a je tedy zcela zásadní pro efektivní práci s korpusy (Štindlová, 2013, s. 79). Tento parametr se týká také tvorby žákovských korpusů, které navíc oproti obecným korpusům obsahují anotaci chybovou (angl. error annotation), jež je speciálně navržena pro anomálie žákovského jazyka (Granger, 2002, s. 15). Nicméně nelze tvrdit, že anotování je standardní výbavou všech žákovských korpusů. To je vysvětlováno tím, že se jedná o velmi obtížný proces, který je v případě žákovských korpusů nadto zkomplikován častou chybovostí v projevech nerodilých mluvčích, proto je nutné se spoléhat na časově náročné manuální anotování (Šebesta, 2012b, s. 28). Navzdory této skutečnosti se počet anotovaných žákovských korpusů neustále zvětšuje.

Chybová anotace Chybové anotování korpusu představuje systém, kdy je odpovídající značka (kód nebo tag) přiřazena ke konkrétní chybě, která se vyskytuje v žákovském korpusu (Šebesta, 2012b, s. 28). Tento proces zatím u většiny korpusů probíhá manuálně, proto by její koncept měl být zpracován tak, aby byl pro anotátory srozumitelný a zároveň zde byl co nejmenší prostor pro subjektivní interpretaci anotátorů. Dalšími požadovanými charakteristikami na podobu chybové anotace je flexibilita, ale současně i stálost a otevřenost případnému rozšíření (Díaz-Negrillo – Fernánduez-Domínguez, 2006, s. 88)

22 Korpus zpracovává projevy studentů francouzštiny v Karibiku. 23 Srov. Cvrček – Richterová, 2014b, online. 30

Každá chybová analýza zahrnuje cílovou hypotézu (explicitně nebo implicitně vyjádřenou) a na jejím základě vytvořenou chybovou taxonomii. Chybová taxonomie vymezuje kategorie chyb v žákovském jazyce a je vůbec „základním stavebním kamenem celého anotačního systému zaměřeného na značkování odchylek od standardu v projevech nerodilých mluvčích” (Štindlová, 2013, s. 86). Tyto kategorie chyb pak korespondují s užívaným tagsetem, tj. souborem všech značek využívaných pro značkování nekorektních výrazů v korpusu.

Chybová taxonomie, stejně jako celá chybová anotace, je silně spojená s projektem, pro který byla navržena. Je tedy velmi důležité vidět je jako nedílnou součást, protože výzkumný cíl korpusu může determinovat výslednou podobu navržené taxonomie (Díaz- Negrillo – Fernánduez-Domínguez, 2006, s. 87). Vytvořená chybová anotace často nemá ani vlastní název, je k ní referováno pomocí názvu projektu nebo univerzity, kde vznikla, například tzv. lovaňský systém (angl. The Louvain system) užívaný pro korpus ICLE.

Typy chybové anotace V současné době se používají dva modely chybové anotace. První z nich se nazývá lineární (angl. flat-token-tag architecture). Anotování v tomto modelu probíhá na jedné rovině chybovými kódy, které se mohou kombinovat. Chybové kódy může doplňovat další rozšířené značkování (např. slovnědruhové) a rekonstrukce chybného výrazu, jako je tomu v následujícím příkladu:

(1) […] barons that (GVT) lived $had lived$ in those (FS) castels $castles$ (podle Díaz-Negrillo – Fernánduez-Domínguez, 2006, s. 94).24

Zkratka GVT popisuje první chybu v rovině gramatické a zaznamenává špatné užití času u slovesa. V druhém případě značka FS označuje chybu ve formě slova. V obou případech následuje mezi symboly $ opravený tvar (tamtéž, 2006, s. 94).25

Model lineární anotace naráží na problémy, především v případech, kdy nelze jednoznačně chybu určit a anotovaná struktura tak může mít více podob řešení, jako je tomu v případě věty:

(2) Die Erklärung für diese Phänomen ist einfach (podle Lüdeling, 2005, s. 3).26

24 V češtině: „(…) šlechticové, kteří žili v těchto hradech/zámcích.“ 25 GVT z anglického spojení Grammar, Verb, Tense, tj. gramatika, sloveso, čas. FS z anglického Form, Spelling, tj. forma, pravopis. 26 V češtině: „Řešení tohoto problému je jednoduché.“ Podtržení vlastní. 31

Podtržení reprezentuje část věty, jež byla vyhodnocena jako chybná, a to na základě nedodržení pravidla gramatické shody mezi odkazovacím zájmenem (diese, femininum / plurál) a jménem (Phänomen, neutrum). Oprava v tomto případě může být dvojí. Za prvé můžeme považovat za chybné užití odkazovacího zájmena, v takovém případě by oprava byla dieses Phänomen. Bez dalších informací o textu můžeme také chybu vidět ve špatném užití plurálu, poté by oprava měla řešení diese Phänomene.

Tomuto problému se snaží předejít druhý model anotace, a to víceúrovňová distanční anotace (angl. multi-level annotation). Základní hypotézou tohoto modelu je fakt, že interpretaci se nelze v žádném případě vyhnout, a z tohoto důvodu je nutné poskytnout prostor všem možným řešením (Lüdeling, 2005, s. 3). Anotování tak neprobíhá v původním textu jako v případě lineárního modelu, ale mimo něj. To umožňuje mít různý počet anotačních rovin, které mohou pokrýt všechny možné interpretace. Příkladová věta (2) a její interpretace bude mít následující zobrazení:

Utterance Die Erklärung für diese Phänomen TARGET 1 dieses Error Tag Gender TARGET 2 Phänomene Error Tag Number

Tabulka 3 Zobrazení interpretačních rovin pro jednu chybu v žákovském projevu. Zdroj: Lüdeling, 2005, s. 4.

Další příklady z češtiny jsou zpracovány v kapitole Korpusy nerodilých mluvčích češtiny jako cizího jazyka a další projekty, která se mimo jiné věnuje dvěma projektům, žákovskému korpusu CzeSL a mezinárodnímu projektu Merlin, jež víceúrovňový anotační model využívají.

Problematiku chybové anotace v žákovských korpusech shrneme výsledky srovnání chybových anotací, které provedla a ve své monografii publikovala Barbora Štindlová. Z tohoto srovnání vyplývá, že v žákovských korpusech převládá anotace chybová nad anotací lingvistickou. Ty korpusy, které disponují chybovou anotací, se v jejím zpracování také výrazně liší, a to v souvislosti se zaměřením korpusu. Například korpus ISLE se zaměřuje na anotování jen a pouze výslovnostních chyb. Některé korpusy se chybové anotaci vyhýbají přímo, neboť chybová anotace může představovat jistý interpretační model, který může ovlivňovat přístup k datům (Štindlová, 2013, s. 81). Různé žákovské

32 korpusy představují různé anotační modely, ačkoliv se dlouhodobě diskutuje o jisté standardizaci a o nutnosti mít obecný koncept chybové typologie (tamtéž, s. 103).

Na chybovou anotaci bychom však neměli pohlížet jako na specifikum, které doprovází pouze zpracování projevů nerodilých mluvčích. Také v projevech rodilých mluvčích se objevují odchylky od standardu, proto i v tomto případě existují projekty zaměřené na chybové anotování včetně prezentace chybové taxonomie a výstavby využitelných počítačových nástrojů. To je také záměrem jednoho z grantových projektů Centra zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity, jehož cílem je mimo jiné formálně popsat všechny chyby objevující se ve spontánních psaných projevech českých studentů tak, aby tohoto formálního popisu mohlo být využito pro automatickou opravu textu (Jakubíček – Bušta, 2009, s. 118). Součástí projektu je i výstavba speciálního korpusu s vyznačenými chybami s názvem CHYBY, který v roce 2009 vykazoval velikost přibližně 500 tisíc slov (tamtéž, s. 118).

33

4 Korpusy nerodilých mluvčích češtiny jako cizího jazyka a další projekty

Tvorba žákovských korpusů v českém prostředí je spojena s projektem AKCES, což je projekt vedený při Ústavu českého jazyka a teorie komunikace Filozofické fakulty Univerzity Karlovy v Praze od roku 2005, mimo toto pracoviště se na něm podílí další univerzitní (např. Technická univerzita v Liberci) i mimouniverzitní instituce (např. Asociace učitelů češtiny jako cizího jazyka). Budování korpusů AKCES je umožněno díky finanční podpoře několika programů. Od roku 2012 se jedná o program PRVOUK P10 – Lingvistika, modul Osvojování a vývoj jazykové a komunikační kompetence u populace ČR (AKCES, online).

Projekt AKCES (Akviziční korpusy českého jazyka) se nesoustředí jen na projevy nerodilých mluvčích, tj. na osvojování jazyka L2, ale zaměřuje se také na osvojování mateřského jazyka (L1) v podobě akvizice jazyka u dětí. V další řadě se soustředí na český jazyk v kontextu vzdělávání a na jazyk žáků z vyloučeného sociálního prostředí, na projevy romských dětí a mládeže. Jedná se tedy o komplex vzájemně provázaných korpusů, jejichž cílem je zachytit jak psanou, tak i mluvenou češtinu u různých skupin mluvčích.27

4.1 CZESL-PLAIN Pokud se podíváme na korpusy, které zpracovávají češtinu jako cizí jazyk, musíme se nejprve zastavit u prvního korpusového projektu, který byl publikován pod názvem CZESL-PLAIN (Czech as Second Language) v roce 2012. Jedná se o korpus psaných textů, jež jsou organizovány do tří kategorií – subkorpusů. První ze subkorpusů, označovaný jako ciz, tvoří eseje nerodilých mluvčích psaných v kontextu jazykového vzdělávání. Ty byly pořízeny v rukopisné podobě a následně byly přepsány do elektronické podoby.

Druhý subkorpus je tvořen odbornými texty rovněž od nerodilých mluvčích, vzniklých tentokrát v rámci studia na vysoké škole v magisterském nebo vyšším stupni. Tyto texty byly pořízeny už v elektronické podobě. Poslední je subkorpusem školních

27 Seznam dosud zpracovaných a dostupných korpusů včetně těch plánovaných je dostupný na webových stránkách projektu. 34 písemných prací romských žáků z oblastí ohrožených sociálním vyloučením, které byly pořízeny v souladu s prvním subkorpusem v rukopisné podobě.

Celková velikost v druhé revidované verzi je 12 388 textů, přičemž první subkorpus ciz (eseje od nerodilých mluvčích) tvoří největší část, celkem 8 109 textů. Záměrně zde neuvádíme velikost v počtu slov, neboť tento korpus uvádí pouze počet pozic, tj. slova i mezery. Texty byly sbírány v letech 2009 až 2012. Korpus neobsahuje lingvistickou anotaci, a je proto nereferenční, z tohoto důvodu je v názvu označován jako plain. Část korpusu je opatřena chybovou anotací, která byla dále rozvíjena v korpusu CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags). Korpus je veřejně dostupný a je možné v něm vyhledávat přes webové rozhraní KonText.

4.2 CzeSL-SGT28 Zatímco korpus CZESL-PLAIN jsme představili pouze okrajově, dalšímu žákovskému korpusu se budeme věnovat detailněji. Toto rozhodnutí má své opodstatnění, neboť další korpus CZeSL-SGT (verze 2 z 28. 7. 2014) obsahově navazuje a rozšiřuje subkurpus ciz, tj. eseje od nerodilých mluvčích pořízených v rukopisné podobě, který je součástí publikovaného korpusu CZESL-PLAIN. V popisu korpusu se zaměříme na parametry diskutované v předchozích kapitolách teoretické části, konkrétně se podíváme na jeho obsah, tj. jazyková data včetně jejich metadat a chybové anotace.

Obsah Jak již bylo zmíněno výše, korpus obsahuje především část ciz korpusu CZESL- PLAIN. Tato jazyková data jsou rozšířena o další psané texty, jejichž sběr probíhal v roce 2013. Za tu dobu se počet textů navýšil zhruba o 500 a celkový počet se zastavil na čísle 8 617. Korpus tak dohromady disponuje materiálem o rozsahu 958 tisíc slov (Rosen, 2015, online). Podle oficiálního popisu korpusu pokrývá jazykové projevy autorů s 54 různými prvními jazyky. Nicméně pokud se podíváme blíže na údaje z korpusu, zjistíme, že jako první jazyk mluvčích je nejčastěji uváděna ruština. Jazykové projevy od rusky mluvících tvoří dokonce víc než polovinu sebraného materiálu (srov. Rosen, 2014, online).

Korpus zpracovává projevy na všech úrovních znalosti češtiny (tj. úroveň A1 až C podle SERR), přičemž začátečnické úrovně, v korpusu označované jako A1, A1+, A2, A2+, jsou zastoupeny ve větším počtu než úrovně pokročilé. S touto informací korespondují také informace o slohových postupech, protože texty jsou převážně obecného

28 Dostupný také pod názvem Akces 5. Dále jen CZeSL. 35 charakteru, vypracované podle zadání se slohovými postupy informačním a popisným jako dominujícími. V uvedených textech v korpusu se často objevuje popis rodinného příslušníka, kamaráda, oblíbeného místa či bytu. Další slohový postup, již méně užívaný, je vyprávění. Tento postup je typický u témat spojených s cestováním, prázdninami nebo volným časem (např. texty Cesta do ČR, Můj minulý víkend, Minulé léto aj.) Více než polovina textů vznikla bez využití dalších pomůcek, jako jsou slovníky nebo učebnice.

Metadata Charakterizovat korpus takto podrobně jsme mohli díky jeho kvalitně zpracované metadatové anotaci. Korpus CzeSL-SGT mezi světovými žákovskými korpusy patří k těm detailněji anotovaným. Obsahuje celkem 30 atributů, přičemž 15 z nich je věnováno autorovi a dalších 15 pak textu a okolnostem jeho vzniku. Nicméně ne všechny texty jsou anotovány všemi atributy – např. první jazyk je zjištěn přibližně u 86 % textů (srov. Rosen, 2015, online).

Údaje o autorovi tvoří základní sociologické charakteristiky, konkrétně otázky na pohlaví a věk. Další informace vypovídají o jazykových znalostech a způsobech studia češtiny jako cizího jazyka. Tento typ otázek se zaměřuje především na zjištění prvního jazyka, případně dalších užívaných jazyků. Ve spojení s osvojováním češtiny se v položkách dotazníku objevují položky cílené na délku a intenzitu studia, podobu studia (institucionalizované, soukromé, individuální), užívaný materiál a dosaženou úroveň.

Metadatové parametry, které upřesňují charakter materiálu, poskytují informace o časové limitovanosti projevu, o požadovaném rozsahu, o využití dalších pomůcek a také o tom, zda byl text součástí zkoušky, případně jaké. Vzhledem k tomu, že některé texty byly sbírány v delších jazykových kurzech několikrát, jsou projevy označkovány tak, aby bylo možné dohledat všechny texty jednoho autora (Štindlová, 2013, s. 108–109).

Anotace Autoři anotačního modelu pro český žákovský korpus, jmenovitě Vladimír Petkevič, Alexandr Rosen, Barbora Štindlová, Tomáš Jelínek, Milena Hnátková a Petr Jäger, jej navrhovali tak, aby dostatečně zachytili specifika češtiny, zejména její rozvinutou flexi a volný slovosled. To byl úkol velmi náročný, jenž se zároveň potýkal s jistými problémy v souvislosti se stanovením cílové hypotézy. Jako jeden z mnoha problémů můžeme zmínit obecnou češtinu a s ní spojené rozhodnutí, zda obecně české výrazy v projevech nerodilých mluvčích opravovat, či nikoli. Nakonec se autoři shodli na

36 předpokladu, že nerodilí mluvčí si nejsou plně vědomi kontextu, ve kterém se obecná čeština užívá, a jejich užití je tedy vyhodnoceno jako chybné (Petkevič – Rosen, 2012, s. 63).

Výsledná chybová anotace má podobu víceúrovňového modelu (viz kapitolu Chybová anotace.) Schéma má podobu grafu o třech vzájemně propojených rovinách. Jedna rovina přestavuje originální text studenta (R0), druhé dvě představují anotační schéma (R1 a R2). Mezi chyby na úrovni R1 se řadí chyby vzniklé nesprávnou flexí (tři měsícu), dále chyby pravopisné, chyby na hranicích slov (mochezký, on při jde), chybné slovní základy (musíš to posvětlit), cizí nebo nově vytvořená slova (jím rád eggs) a obecně české výrazy (dobrej film). Druhou anotační rovinu R2 tvoří chyby na rovině lexikální, frazeologické, syntaktické a slovosledné. Dále jsou to chyby týkající se negace nebo vzniklé špatnou volbou gramatické kategorie, vidu a času. Některé z chyb je nyní možné automaticky identifikovat, zejména ty na úrovni R1, např. chyby v diakritice (Petkevič – Rosen, 2012, s. 66–67).

Postup anotace

Nejdříve se rukopisný text přepíše podle pravidel vytvořeného manuálu29 do elektronické podoby, poté je přepis uložen do databáze Ames, kde čeká na další zpracování. Pro interní práci s databází textů byl vyvinut speciální systém s názvem Speed. Uživatelům tohoto systému jsou přiděleny jednotlivé funkce a role, které určují jejich činnost v databázi. Role jsou definovány jako koordinátor, kontrolor, supervizor a anotátor. Mezi nimi existují společné vazby. Tím je zajištěno, že text je někomu zadán, následně někým anotován a zkontrolován. Ve snaze o maximální správnost je každý text anotován dvěma anotátory, kteří pracují nezávisle na sobě. V systému Speed probíhají všechny řídící a organizační činnosti, samotná anotace probíhá v programu feat (Flexible Error Annotation Tool), který přímo pro tyto účely vytvořil Jiří Hana. Anotátor opraví svůj úsek na příslušných rovinách a k chybám přidá chybové značky, a to podle pro tyto účely vytvořeného manuálu. Na obrázku č. 2 je znázorněn průběh chybové anotace v programu feat u příkladu seděla jsem a vzpomněla mému prvnímu přítelu, který byl upraven na seděla jsem a vzpomínala na svého prvního přítele. Příklad představuje původní text a dvě anotační roviny. Chyby jsou označeny příslušným kódem opravy. Šipky na druhé rovině

29 Manuál je dostupný na webových stránkách projektu AKCES. 37 anotace odkazují na nejbližší slovo, které je rozhodující pro náležitou opravu. Například anotátor přidal prepozici na za verbum vzpomínat s ohledem na jejich syntaktickou závislost.

Každý úsek je anotován dvěma anototáry, díky tomu někdy dochází k situaci, kdy každý z anotátorů prezentuje odlišnou opravu. Pomocí funkce programu feat jsou obě řešení porovnána a následně je z nich vytvořen výsledný text. Posledním krokem je automatická anotace, která manuální chybovou anotaci rozšíří o další úpravy a přidá lingvistické informace (Petkevič – Rosen, 2012, s. 76–77).

Budoucnost korpusu CzeSL-SGT Práce na českém korpusu dále pokračují. V současné době probíhá sběr mluvených jazykových projevů, kterým se korpus v budoucnu rozšíří o data jiného než psaného charakteru. Předpokládaná celková velikost by měla dosahovat až k 5 milionům slov (Petkevič – Rosen, 2012, s. 85) Vzniknout by měl také korpusový manažer, který by rozšířil dosavadní vyhledávací funkce a umožnil vyhledávat v korpusu například podle typu chyb.

Obrázek 2 Ukázka správně anotované části v programu feat. Zdroj: Petkevič – Rosen, 2012, s. 77.

38

4.3 Mezinárodní projekt MERLIN Projekt MERLIN (Multilingvální platforma pro evropské referenční úrovně: mezijazykový výzkum v kontextu) je vedle českého žákovského korpusu dalším užitečným nástrojem pro poznávání češtiny nerodilých mluvčích. Oproti němu má mnohem užší zaměření, je navržen jako online platforma pro didaktické účely. Hlavní motivace vzniku této platformy souvisí se Společným evropským referenčním rámcem pro jazyky, který byl publikován v roce 2001 a jenž od té doby představuje základní referenční dokument pro výuku, certifikaci úrovní, vytváření kurikul a jazykových materiálů.

S jeho prezentovanou deskripcí úrovní vyvstal zároveň praktický problém, jak jednotlivé úrovně od sebe spolehlivě odlišit, jestliže nejsou k dispozici jejich názorné empirické charakteristiky. V roce 2012 byl tedy zahájen projekt MERLIN, který umožňuje uživatelům seznámit se s ilustrativními příklady v podobě studentských textů. Projekt je výsledkem česko-německo-rakousko-italské spolupráce, přičemž českou stranu zde reprezentuje Univerzita Karlova (Merlin – platform, 2014, online).

Obsah Na konci roku 2014 byla představena online forma projektu v podobě korpusu o velikosti 2,286 textů napsaných studenty češtiny (442 textů), italštiny (813) a němčiny (1033) na úrovních A1–C1. Tyto texty pochází z akreditovaných pracovišť pro jazykové zkoušky, jichž jsou psané texty součástí. Zkoušky si kladou za cíl otestovat jazykové znalosti studentů v celém rozpětí úrovní A1–C1 podle Společného evropského referenčního rámce pro jazyky. Korpus je volně přístupný na webu projektu. Webové stránky také poskytují obecné informace o korpusu a jeho výzkumných cílech a uživatelské manuály pro práci s korpusem.

Metadata Projekt Merlin zpracovává 3 kategorie metadat. Do první kategorie spadají informace o autorovi testu v podobě informací o věku, pohlaví a mateřském jazyku. Druhá kategorie se zaměřuje na text, tzn., sleduje zadání, téma, žánr a úroveň. Třetí, poslední kategorie disponuje daty o hodnocení. Zaznamenáváno je celkové hodnocení a potom dílčí, které hodnotí pouze vybrané kritérium, např. gramatickou přesnost, pravopis, rozsah slovní zásoby (Korpus Merlin, 2014, online).

39

Anotace Autoři projektu pracovali na technických parametrech jednotně, tak aby byly použitelné pro všechny jazyky, tj. němčinu, italštinu a češtinu. To se týká především chybové anotace (Uživatelský manuál, 2014, s. 9–17). Chybová anotace byla navržena tak, aby umožňovala zachytit chyby, které jsou společné všem uvedeným jazykům, ale i chyby zcela specifické. Ve spolupráci s tvůrčím týmem německého korpusu FALCO byl navržen víceúrovňový anotační model, který tvoří dvě cílové hypotézy (TH1 a TH2). Na rovině TH1 anotátor s co nejmenším možným počtem zásahů vytvoří gramaticky a ortograficky správnou verzi opravované struktury. Na rovině TH2 jsou poté opraveny chyby spojené se sociolingvistickými, lexikálními a pragmatickými odchylkami. Obě hypotézy pak doplňují vlastní roviny chybové analýzy, kterou představuje pojmenování chyby a její označení příslušným kódem (EA1 a EA2).

Obrázek 3:Chybová anotace pro projekt MERLIN, Zdroj: MERLIN project (2014): User Manual.

40

4.4 Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem a Databáze CHRUP Na Karlově univerzitě vznikly ještě další dva projekty zaměřující se na žákovský jazyk. Jedná se o Databázi mluvené češtiny cizinců s ruštinou jako prvním jazykem (zveřejněna 2008) a o Databázi jazykových chyb v češtině mluvčích s prvním jazykem slovanským, s pracovním názvem CHRUP, tzn. Chyby Rusů, Ukrajinců a Poláků (zveřejněna 2012).30 Na vzniku obou projektů se podílela Jekatěrina Romaševská, která zpracovaná data využila pro svou disertační práci zaměřenou na specifika češtiny rusky mluvících.

Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem je online databáze, která shromažďuje mluvené nahrávky od 60 mluvčích s ruštinou jako prvním jazykem včetně 4 doprovodných informací – pohlaví, věk, délka pobytu v ČR a délka studia češtiny. Mluvený projev každého mluvčího se skládá ze dvou částí. V první části účastníci výzkumu čtou stejný text, druhou část pak tvoří jejich nepřipravený autentický projev. Zadání druhé části pouze upravuje, aby se jednalo o projev spojený s jejich osobou, jinak je téma zcela volné. V databázi jsou tyto projevy opatřeny ortografickým přepisem a rovněž ortoepickou transkripcí.31 Databáze vznikla za účelem fonetických výzkumů, především za účelem identifikace výslovnostních chyb rusky mluvících studentů češtiny. Je volně dostupná na internetu.

Druhý projekt, Databáze CHRUP, představuje korpus psaných projevů žáků s vybraným slovanským jazykem jako mateřským. Vedle Jekatěriny Romaševské se na projektu podílel autorský kolektiv pod vedením prof. PhDr. Hany Gladkové, CSc. Podle údajů z roku 2013 korpus obsahuje texty od 185 respondentů (54 polských mluvčích, 74 ukrajinských a 57 ruských) a společně texty tvoří 58 895 znaků, což je přibližně 144 normostran souvislého textu. Sběr materiálu probíhal na pracovištích v ČR, ale také v zahraničí. Autoři textů rovněž dodali vyplněný dotazník, jenž poskytuje například informace o věku respondentů, pohlaví, rodném jazyku (také rodičů a partnerů), o způsobu výuky a její motivace a o délce pobytu v ČR. Texty byly převedeny do elektronické podoby a současně chybově anotovány na základě chybové taxonomie speciálně vytvořené pro tento projekt. Díky tomu můžeme v korpusu vyhledávat podle 5 chybových kategorií,

30 Obě databáze vznikly díky finanční podpoře Grantové agentury UK. 31 Konkrétně jsou k dispozici 4 typy transkripce – transkripční systém vytvořený pro účely databáze, česká národní transkripce, transkripční systém IPA, transkripční systém SAMPA. 41 kterými jsou pravopis, morfologie, syntax, lexikum a stylistika (Databáze CHRUP, 2015, online). Popis cílové hypotézy využité chybové taxonomie a popis celkového technického zpracování korpusu nebyl dosud publikován.

Uživatelské prostředí volně přístupného korpusu znázorňuje následující obrázek. Vyhledali jsme chyby v morfologii, konkrétně chyby v užití pádu u substantiv, bez bližšího omezení ve výběru respondentů. Chybné výrazy jsou v textu označeny červenou barvou.

Obrázek 4:Uživatelské prostředí databáze CHRUP. Zdroj: Databáze CHRUP, 2015, online.

Databáze oproti korpusu CzeSL nedisponuje metadaty přímo u textu. Bez specifikace ve výběru respondentů tak nejsme schopni zjistit, zda je autorem chybného výrazů mluvčí s ukrajinštinou, ruštinou nebo polštinou jako prvním jazykem. Bez znalosti chybové taxonomie projektu nevíme, co autorský kolektiv vedlo v případě věty To jsou názvy státních instituci, podníku, univerzit, států, politických strán apod. vyhodnotit červeně zvýrazněné slovo na úrovni morfologické jako chybné s odkazem na nesprávné užití pádu. S ohledem na kontext se domníváme, že autor textu si je vědom užití genitivu plurálu. Výraz by měl být hodnocen chybně pouze na úrovni písma a pravopisu (instituci – institucí).

42

4.5 Shrnutí Pokud se podíváme na seznam světových žákovských korpusů zpracovaných univerzitou v Lovani,32 zjistíme, že majoritní počet korpusů se soustředí na zpracování angličtiny jako cílového jazyka. Slovanské jazyky zastupují pouze tři projekty. Ruštinu prezentuje paralelní překladatelský korpus – The Russian Learner Translator Corpus. Tento korpus obsahuje příklady od studentů překladatelství. Vytvořené překlady jsou propojeny s originálním textem a konkrétním větným úsekem. Je možné zobrazit překlady z angličtiny do ruštiny a naopak. Korpus je dostupný online ve své beta verzi (RusLTC, online). Slovinštinu jako druhý jazyk zpracovává korpus The PiKUST learner corpus. Tento korpus zatím obsahuje 35 tisíc slov a je koncipován jako zkušební, a to za účelem testování chybové anotace (Stritar, 2009, s. 14–18).

Třetím projektem zastupujícím slovanské jazyky je pak český žákovský korpus CzeSL, který jsme podrobně prezentovali v této kapitole. Ve srovnání s ostatními korpusy zpracovanými pro slovanské jazyky má český žákovský korpus výjimečné postavení, neboť disponuje mnohem větším počtem slov, není úzce zaměřený a disponuje manuální a také automatickou chybovou anotací. Zároveň jsou dostupné podrobné texty referující o jeho složení, technických parametrech a možnostech práce s korpusem. Tyto manuály jsou také přeloženy do angličtiny. Díky tomu není korpus izolován od velkých mezinárodních projektů, čímž prezentuje Českou republiku jako zemi se silným a kvalitním zázemím pro budování specializovaných korpusů.

Nicméně z detailnějšího průzkumu víme, že CzeSL a také obě Databáze se zaměřují především na slovanské mluvčí. V případě CzeSL tvoří více než polovinu textů projevy od mluvčích s ruštinou jako prvním jazykem. Databáze mluvených projevů zpracovává projevy pouze od rusky mluvících a v případě projektu CHRUP je záběr rozšířen o rodilé mluvčí ukrajinštiny a polštiny. Rozhodnutí zaměřit se na chyby vybraných slovanských mluvčích vycházelo ze dvou důvodů. Prvním byla problematika jazykové příbuznosti a spolu s ní zájem o obtíže, kterým musí čelit žáci, jejichž mateřský jazyk je velmi podobný češtině. Jako druhý důvod pak autorky databáze uvedly statistické údaje o počtech cizinců na území ČR, podle kterých se množství cizinců se slovanskou národností neustále zvyšuje (Bolbot –Ramasheuskaya, 2012, s. 418).

32 Learner corpora around the world. Université catholique de Louvain [online]. 2015-9-11 [cit. 2015-11-17]. Dostupné z: https://www.uclouvain.be/en-cecl-lcworld.html.

43

Za protiklad ke korpusovým projektům založeným na datech studentů s prvním jazykem slovanským můžeme označit práci Lucii Casadei působící na lektorátu v Římě. Ta se zaměřila na časté chyby v psaných projevech italských žáků, které sbírala v letech 2002–2012. Následně představila vlastní klasifikaci chyb, podala jejich možné vysvětlení a doplnila je o příklady z těchto textů (2012, s. 62–69). V blízké době by měl seznam mluvených korpusů ČNK doplnit specializovaný korpus s názvem BANÁT. Tento korpus zpracovává mluvené nahrávky z rumunského Banátu33 a podává tak obraz o současné podobě banátské češtiny.34 V tomto případě se nejedná přímo o výzkum češtiny jako druhého jazyka, avšak projekt dokládá současný zájem pohlížet na češtinu z jiných úhlů.

Nemalý počet korpusových projektů prezentovaných výše upozorňuje na současnou potřebu češtinu jako druhý jazyk více analyzovat a popsat především z hlediska jejích specifik a také z hlediska chybovosti v projevech nerodilých mluvčích. Zatím jsou bohužel tyto projekty doprovázeny nepřítomností zastřešující instituce, která by umožnila komunikaci mezi tvůrci projektů, poskytla badatelům prostor pro výměnu zkušeností a dále například zavedla jistou standardizaci především pro formát chybové anotace či zaznamenávaných metadat.

33 Region v Rumunsku, kde žije početná česká menšina. 34 Pro další informace viz magisterskou diplomovou práci Karolíny Vyskočilové (2014). Dostupné z: https://is.cuni.cz/webapps/zzp/detail/147675/?lang=en. 44

5 Možnosti a limity žákovských korpusů

V přechozích kapitolách jsme možnosti využití žákovských korpusů, směřování výzkumů nebo metody práce s žákovskými korpusy několikrát nastínili, v této kapitole je prezentujeme v jejich celistvosti a zároveň se zaměříme také na limity, které s nimi souvisí. Možnosti práce s žákovskými korpusy lze rozdělit do tří oblastí, jež se věnují technickým parametrům, výzkumům osvojování druhého jazyka, pedagogice a didaktice.

Oblast technického zpracování jsme zařadili na první místo, protože v dosavadní relativně krátké historii, která stojí za tvorbou žákovských korpusů, se výzkum hlavně soustředil na budování korpusů s důrazem na jejich strukturu, možnosti elektronického zpracování, transkripci textů a chybovou anotaci. Každý specializovaný korpus potřebuje také vlastní nástroje, nejlépe vytvořené přesně pro charakter korpusu a jeho účel. Tento trend potvrzuje i česká situace, kde jsou dostupné eseje a texty zaměřeny především na výše zmíněné parametry spojené s projektem žákovského korpusu CzeSL nebo také s popisy programů, které byly vytvořeny přímo pro potřeby práce s žákovským korpusem, jako byl v práci například zmíněný program feat. Do jisté míry jsou technické parametry také záběrem této diplomové práce, proto nepovažujeme za nutné podobu těchto výzkumů dále rozebírat.

Nicméně bez korpusu s dobře zpracovanou chybovou i lingvistickou anotací není umožněn kvalitní výzkum zaměřující se na jiné než technické parametry. S rostoucím počtem anotovaných korpusů lze také v dohledné době očekávat nárůst specializovaných výzkumů.

5.1 Teorie osvojování druhého jazyka

Další oblastí, kde se žákovský korpus využívá, je teorie osvojování druhého jazyka. Ta se o výzkumy mezijazyka zajímala již před vznikem žákovských korpusů. Elektronické žákovské korpusy umožnily jeho poznání v novém rozměru a znovu se oživily přístupy, které v teorii osvojování druhého jazyka měly své místo v druhé polovině 20. století. Tyto přístupy silně souvisí s chybami v projevech nerodilých mluvčích a se snahou o jejich vysvětlení a jsou známé pod pojmy kontrastivní analýza mezijazyka (angl. contrastive interlanguage analysis) a počítačem podporovaná chybová analýza (angl. computer

45 aided error analysis). Oba zmíněné teoretické rámce ve své původní podobě mají základ v psychologii, vlastní psychologické teorie aplikují na studium jazyka a snaží se definovat, co je to chyba.

První z nich, kontrastivní analýza (angl. contrastive analysis), je založena na behaviorismu a pracuje s konceptem návyků, které si mluvčí osvojil v dětství při akvizici svého L1. Studium jazyka L2 je pak procesem vedoucím od překonání těchto návyků až k získání nových. Pracuje s hlavní hypotézou, že problémy, které nabývání druhého jazyka doprovází, vyplývají právě z těchto starých návyků, které studenti využívají při studiu jazyka nového. Srovnání založené na systematické strukturní analýze pak může rozlišit shody a rozdíly a na jejich základě předpovědět, které oblasti budou pro studenty komplikované a které naopak jednoduché. Přitom se domnívají, že nejjednodušší budou ty oblasti, které jsou stejné v L1 i L2. Ty, které stejné nejsou, tj. jsou kontrastivní, budou nejvíce problematické. To znamená, že kontrastivní analýza srovnává jazyky za účelem poznání potencionálních problémů. Hlavní zdroj chyb v produkci a recepci žáka pak podle této teorie spočívá v jeho mateřském jazyku a právě na znalostech žákova L1 lze jeho chyby vysvětlit. Kontrastivní analýza čelila poměrně velké kritice. Kritizován byl už jen základní princip kontrastivní analýzy, a to snaha jazyky srovnávat bez spolehlivých kritérií. Navíc se ukázalo, že chyby, které byly na základě analýzy predikovány, se neobjevují, a navíc se objevují chyby, které predikovány vůbec nebyly (Gass, 2013, s. 83).

Současná podoba tohoto přístupu se zaměřuje na prezentování kvalitativních a kvantitativních srovnání jazykových projevů. Srovnání probíhá ve dvou rovinách, a to na úrovni rodilí mluvčí versus nerodilí a poté na úrovni nerodilí versus nerodilí mluvčí. První typ srovnávání může upozornit na široké spektrum rysů, které doprovázejí jak psané, tak i mluvené projevy nerodilých mluvčích. Mimo tradiční zájem o chyby se jedná například o nadužívání určitých slov, frází a struktur. Srovnávání na druhé úrovni, tj. nerodilý mluvčí jiných jazyků, umožňuje zjistit, které rysy/kategorie jsou problematické pro většinu žáků s rozdílným prvním jazykem nebo kdy můžeme hovořit o specifiku, které doprovází pouze projevy těch, kteří sdílí stejný mateřský jazyk (Granger, 2002, s. 12–13).

Počítačem podporovaná chybová analýza do jisté míry navazuje na chybovou analýzu ze 70. let 20. století. Její aktualizovaná a s počítači spojená verze se odlišuje především v lepší standardizaci a také v prezentaci celého kontextu, ve kterém se chyby

46 objevují. Původní chybová analýza vnímá chybu jako signál, který nám může pomoci rozpoznat zákonitosti jazykové akvizice. Poskytla nový pohled na chyby v projevech nerodilých mluvčích, a to je jejím největším přínosem. Tento nový pohled je spojen s lingvistou Corderem,35 jenž rozlišuje mezi chybou nesystémovou (angl. mistake) a chybou systémovou (angl. error).36 Mluvčí, který udělá chybu mistake, je schopný ji rozpoznat a opravit se. Chyba mistake má tak charakter přeřeknutí vzniklého z nepozornosti. Může být součástí jazykové produkce studenta, ale stejně tak i produkce rodilého mluvčího. Chyba error se v projevu opakuje častěji a student sám o sobě chybu neregistruje. Taková chyba pak odkazuje na jeho úroveň znalostí v cílovém jazyce (Štindlová, 2013, s. 33).

Coderovo dělení na chyby systémové a chyby nesystémové ale nezůstalo bez kritiky, a to kvůli faktu, že oddělování obou typů je komplikované a navíc velmi subjektivní. Například v práci několikrát zmíněný lingvista Ellis dodává, že rozlišovat mezi těmito typy není možné, protože hranice mezi nimi není reálně pozorovatelná (1990, s. 68). Nicméně se tento koncept ujal alespoň natolik, že se stal inspirací pro další autory k tomu, aby jej více rozpracovali. Měl také vliv na vnímání chyby, ke které se nyní nepřistupuje negativně jako k defektu, ale hodnotí se jako „přirozený jev, jako nevyhnutelná a integrální součást složitého procesu nabývání znalosti jinojazyčného kódu“ (Hrdlička, 2012, s. 101).

Počítačem podporovaná chybová analýza v současné době zahrnuje dvě metody. První metoda spočívá v tom, že se vybere jedna chybná položka (slovo, fráze, syntaktická struktura), která je následně vyhledána v celém korpusu, aby došlo k zachycení všech chybných užití. Druhá metoda spočívá ve vytváření standardizovaných systémů chybových značek, na základě kterých se následně zpracuje celý korpus (Granger, 2002, 13–14), přičemž se systém může zaměřit na zpracování pouze určité kategorie (např. modalita). Tato metoda tak úzce souvisí s chybovou anotací žákovských korpusů a s vytvářením chybových taxonomií. V některých případech jsou považovány za zcela identické.

35 Tento nový přístup a další vlivné myšlenky byly poprvé prezentovány v rámci článku „The significance of learner‘s error”, publikovaném roku 1967, srov. Štindová, 2013, s. 30. 36 Kvůli absenci dvou odlišných výrazů v češtině ve shodě se Štindlovou (2013) užíváme český výraz a za ním jeho anglický ekvivalent. 47

5.2 Pedagogika a didaktika

V poslední části se zaměříme na možnosti využití žákovského korpusu v oblasti pedagogické a didaktické aplikace. Tyto přístupy vychází z předpokladů, že na základě analýzy dat z žákovských korpusů bude možné identifikovat jazykové jevy, které jsou problematické a které by měly být v rámci jejich prezentace zvlášť zdůrazněny (Štindlová, 2013, s. 78). Všechny přístupy tedy významně využívají přínosů chybové anotace, kterou elektronické korpusy nabízí.

V prvním případě této aplikace můžeme pozorovat tendenci tvořit výukové materiály a pomůcky tak, aby obsahovaly a kladly důraz především na ty jevy, které dělají žákům potíže. Výsledkem jsou pak nově zpracované slovníky, gramatiky nebo učebnice. Na tyto „hmotné” výstupy se zaměřují především ty žákovské korpusy, které vznikají za komerčním účelem a jsou součástí velkého nakladatelství. Zástupcem této kategorie může být například The Longman Learners' Corpus, který aktuálně vykazuje velikost 10 miliónů slov. Tvoří jej psané texty od studentů angličtiny z celého světa. Autoři pak výsledky z vlastního korpusu využívají pro doplnění jejich slovníků v podobě zvýraznění možných problémů, častých chyb nebo poznámek k užití slov. Například jednou z častých chyb studentů učících se angličtinu je užití množného čísla u slova informace (viz obrázek č. 5), nepočitatelného slovního tvaru, proto jej ve slovníku doplňují následující poznámkou a zároveň příklady možného užití.

Obrázek 5 Doplňující informace ve slovníku. Zdroj: The Longman Corpus Network, 2015, online.

V druhém případě pak učitelé cílí výuku za účelem rozpoznání těchto problémů a jejich případných oprav. K tomu využívají aktivity, při kterých studenti sami pracují s korpusy nerodilých mluvčích nebo na cvičeních z nich čerpajících. Často jsou využívány k vyhledávání a analýze chyb, upozorňováno je především na výhody spojené se zvyšováním a upevňováním jazykové autonomie studentů a obecně i jejich schopnost identifikovat dané odlišnosti a také upozadění učitele jako korektora (Škodová, 2012, s.

48

137).37 Pro ilustraci zveřejňujeme příkladové cvičení autorek Šindelářové a Škodové (2012, online), které je cíleno na komplexní opravu celého textu a komentování typů chyb.

Obrázek 6 Cvičení s textem z žákovského korpusu, Zdroj: Škodová a Šindelářová, 2012, online. V prezentaci učiva tento typ cvičení již zcela běžně využívá studijní řada učebnic Cambridge zaměřená na přípravu studentů ke zvládnutí certifikované zkoušky na vyšší úrovni (C1). Učebnice pracuje se speciálním symbolem , který uživatele publikace upozorňuje na zdroj cvičení, kterým je žákovský korpus Cambridge. Cvičení jsou zaměřená na typické chyby, které se objevily v odpovědních arších předešlých kandidátů s cílem eliminovat tyto časté chyby u kandidátů budoucích. Symbol ve většině označuje cvičení typu Opravte chyby, Najděte chyby, jako je tomu v případě zvoleného příkladu na chyby spojené s formou a pravopisem. Mimo to se snaží cílit také na produktivní schopnosti pomocí tvoření vět s problematickými slovy. Zároveň za každým cvičením s korpusovými zdroji následuje odkaz na gramatické vysvětlení a poznámky. Zapojení žákovského korpusu do učebnice v různých podobách v učebnicích Cambridge je tak velkým zdrojem inspirace do dalších projektů.

Obrázek 7 Oprava chyb na příkladových větách z korpusu, Zdroj: Brook-Hart – Haines, 2014–2015, s. 21.

37 Z didaktického hlediska je tento typ aktivit doporučován využívat se studenty s pokročilou úrovní, aby nedocházelo k fixaci chyb. 49

Mimo výše uvedené přístupy mohou být data z žákovských korpusů využita v rámci přípravy pedagogů na jejich budoucí povolání. Ti tak mají možnost seznámit se s žákovským jazykem a jeho specifiky ještě před zahájením své pracovní praxe. V případě mluvených žákovských korpusů může být záběr výzkumu veden rovněž k rozboru učitelských promluv a k poskytnutí zpětné vazby. Zájem o jazykovou produkci učitele má svou tradici v didaktice angličtiny jako cizího jazyka, kde jej najdeme pod pojmem teacher talking time.

Na tyto možnosti v českém prostředí upozorňuje především tvůrčí tým korpusu češtiny jako druhého jazyka CzeSL. V rámci stejného projektu vznikl také webový portál Čeština jako druhý jazyk,38 který doplnila série odborných workshopů, přednášek, metodik a materiálů. Předměty zahrnující práci s žákovským korpusem byly zařazeny jako blok povinně volitelných předmětů do studijního programu Učitelství pro střední školy na Technické univerzitě v Liberci, cílí totiž především na skupinu učitelů působících na českých základních nebo středních školách, kteří se ve výuce češtiny setkávají také s cizinci.

5.3 Limity žákovských korpusů Výzkum založený na datech ze žákovských korpusů doprovází přes všechny výhody také jistá omezení. Největší omezení se týká samotných korpusových dat. Můžeme totiž sledovat pouze to, co se v korpusech opravdu vyskytuje. Jestliže se některý jev v jazykovém projevu neobjevuje, nemůžeme s jistotu říci, zda jej student zná, ale nepoužívá, nebo nezná, a proto nepoužívá. S tímto velmi úzce souvisí v teorii osvojování jazyka často zmiňovaný pojem, a to strategie vyhýbání (angl. avoidance, avoiding strategy). Vyhýbání v tomto případě znamená, že student z různých důvodů místo požadované konstrukce využívá jinou, často velmi zjednodušenou (srov. Šebesta, 2014, s. 51). Těmito důvody může být nejistota v užití, neznalost či jiné individuální důvody. Výzkumník se může pokusit znalost těchto konstrukcí získat pomocí elicitace, ale ani tato metoda nemusí být úspěšná. Strategie vyhýbání ovlivňuje především statistické výzkumy. Například americká lingvistka Schachter zkoumala přesnost užití vztažných vět u studentů angličtiny z různých asijských států. Z výzkumu vyplynulo, že s největší přesností vztažné věty používají žáci s japonštinou jako prvním jazykem. Nicméně po bližším rozboru jejich

38 Dostupné z: http://www.c2j.cz/. 50 projevů se ukázalo, že tyto větné konstrukce nepoužívají ve srovnání s ostatním tak často, a tím mají méně prostoru k chybování (Gass, 2013, s. 104–106).

Další omezení se týká přístupu učitelů k velkým žákovským korpusům. Ti považují data z velkých žákovských korpusů za cizí, a proto si vytváří vlastní korpusy, které se v angličtině označují jako dirty corpus nebo self-made corpus, což bychom do češtiny mohli přeložit jako nečistý nebo vlastnoručně vyrobený korpus. Přídavného jména nečistý je zde užito z důvodu rezignace autorů na naplnění všech příslušných parametrů žákovských korpusů. Učitelé se v tomto případě zaměřují pouze na výstupy žáků ze svých kurzů, což je pro ně mnohem více motivující než práce s pro ně neznámými daty z velkých žákovských korpusů (Škodová, 2012, s. 186). Na menším vzorku nerodilých mluvčích tak mohou vybrané jevy analyzovat podrobněji, neboť mohou čerpat z osobního kontaktu se studenty. Tímto se dotýkáme limitovanosti metadat v korpusech, která nemohou nikdy obsáhnout všechny důležité informace o studentech a zároveň zaručit správnost všech uvedených údajů.

Na závěr je nutné zdůraznit, že žákovské korpusy nabízejí pohled pouze na produktivní schopnosti žáků. Data, která by podávala obrázek o receptivních schopnostech (např. porozumění textům), zde zcela chybí.

51

PRAKTICKÁ ČÁST

6 Mluvený korpus nerodilých mluvčích – začátečníků

V praktické části představujeme malý mluvený korpus nerodilých mluvčích začátečníků, jenž je složen z projevů studentů češtiny jako cizího jazyka, jejichž úroveň je podle SERR A1 až A2. Mimo dosaženou úroveň nebyl výběr respondentů dále limitován. Úvodní část tohoto bloku má spíše informativní charakter, referuje o průběhu sběru dat, využitých aplikací pro zpracování nahrávek a o převodu mluveného záznamu do grafické podoby. Právě transkripce nahrávek představovala největší výzvu v rámci celého budování korpusu, proto je transkripčním typům a samotnému sestavení transkripčních pravidel věnováno jádro této práce. Dále je prezentován postup, na základě kterého lze vytvořit vlastní korpus v korpusové aplikaci Sketch Engine. Představujeme její funkce a možnosti práce s vytvořeným korpusem. Korpus shromažďuje mluvené projevy češtiny nerodilých mluvčích začátečníků a aktuálně pro něj bylo zpracováno 17 nahrávek o celkové délce přibližně 75 minut. Všechny nahrávky jsou opatřeny metadaty zaměřenými na respondenty a podmínky vzniku nahrávky. Chtěli jsme, aby náš korpus prezentoval stejné doprovodné informace jako korpus CZeSL, proto jsme pro zaznamenání doplňujících informací využili stejný anamnestický dotazník, jehož autorkou je Barbora Štindlová.39

6.1 Mluvčí Vybraní respondenti netvoří homogenní skupinu. Na nahrávkách jsou zachyceny projevy 12 mluvčích (8 mužů a 4 žen) s různými neslovanskými prvními jazyky. Mezi prvními jazyky dominuje germánská (angličtina, němčina) a románská (francouzština, španělština, portugalština) jazyková rodina, výjimku tvoří rodilý mluvčí řečtiny a rodilá mluvčí filipínštiny. Nejkratší uvedená doba studia češtiny byla 3 měsíce, nejdelší pak 5 let. Téměř ve všech případech doba studia odpovídá době pobytu na území České republiky. Všichni respondenti se češtině nevěnují více než tři hodiny týdně a studují především v soukromých jazykových školách. Z hlediska informace o znalosti češtiny v rodině se v odpovědních listech objevily pouze dva typy odpovědí. Přesně u poloviny mluvčích nemluví česky nikdo z rodinných příslušníku, v případě druhé skupiny česky mluví partner/ka mluvčích.

39 Dotazník v plném znění je uveden v její publikaci, viz Štindlová, 2013, s. 168–170. V příloze této práce prezentujeme dotazníkovou část pro studenty. 52

6.2 Průběh nahrávání Hlavní část korpusu tvoří jazykové projevy, jež byly nahrávány v průběhu roku 2015. Nahrávání vždy probíhalo v rámci výuky v jazykové škole nebo v pracovním prostředí studentů (typicky kancelář) v případě, že se jednalo o firemní výuku.

Pro nahrávání jsme využívali zejména tablet a aplikaci Smart Voice Recorder, verzi 1.7.1 (dále jen nahrávací zařízení),40 která je dostupná na internetu ke stažení zdarma. Tuto aplikaci jsme zvolili především pro její jednoduché ovládání, dále pro možnost výběru kvality nahrávání (od 8 od44 kHz) a ukládání ve formátu wav. Díky využití tabletu s velkou pamětí (až 10 GB) a dlouhou výdrží baterie nebylo z hlediska techniky nahrávání ničím limitováno. Nahrávky je možné z tabletu pomocí USB kabelu převést do počítače a tam je upravovat pomocí dalších programů.

Nejlepším způsobem, jak získat reálná a autentická data, je situace, kdy studenti neví, že jsou či budou nahráváni. Této praxe bylo užíváno v minulosti, dnes je považována za neetickou a v některých případech dokonce za nelegální (Liddicoat, 2011, s. 25). Studenti, jejichž jazykové projevy jsou v korpusu zpracovány, byli vždy o nahrávání informováni předem a samotné nahrávání započalo až po jejich souhlasu. Nicméně, v některých případech z hlediska eliminace nervozity projevující se při nahrávání u studentů poměrně často a ze snahy o navození autentické atmosféry jsme nahrávací zařízení nechávali v provozu během celé lekce. Tím jsme získali možnost výběru jazykových projevů pro korpus, a také další cenná data v podobě spontánních reakcí studentů, neboť po čase si vždy na přítomnost nahrávacího zařízení zvykli. Tento způsob nahrávání ovšem nebyl využit ve všech případech, neboť vyžaduje poměrně časově náročnou zpětnou analýzu celé vyučovací lekce, proto jsou nahrávky ve většině případů výsledkem jednotlivých aktivit navozených přímo za účelem nahrávání.

Rozhodli jsme se studenty nahrávat v různých situacích41 a pro snadnější orientaci jsme výsledná data rozdělili do dvou kategorií. První představuje pouze řízený formální dialog mezi učitelem a žákem, během kterého byly učitelem žákovi pokládány otázky v souladu s popisem ústní interakce a mluvené produkce studentů na úrovni A1 až A2 podle publikace Referenční popis češtiny pro účely zkoušky z českého jazyka pro trvalý pobyt v ČR – úrovně A1, A2 (Cvejnová, 2014, s. 36). Na základě tohoto popisu jsme otázky

40 Další informace o aplikaci jsou dostupné z: http://recorder.smartmobdev.com. 41 Z tohoto důvodu je také počet nahrávek vyšší než počet mluvčích. Někteří žáci byli nahráváni vícekrát. 53 koncipovali tak, aby studenti mohli mluvit o své rodině, popsat různé lidi, místa, věci nebo své zvyky, každodenní rituály a plány, podat informace o jejich práci, sdělit, co mají nebo nemají rádi (viz příklad č. 1), případně vyprávět krátký příběh. Průměrná délka nahrávky tohoto typu činí 5 minut.

(1) U: jaké jídlo a pití máte rád? S: mám rád svíčková, to je výborný, nemám rád, nevím, nemám rád jím ryby42

Druhá situace zastřešuje ostatní komunikační aktivity v lekci mimo řízený dialog. Zde řadíme například role play mezi učitelem a žákem na zadané téma, popisy obrázků nebo fotografií žákem (viz obrázek č. 8) a spontánní projevy žáků mezi sebou. V případě, kdy jsou nahrávky výsledkem výše zmíněných situací, je učitelova role více potlačena. Působí zde v roli mediátora, komentátora, případně kontrolora. Během nahrávání jsme se snažili chyby v projevech opravovat pouze v případech, kdy to studenti sami vyžadovali, abychom neovlivňovali jejich další jazykový projev, a získali tak co nejvěrnější obraz studentova mezijazyka. Stanovit průměrnou délku nahrávky je s ohledem na různou povahu zadání obtížné. V případě popisování obrázku studentem je doba nahrávky okolo 2 minut, pokud necháváme prostor spontánním projevům, je výsledná doba nahrávky mnohem delší, ovšem nikdy nepřesahuje 10 minut.

Obrázek 8 Využitá fotografie k popisu. Zdroj: Holá – Bořilová, 2011, s. 42.

42 U učitel. S student. Příklad je přepsán ortograficky bez dalších úprav. 54

6.3 Transkripce nahrávek Zcela zásadním úkolem při kompilaci mluveného korpusu je stanovit, jakým způsobem budou nahrávky přepsány do grafické podoby, tj. do podoby přepisu/transkriptu.43 Jedná se o text, který reprezentuje a interpretuje to, co bylo během monologu nebo dialogu řečeno. Jeho hlavním doprovodným rysem je redukce, neboť vybírá jen určité rysy promluvy, a subjektivnost, protože přepis je vždy výsledkem práce přepisovatele, který projevu rozumí po svém. Grafický přepis slouží především jako pomůcka pro analýzu, výchozím materiálem pro studium mluvené komunikace je vždy samotný audiovizuální záznam (Liddicoat, 2011, s. 27–28). Výsledný transkript je tak pouze doprovodným nástrojem, který nám umožňuje mluvený projev analyzovat.

V případě mluvených korpusů se tvorbě přepisu namluveného materiálu nelze vyhnout, neboť přepis představuje zásadní předpoklad pro vytvoření elektronické podoby, která následně umožňuje vyhledávat požadované jevy. Převod mluveného slova do grafické podoby má mnoho podob. Na tomto místě představíme základní typy transkripce. U každého typu transkripce uvádíme jeho stručnou charakteristiku a principy přepisu. Následně jsou tato pravidla využita pro zpracování krátké ukázky z našeho materiálu. Na závěr u daného transkripčního typu uvádíme jeho pozitiva, negativa a časovou náročnost. Pro přepisy jsme náhodně vybrali část dialogu s francouzským studentem o délce 1 minuty a 30 sekund.

V další části sledujeme způsoby zpracování přepisovacích pravidel v českých korpusových projektech (BMK, ORAL, ROMi, SCHOLA) a ve vybraných světových žákovských korpusech (LINDSEI, SPLLOC). Na závěr představujeme zvolená transkripční pravidla a zároveň prezentujeme vlastní řešení dílčích jevů, které mluvené jevy doprovázejí (nesrozumitelné úseky aj.).

43 V práci užíváme oba výrazy. 55

6.4 Typy transkripce Ortografická transkripce

Jedná se o způsob transkripce, který využívá k popisu mluveného slova běžně užívaný grafický systém daného jazyka, tj. pravopis. V praxi to vypadá tak, že přepisovatel dané slovo převede do psané podoby tak, jak se běžně píše bez ohledu na reálnou výslovnost. V češtině tak nebude zapisována například asimilace znělosti. Slovo sníh tedy bude přepsáno pravopisně správně jako sníh nikoliv jako sních, i když by tato verze lépe odpovídala vyslovovanému. Ortografický přepis bývá často zaměňován za transliteraci. V případě transliterace se nejedná o převod mluvené řeči do psané podoby, ale o převod psaného záznamu do jiného grafického záznamu. Typickým příkladem je přepis mezi azbukou a latinkou (Krčmová, 2008, online).

(1) S: (zakašlání) eee jsem Milan1 jsem z Francie je mi třicet šest let eee pracuju eee jako inženýr U: a kde? v jaké firmě? S: v Teamu . mám manželku . je se jmenuje Eva1 a máme dva děti . eee jednoho syna . se jmenuje Milan2 a jednu dceru se jmenuje Eva2 S: ehm má rád sport . jako tenis squash ehm kole kole U:kolo S: kolo eee a fotbal U: hm S: eee má rád filmy Čas strávený na přepisu ukázky (1) byl 8 minut a 30 sekund. Časový údaj zahrnuje jeden poslech před zahájením přepisu, přepis samotný a 3 kontrolní poslechy. Čas nezahrnuje doplnění dalších jevů jako je anonymizace osobních údajů a úpravy v textovém editoru. Zpracovat podle pravopisných zásad záznam mluvené řeči není příliš komplikované a tedy ani tolik časově náročné, což představuje největší výhodu tohoto transkripčního systému. Máme-li před sebou přepis ve standardizované psané podobě, není problém aplikovat automatické nástroje pro anotování, které následně umožní v korpusu rychle vyhledávat. Nevýhodou je značná zjednodušenost, z přepisu nezískáme žádné informace o skutečné výslovnosti, která se v tomto případě občas liší od standardu (viz příklad č. 2 nebo č. 3).

56

Fonetická transkripce

Další typ transkripce představuje způsob zápisu zvukové podoby za pomoci soustavy značek, jež je sestavena tak, aby zachytila všechny varianty zvukové realizace. Celý mluvený projev je rozložen na jednotlivé hlásky v grafickém přepisu reprezentované zvolenými značkami. Ve fonetické transkripci tedy jedna grafická značka odpovídá jedné hlásce a naopak, přičemž se nepřihlíží k pravopisu (Karlík – Nekula – Pleskalová, 2002, s. 492). V současné době existuje celá řada značkových soustav, tzv. fonetických abeced. Snaha o jejich sjednocení zejména pro komunikaci mezi vědci na mezinárodní úrovni vyústila v roce 1886 do podoby standardizované Mezinárodní fonetické transkripce (angl. International Phonetic Alphabet, uváděné často pod zkratkou IPA), naposledy aktualizované v roce 2005 (International Phonetic Alphabet, 2015, online). Mimo systém IPA existují ještě další standardizované a mezinárodně uznávané systémy, například fonetická abeceda Speech Assessment Methods Phonetic Alphabet (uváděná jako SAMPA). Ta je klíčová pro počítačové zpracování mluvené podoby jazyka, neboť představuje strojově čitelný systém (SAMPA, 2015, online), který je dostupný i pro češtinu (2).

(2) S: jsem M. jsem z frant_sije je mi tSit_set Sest let prat_suju jako enZeni:r U: a?gde? f?jake: firm\e S: f T. ma:m manZelku je se jmenuje E. a mame dva J\eci jedneh\o sina se jmenuje M. a jednu t_seru se jmenuje E. S: ma: ra:t sport jako: tenis skvaS kole: kole: U:kolo S: kolo: a futbal S: ma: ra:t filmi Doba strávená na úpravě ukázky podle českých pravidel systému SAMPA, jejichž finální verze byla publikována v roce 2003, byla přibližně 15 minut. Čas ovšem nezahrnuje dobu studia pravidel, která jsou pro sestavení a analýzu přepisu klíčová. Nutnost znát pravidla přepisu zároveň představuje jistou nevýhodou, neboť data tohoto typu můžeme prezentovat pouze stejně znalému publiku. Výhodou je, že pouze z přepisu můžeme získat detailní informace o výslovnosti. V ukázce je to například výslovnost slovesa mít, které je v první osobě realizováno dlouze, ale v plurálu krátce.44 Rozhodnutí, zda byla samohláska vyslovena krátce nebo dlouze může být velmi subjektivní, proto je dobré využívat

44 Délka samohlásek je v systému SAMPA označena pomocí dvojtečky, tj. ma:m zastupuje dlouhou výslovnost, ortograficky mám. Přepis bez dvojtečky označuje krátkou výslovnost. Viz Czech SAMPA [online]. [cit. 2015-11-27]. Dostupné z: http://noel.feld.cvut.cz/sampa/. 57 speciálních programů pro analýzu řeči, které mohou objektivnost omezit. Čas vynaložený pro přepis nahrávek by se ovšem navýšil.

Kombinovaná transkripce Typ transkripce, který kombinuje v rámci jedné transkripce dva či více typů. Nejčastějším spojením je podle P. Pořízky ortograficko-fonetický model, který ovšem označuje jako model hybridní (Pořízka, 2008, s. 185). Tuto kombinaci jsme také zvolili pro prezentovaný přepis ukázky (viz příklad č. 3). Pokud kombinujeme ortografický a fonetický systém, přepis se velmi přibližuje běžnému ortografickému zápisu, jeho podoba je ale v některých případech modifikována tak, aby mohly být zachyceny doprovodné rysy mluveného jazyka a některé regionální prvky (Cvrček – Richterová, 2015f, online). To se může týkat například délky vokálů, slovo zítra může být realizováno krátce a v přepisu se tedy objeví ve své zkrácené podobě jako zitra.

(3) S: (zakašlání) jsem Milan1 jsem z Francie eee je mi eee tšicet šest let eee pracu- ju eee jako enženýr U: a kde? v jaké firmě? S: v Teamu eee mám manželku eee je se jmenuje Eva1 a máme dva děti eee jedneho syna se jmenuje Milan2 a jednu dceru se jmenuje Eva2 U:hm S:má rád sport eee jakó/jako tenis skvaš eee kole . kole U:kolo S: kolo eee a futbal U: hm S: eee má rád filmy45 Čistý čas strávený na přepisu byl 7 minut a 30 sekund, což je poměrně stejně rychlé jako u ortografického zápisu a opět rychlost zpracování považujeme za hlavní výhodu tohoto systému. Dalším pozitivem je skutečnost, že zároveň vidíme alespoň vybrané odchylky od standardu. Časově náročnější je rozhodnout, co přepsat s ohledem na výslovnost a co nikoli. Například koncový vokál u výrazu jako je studentem realizován dlouze, což může být doprovodným rysem hezitace, tj. rozmýšlení, které se projevuje také u projevů rodilých mluvčích, proto není jasné, zda tento případ považovat za odchylku od nestandardní výslovnosti, či nikoliv. Kombinovaná transkripce vyžaduje zároveň sestavení pravidel, která by ke sporným příkladům zavedla určitá stanoviska. Pokud tento typ zápisu

45 Podtržení označuje slovo přepsané s ohledem na výslovnost. 58 zvolíme pro kompilaci korpusu, omezíme tím následné využití automatických nástrojů pro analýzu dat. Tyto nástroje disponují soubory značek, tzv. tagsety, které jsou následně uplatněny na jazyková data. Ovšem každý systém značek je ve vztahu k jazykové variabilitě značně omezený a nemůže postihnout všechny jevy jazyka se stoprocentní přesností, zejména pokud se jedná o substandardní jevy, jejichž frekvence je mnohem vyšší v mluvených korpusech než ve psaných. Nicméně i tato situace může být vyřešena manuální analýzou nebo úpravou stávajícího analyzátoru, což není úplně neobvyklé řešení. Například na základě analýzy brněnských korpusů BMK a KSK (Korpus soukromé korespondence) byl algoritmický popis české formální morfologie rozšířen o frekventované jevy nespisovného nebo regionálního charakteru (srov. Hlaváčková, 2013, s. 19–31).

Transkripční systém CHAT (Codes for the Human Analysis of Transcripts)

Jedná se o transkripční systém vytvořený primárně pro projekt CHILDES, který jsme zmínili již v úvodní kapitole o žákovských korpusech. Jedná se o platformu sdružující různé korpusy mapující akvizici jazyka dětmi. Nyní je součástí většího korpusu, tzv. TalkBank (viz kapitolu Historie žákovských korpusů). Autorský kolektiv vyvinul sadu nástrojů, uváděné jako nástroje CHILDES (angl. CHILDES tools), podle kterých je řeč přepsána a převedena do elektronické podoby. Nástroje jsou na webových stránkách projektu dostupné ke stažení zdarma. Žákovské korpusy, například sledovaný SPLLOC, uvedené nástroje pro zpracování vlastního korpusu často využívají, a proto tento typ transkripce také zde představujeme.

CHAT je systém speciálních značek a kódů, které se připojují k ortografickému přepisu. Kódy a značky jsou následně dalšími automatickými nástroji zpracovány. Značky a kódy pokrývají všechny doprovodné jevy mluvených projevů (simultánní promluvy, nesrozumitelné úseky, pauzy aj.), dále mohou být určeny pro jevy spojené s jazykovou akvizicí (opakování tvarů slov studenty se změnou nebo beze změny), zároveň mohou sloužit jako chybová analýza na všech jazykových rovinách (fonetika, morfologie, syntax). Výsledný přepis tak může mít několik úrovní. Na první úrovni je mluvený projev pouze přepsán a doplněn příslušnými kódy. Počet dalších úrovní závisí na autorech projektu. Například v korpusu SPLLOC je využita pouze jedna doprovodná úroveň, jež je určena pro vysvětlení chybových kódů. S ohledem na časovou náročnost spojenou s výběrem

59 příslušných kódů jsme naši ukázku (4) pro účely zpracování v transkripčním systému CHAT výrazně redukovali.

(4) S: ehm má rád sport jako tenis squash ehm kolo [/] kolo [*] %err: kole = kolo U:kolo S: kolo@g ehm a fotbal [*] %err: futbal = fotbal U: ehm S: ehm má rád filmy46 Úprava ortografického přepisu trvala přibližně 15 minut. Časová náročnost zpracování je zapříčiněna předešlou neznalostí značek a kódů. Práce s transkripčním systémem CHAT vyžaduje nastudování manuálu a výsledného zdůvodnění užití vybraných značek. My zde například na druhé chybové úrovni vyhodnocujeme pouze chybné užití substantiv a odchylky od výslovnosti. S tím souvisí i hlavní výhoda systému CHAT, což je adaptabilita. Můžeme ze systému značek využívat pouze ty, které jsou důležité pro náš projekt, případně vytvořit nové. Výsledný přepis tak může mít několik variant podle toho, jaké kódy využíváme.

6.5 Výběr transkripčního systému Nejjednodušší způsob, jak mluvené nahrávky přepsat, představuje ortografický přepis, nicméně u všech vybraných korpusových projektů můžeme sledovat tendenci tento model určitým způsobem modifikovat, prostý ortografický přepis se tím pádem jeví jako nedostačující. Ve všech případech se tvůrčí týmy uchylují k volbě takového zápisu, který umožní zachytit (i když pouze vybrané) odlišnosti ve výslovnosti. Toto řešení nabízí kombinovaná transkripce či možnost propojení transkriptu se zvukovou ukázkou. S ohledem na využití korpusového manažeru Sketch Engine (viz kapitolu Vytvoření korpusu) nemůžeme zvolit druhou možnost, tedy propojit transkript přímo se zvukem, proto jsme zvolili kombinovaný transkripční zápis.

Ze srovnání sledovaných korpusů vyplývá, že přepisovatelé dodržují hlavní zásadu přepsat mluvený projev tak, aby se co nejvíce podobal tradičnímu zápisu podle pravopisu, výjimku tvoří regionální prvky a výslovnostní odchylky od standardu, které se přepisují bez ohledu na pravopis s ohledem na jejich fonetickou realizaci. Tvůrci mluvených

46[/] opakování slova studentem beze změny, [*] chyba, %err chybný výraz, @g slovo zopakované po tazateli. 60

žákovských korpusů (ICLE, SPLLOC) zvolili model ortografický. V případě korpusu ICLE se autoři rozhodli zaznamenávat dva typy fonetických odchylek. Prvním z nich je délka slabiky. Pokud je výslovnost poslední slabiky slova výrazně prodloužena, je toto slovo v přepise doplněno příslušným symbolem (viz příklad č. 5), v tomto případě dvojtečkou.

(5) that's something I'll I'll plan to: to learn

Druhým zaznamenávaným rozdílem je výslovnost určitého a neurčitého členu (the, a/an), a to pouze v případě, že byla realizovaná jako [i:] v případě členu určitého a [ei] v případě členu neurčitého. Podoba transkriptu pak vypadá následovně:

(6) and the[i:] villa we were staying in was in one of the valleys

Druhý ze sledovaných mluvených korpusů SPLLOC zvolil rovněž model ortografický (za využití pravidel CHAT) z důvodu následné aplikace automatických anotačních nástrojů. Autoři si však uvědomují absenci zvukového doprovodu, a proto pracují s odlišným způsobem prezentace dat. V korpusu můžeme vyhledávat podle zvolených kategorií (věkové skupiny, typu zadání, úrovně aj.) nebo podle konkrétního slovního tvaru či fráze. Korpusový manažer výsledky vyhledávání doplní několika soubory ke stažení. Jedná se o nahrávky ve formátu wav a mp3 a pořízené transkripty v různých variantách. Jak toto vyhledávání vypadá v praxi, si můžeme přiblížit na obrázku č. 8. Vyhledávali jsme výskyty slova škola (špan. escuela) bez další specifikace kategorií.

Obrázek 9 Způsob prezentace dat v korpusu SPLLOC, Zdroj: SPLLOC, online.

Uvědomujeme si, že kombinovaná transkripce má řadu negativ, která především souvisí s prohlížením dat v korpusovém manažeru. Například při hledání určité jazykové jednotky v korpusu ORAL2008 musíme mít na mysli všechny její možné varianty. Dotazy do korpusového vyhledávače musíme zapisovat tak, aby výsledný dotaz pokryl všechny

61 možné varianty. Hledáme-li tvar slovesa být ve třetí osobě množného čísla, musíme počítat s jeho výslovnostními variantami, tj. jsou – sou – sú – só.

Dále je kombinovaný model kritizován zejména pro nedostatečné naplnění všech možných předpokladů obou typů transkripce. Výběr fonetických odchylek je pouze částečný, nejsou zachyceny všechny nestandardní podoby výslovnosti. Díky tomu, že jsou však zaznamenávány jen některé, nemůže být plně rozvinuta morfologická analýza. Toto řešení tak navíc klade vysoké nároky na technické zpracování korpusu. Kritikem kombinovaného modelu je zejména Petr Pořízka z Filozofické fakulty Univerzity Palackého v Olomouci, jenž je zároveň hlavním řešitelem projektu OMK, jehož budování započalo v roce 2002. Srovnával způsoby transkripce v českých korpusech, konkrétně řady ORAL a BMK. Na základě jejich analýzy navrhl koncepční změny spočívající v zavedení dvou paralelních verzí transkriptu, tj. transkriptu ortografického a transkriptu fonetického. S tím souvisí požadavek na rozšíření funkcí korpusových manažerů, které by umožnily využít mluvené projevy v celé jejich šíři. Takový korpusový manažer by pak umožnil přepínání mezi různými verzemi přepisu a vyhledávání by bylo možné na základě ortografie i na základě výslovnosti (Pořízka, 2008, s. 181–184).

Obdobným způsobem je řešena i Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem. Nejedná se přímo o korpus, ve kterém bychom mohli vyhledávat podle zvolených parametrů. Nicméně každý mluvený projev je v jednom souboru zpracován ortograficky (6) a také foneticky (4 různé typy, například podle systému SAMPA (7) nebo IPA), badatelé si tak mohou vybrat s ohledem na povahu výzkumu.

(7) A dostal jsem do Česka v roce tisíc devět set devadesát devět. (8) ?a dostal jsem do t_Seska v rot_se cisi:d_z devjet sed devadesa:d devjet

Sami autoři českých mluvených korpusů řady ORAL si jsou vědomi komplikací plynoucích z velkého množství nestandardních forem obsažených v korpusu. Z toho důvodu na webových stránkách prezentují Vyhledavač variant v korpusech řady ORAL. Vyhledavač zobrazí k vybranému slovu všechny možné varianty v podobě CQL dotazu (viz dotaz pro slovo protože, příklad č. 9), který lze dále upravovat nebo přímo zadat do korpusového manažeru KonText (Cvrček – Richterová, 20015e, online).

(9) [word="poče|potože|prče|proe|protoe|protože|protožes|protže|prože|prtoe|prtože| prtže|prže|přže|ptože|pže"]

62

Do budoucna chce tvůrčí tým ČNK řešit lemmatizaci speciálních, dialektologických nebo mluvených korpusů pomocí tzv. hyperlemmat. Lemmatizace představuje proces, při kterém je každé formě v korpusu přidělena podoba slovníkového hesla – lemmatu. Pro substantiva má lemma podobu nominativu singuláru, například tvar lesům má lemma les a naopak lemma les zastupuje spisovné podoby všech pádů singuláru a plurálu. Koncept hyperlemmatu rozšíří tradiční lemma, respektující morfologické paradigma, o jiná kritéria a umožní vyhledat výskyt slov například bez ohledu na pravopisnou podobu (Cvrček – Richterová, 2014d, online).

Hyperlemma je jedno z možných řešení, které s ohledem na využívanou korpusovou aplikaci nemůžeme aktuálně aplikovat. Korpusový manažer pracuje s automatickou lemmatizací. Museli bychom tedy vytvořit zcela nový systém nebo dosavadní upravit, což není z hlediska našich možností realizovatelné. Inspirující pro nás byl způsob přepisování cizích slov v korpusech BMK a SCHOLA2010, a to v případech, kdy se v promluvě vyskytla cizí slova nebo některé výrazy byly vysloveny tak, že jejich výslovnost nemohla být zapsána ve shodě s českým pravopisem. V těchto případech je výraz přepsán podle pravidel českého nebo výchozího jazyka a doplněn skutečnou výslovností v hranatých závorkách přímo za slovem (viz příklad č. 10).

(10) Hugo [hugo] se píše , Hugo [igo] se čte . tak jo . eee (SCHOLA2010)

Tento systém by mohl představovat řešení pro nedostatky kombinované transkripce pro náš korpus. Při využití závorkového systému (viz příklady č. 11 až 13), tvary vyhledáváme přes korpusový manažer a zároveň získáme informaci o jejich skutečně realizované výslovnosti, pokud je tedy v rozporu se standardem.

(11) já jsem nejstarší[najstarší] (12) mám dvě sestry[sestři] (13) pracuju[prakuju] jako datový administrátor

63

Nicméně systém nelze užít pro celý korpus plošně a bez výhrad. Existují případy, kdy není jednoduché zvolit slovo k ortografickému přepisu, aniž bychom studentovu realizaci přímo neinterpretovali jako chybnou. Na místě pravopisně přepsaného slova tak můžeme mít více variant (viz příklad č. 14). Těchto případů obsahuje korpus minimum, a proto závorkový systém i nadále v přepisech využíváme. Pokud dojde k podobné situaci, užíváme symbolu otazníku připojeného přímo ke slovu (viz příklad č. 15).

(14) jedu do hospoda v pátek večer s moji sousedi/s mými sousedy[moja susedi- ja] (15) jsem z Francii(?) [Francí]

64

7 Řešení dílčích jevů

7.1 Anonymizace V přepisech bylo třeba anonymizovat všechny mluvčí. To znamená, že jsme museli nahradit všechny citlivé údaje a místo nich vytvořit systém reprezentujících značek. Korpus ROMi navrhuje v přepisech využívat namísto vlastních jmen typicky užívána česká jména a příjmení, která reprezentují všechny deklinační typy. Například ženská křestní jména zastupují Eva, Marie, Ráchel a Lily. Dále prototypické názvy využívají pro kódování příjmení a také pro přepis zeměpisných míst, pokud jsou považovány za osobní údaj (Romi, 2013, online). Tento způsob je více pracný, neboť vyžaduje od přepisovatele zamýšlení nad výběrem vhodného zástupného jména. Korpusy řady ORAL anonymizaci řeší jednodušším způsobem. Prezentují seznam zkratek, kterými se osobní údaj nahradí, například křestní jméno je nahrazeno velkými písmeny psanou zkratkou NJ (1).

(1) až přijede NJ . sem zvědavá , co mi na to řekne (ORAL2008)

V tomto případě jsme se inspirovali zpracováním prototypických jmen vytvořených pro korpus ROMi. Ačkoliv je tento systém pracnější, umožňuje sledovat odchylky od standardu, kterých se cizinci často dopouštějí i v případě deklinace vlastních jmen. Pokud bychom údaj přepisovali pouze zkratkou, ztratili bychom konkrétní případy, ve kterých studenti chybují. Důležité jsou zejména z hlediska frekvence, protože se v projevech i v běžné komunikaci objevují poměrně často. Tento systém jsme však výrazně redukovali pouze na křestní jména, místní názvy, názvy firem a ulic, pokud se jedná o bydliště nebo o místo výkonu povolaní. Příjmení do přepisu nezahrnujeme. Zároveň ponecháváme nezměněn údaj o zemi původu a národnosti. Výhodou systému zástupných modelů je jeho adaptabilita, další jevy nebo jiné deklinační typy mohou být do tabulky doplněny podle potřeby.

65

Křestní jména Eva, Marie, nesklonná: Ráchel, Lily Milan, Honza, Andrej (končící na měkkou souhlásku), Ali Místní názvy sg. Trnava, Kamenice, Kroměříž, Kněževes, Karviná Blaník, Ještěd, Vyšehrad, Frenštát, Most, Brod, Ostroh, Aš, Slaný Znojmo, Jíloviště, Veselí, Bystré Místní názvy pl. Svitavy, Teplice, Hustopeče Bory, Rokycany, Litoměřice Napajedla Názvy ulic Královská, Švermova, Náměstí Republiky, Náměstí Hrdinů Názvy firem Firma, Team, ABC

Tabulka 4 Prototypy využité pro anonymizaci údajů v korpusu. Zdroj: ROMi, 2013, online, vlastní kompilace.

7.2 Promluvy tazatele Ze sledovaných českých korpusů zpracovávají formální rozhovor pouze korpusy PMK a BMK. V obou případech do korpusu promluvy tazatele nejsou zařazeny. Pokud však tazatel komentuje to, co bylo řečeno nebo se ptá na další doplňující otázky, je i jeho projev v případě korpusu BMK zaznamenán pomocí příslušného kódu. My jsme se rozhodli promluvy do korpusu zařadit ve shodě s ostatními sledovanými žákovskými korpusy (LINDSEI, SPLLOC), a to z několika důvodů. Každý dialog obsahuje jiný počet otázek, a i když se dotazy ze strany tazatele poměrně často opakují, nemají standardizovanou podobu na rozdíl od BMK a PMK. Někteří žáci na vybrané otázky odpovídali pouze jednoslovně, bez dostatečného kontextu bychom nebyli schopní určit, k čemu se reakce vztahuje.

Z didaktického hlediska přepis promluv žáka i tazatele umožní sledovat schopnost studenta reagovat na otázku, dále umožní zachytit komunikační strategie či fráze, které student využívá, pokud otázce či některým slovům nerozumí (2). Také poskytují informaci o tom, zda si je žák vědom nastavení situace, tj. formálního (3) nebo neformálního projevu (4).

(2) U: máte nějaké oblíbené pivo? S: co je oblíbené? (3) U: jak se máte? S: dobře a ty? (4) U: ahoj! S: dobrý den! (role play mezi kamarády) (5) U: co jste dělal včera? S: včera? myslím, že budu jít do náměstí kvůli víno fes- tival. (6) U: kde bydlíte? S:bydlíte v Brně

66

Mluvené korpusy nerodilých mluvčích mohou být jednou z odpovědí na obecné limity žákovských korpusů, za které je označována ta skutečnost, že žákovské korpusy zaznamenávají pouze produkční schopnosti žáků. V momentě, kdy přepisujeme i otázku tazatele, můžeme sledovat, jestli žák dostatečně dotazu porozuměl či nikoliv (viz příklad č. 5), a tak sledovat i jeho recepční schopnosti, ovšem v omezené míře. Dalším důležitým argumentem je poměrně častá tendence studentů opakovat větné konstrukce po tazateli (viz příklad č. 6) bez dalších změn.

7.3 Změny jazykového kódu V projevech nerodilých mluvčích se často objevují momenty, kdy mluvčí střídají jazyky (angl. code switching). K tomuto jevu často dochází při komunikaci s ostatními žáky, dále v situacích, kdy student nemá dostatečnou slovní zásobu k popisu dané skutečnosti nebo při komentování průběhu lekce či nahrávání. Pokud tedy respondent použije slovo z cizího jazyka nebo cizím jazykem souvisle hovoří, používáme následující systém. V promluvě zazní pouze jedno cizí slovo, přepíšeme je podle pravopisných norem daného jazyka a do hranaté závorky uvedeme zkratkové označení jazyka (viz příklad č. 7).47 Pokud respondent použije několik vět nebo souvisle hovoří v cizím jazyce, uvedeme v kulatých závorkách komentář, např. (mluví anglicky).

(7) so[an] Václav a Olga hmm jsou bratr a sestra Olga a ráda hmm sorry[an] nerada

7.4 Nedokončené promluvy, nesrozumitelné a simultánní úseky Všechny sledované korpusy pro vybrané problémy nabízejí systém značek, který je v případě českých projektů téměř totožný. Nedořečené slovo je označováno hvězdičkou (to bylo vče* převčírem). V našem korpusu se často objevují případy, kdy student slovo načne, nedokončí (viz příklad č. 8) a začne znovu. Pokud je slovo při druhém pokusu vysloveno stejně, s ohledem na další využití automatických analyzátorů slovo jako nedokončenou promluvu nezapisujeme (viz příklad č. 9).

(8) a je* jeden sestra jedna sestra bydlí v Paříž (9) jeden sestra jedna sestra bydlí v Paříž

Úsek, který se pro jeho nesrozumitelnost nepodařilo přepsat, je označen pomocí tří krátkých pomlček. Žákovský korpus LINDSEI se snaží nesrozumitelné úseky pokrýt podrobněji a rozlišuje mezi nesrozumitelnou slabikou (X), nesrozumitelným slovem (XX)

47 Seznam symbolů využívaných v přepisech je v příloze včetně označení jazyků, např. an – angličtina. 67 nebo celým úsekem (XXX). V případě projevů začátečníků je velice těžké rozlišit, zda se jedná o nesrozumitelnou realizaci pouze jednoho nebo více slov, proto se přikláníme k řešení uvedeného v českých korpusech. Z transkripčního manuálu korpusu LINDSEI využíváme symbol otazníku (?) užívaného pro ty úseky, u nichž si přepisovatel není jistý a uvádí to, co si myslí, že slyší. Pro zachycení simultánních úseků jsme využili systém BMK a systém zápisu se pomocí svislých čar (|), které stojí vždy samostatně (viz příklad č. 10).

(10) jo to číslo vlasně nám dali | posledně | | no no to jak |

7.5 Interpunkce, pauzy, velká písmena V přepisech větné interpunkce, tak jak se obvykle užívá v textech psaných, nevyužíváme. V souladu s tradiční interpunkcí je užíván pouze otazník, a to kvůli zachování označení otázek tazatele. Díky tomu můžeme pauzy v projevech zaznamenávat podle délky trvání jednou, dvěma nebo třemi tečkami (v souladu s BMK). Velká písmena píšeme pouze u vlastních jmen, nikoli na začátcích promluv.

7.6 Ostatní doprovodné zvuky Pro označení dalších doprovodných zvuků využíváme následující jednoduchý systém. Označení hmm je využito pro zápis spíše souhláskových zvuků, samohláskové zvuky jsou označeny eee (podle ORAL). Projevy respondenta často doprovází přitakání ze strany tazatele, někdy jako signál, aby respondent v projevu pokračoval. Toto tazatelovo přitakání, které je samohláskového i souhláskové charakteru, označujeme jako ehm. Všechny ostatní zvuky jako komentáře k situaci či rušivé zvuky přepisujeme v kulatých závorkách s popisem situace, např. (zvonění telefonu).

68

8 Vytvoření korpusu

8.1 Úprava nahrávek Prvním krokem ve zpracování mluveného projevu žáků je nutná úprava nahraného materiálu. Nebylo nutné upravovat všechny nahrávky, nicméně některé nahrávky vykazovaly nižší kvalitu. Tato situace vznikla například ve chvíli, kdy se žák příliš vzdálil od nahrávacího zařízení. Mimo kvalitu byla v některých případech upravena délka nahrávky a byly rovněž odstraněny další rušivé jevy. Pro úpravu zvukových dat je dostupná řada programů. Zvolili jsme program Audacity verzi 2.1.0.48 Jedná se o volně dostupný software pro nahrávání a úpravu zvuku. Tento software jsme vybrali především pro jeho přednosti spočívající v jednoduchém ovládání s možností nastavení češtiny jako výchozího jazyka a rychlém vyhledávání v online manuálu.

Druhý krok představoval přepis nahrávek za využití kombinované transkripce. Jelikož vybraná korpusová aplikace umožňuje vkládat soubory v různých formátech, např. ve formátu doc, txt, pdf a xml, rozhodli jsme se tranksript vytvořit v textovém editoru (Poznámkový blok) bez použití dalších programů či aplikací. Každá nahrávka byla v textovém editoru přepsána a uložena pod svým ID jako typ souboru xml. V příloze č. 3 pro doplnění prezentujeme vybranou ukázku kompletně zpracovanou podle výše sestavených zásad.

8.2 Kompilace korpusu v aplikaci Sketch Engine Korpusová aplikace Sketch Engine (dále jen SkE) je výsledkem spolupráce autorů Adama Kilgarriffa, Pavla Rychlého, Pavla Smrže a Davida Tugwella. V současné době je produktem patřícím společnosti Lexical Computing (zal. Adamem Kilgariffem v roce 2003). Jedná se o produkt, jehož funkce jsou uživatelům dostupné po zaplacení licence (Sketch Engine, 2013, online). Některé vědecké organizace licenci zakoupenou mají a nabízejí korpusovou aplikaci SkE svým studentům a zaměstnancům, a protože Masarykova univerzita je jednou z organizací nabízející svým studentům plný přístup, můžeme i my využít možnosti pro sestavení korpusu skrze aplikaci SkE. Pro užívání Sketch Enginu není třeba instalovat žádný další software, je možné s ním pracovat skrze standardní internetové prohlížeče.

48 Bližší informace a technická specifikace je dostupná z: http://audacityteam.org/. 69

Samotné vytvoření korpusu v aplikaci je velmi jednoduché a skládá se z několika kroků:

 vytvoříme korpus a upravíme jeho nastavení, tj. češtinu nastavíme jako vý- chozí jazyk a zvolíme gramatiku, se kterou chceme pracovat,49  do nově založeného korpusu vložíme vybrané soubory, které korpusová aplikace převede na prostý text, tzv. plain text,  prostý text je v dalším kroku automaticky převeden na vertikální text, který umožní tokenizaci50 a lemmatizaci,  po nahrání souborů musíme korpus znovu zkompilovat,  aplikace nás upozorní na úspěšnou úpravu všech souborů, tím je kompilace korpusu dokončena.51

Na závěr jsme vytvořený korpus s pracovním názvem KCNMZ (Korpus češtiny nerodilých mluvčích začátečníků) zpřístupnili vedoucí práce, s níž na korpusu spolupracujeme. Dále možnosti aplikace SkE umožňují v korpusových datech sledovat fráze, konkordance nebo kolokační a gramatické chování slov. Vyhledávání v našem korpusu můžeme specifikovat na základě atributů, jako je první jazyk, pohlaví nebo typ zadání (řízený dialog nebo jiné).

Obrázek 10 Uživatelské prostředí korpusové aplikace Sketch Engine, Zdroj: Sketch Engine, 2013, online.

49 Česká gramatika pro SkE je Majka vytvořená na FI MU. 50 Tokenizace je proces, při kterém je text rozdělen nejmenší jednotky, tzv. tokeny. Většinou se jedná o grafické slovo (Cvrček – Richterová, 2014d, online). 51 Detailnější návod na sestavení korpusu v aplikaci Sketch Engine je dostupný z: https://trac.sketchengine.co.uk/wiki/SkE/Help/CreateCorpus. 70

9 Zhodnocení praktické části

Praktická část potvrdila hypotézu, že sestavení mluveného korpusu je velmi časově náročné, a to v obou fázích, ve kterých budování probíhá. V první fázi, tzv. přípravné, jsme se seznamovali s nástroji, které je možné pro tvorbu korpusu využít. Sledovali jsme způsoby přepisu mluvených projevů v několika českých mluvených korpusech a zároveň ve vybraných světových žákovských korpusech. Následně jsme s ohledem na využívanou korpusovou aplikaci sestavili vlastní transkripční pravidla, tak aby do jisté míry odrážela povahu sebraného materiálu. Druhá fáze představovala úpravu nahrávek, jejich převod do elektronické podoby a samotné vytvoření korpusu. I přesto, že jsou zvolená transkripční pravidla značně zjednodušená, stojí za výslednou podobou korpusu hodiny práce. Na tomto místě podáváme doporučení, která se týkají obsahu a jeho zpracování a která by případně mohla snížit čas vynaložený na zpracování korpusu.

Před samotným zahájením nahrávání je dobré promyslet, jaký typ situace budeme zaznamenávat. Různorodá cvičení, která umožní využít více elicitačních metod a zároveň poskytnou rozmanitá data, jsou vhodná v případě budovaní korpusů s velkým rozsahem. Pokud budujeme korpus malý, je dobré využít standardizovanou podobu cvičení. Korpus založený na datech získaných pouze z jednoho typu cvičení je například Hamburg MapTask Corpus, mluvený korpus němčiny nerodilých mluvčích. Jak potvrzuje i název projektu, autoři zaznamenávají promluvy studentů, kteří společně řeší zadání v mapě, přičemž se nejedná o mapu geografickou, ale obrázkovou. Každý ze studentů má v mapě uvedeny jiné informace, a aby splnili cíl cvičení, musí spolu komunikovat a spolupracovat.52 Obrázky byly vždy vybrány s určitým výzkumným cílem, například několik obrázků zastupuje výrazy, které mohou být pro nerodilé mluvčí němčiny komplikované k vyslovení. Zadaný úkol má tedy standardizovanou podobu, je ho využito při každém nahrávání, a proto výsledky mohou poskytnout i bližší statistické údaje, např. v podobě analýzy výslovnosti jednoho určitého slova u většího počtu mluvčích.

V našem korpusu představujeme především data získaná z řízeného dialogu mezi učitelem a studentem a z dalších konverzačních aktivit, jako je například popis obrázků nebo role play. Nicméně žádný z úkolů neměl standardizovanou podobu, což se ve výsledku ukázalo jako problematické. Například máme určitý počet nahrávek, ve kterých

52 Jejich vzájemná komunikace může mít podobu instrukcí, např. projdi okolo obrázku princezny a zahni doleva apod. 71 promlouvá učitel, a další skupinu nahrávek, které jeho projevy neobsahují. Při sestavování transkripčních pravidel jsme se tedy museli věnovat otázce, zda učitelovy promluvy do přepisu zahrnout, či nikoliv. Standardizovaná podoba je tedy nespornou výhodou i pro další zpracování korpusu a jeho analýzu.

Sestavit funkční transkripční pravidla představovalo největší výzvu v celém projektu. Existující český žákovský korpus CZeSL je zatím sestaven pouze z psaných textů, a i když v současné době probíhá sběr mluveného materiálu, autoři dosud nepublikovali žádná transkripční pravidla pro přepis mluvených projevů nerodilých mluvčích.53 Korpus ROMi zpracovává psané i mluvené projevy romské mládeže a podle nás stojí nejblíže projevům nerodilých mluvčích. Domníváme se, že u této cílové kategorie mluvčích může čeština v některých případech představovat druhý jazyk.54 Transkripční pravidla korpusu ROMi ovšem nejsou nějak výrazně modifikována a jsou téměř totožná s transkripčními systémy ostatních mluvených korpusů rodilých mluvčích spravovanými ČNK. Z hlediska výzkumného cíle žákovských korpusů, což je zejména bližší poznání principů osvojování jazyka, by i samotná transkripce měla nabízet především informace o jevech, jež jsou klíčové pro poznání žákovského mezijazyka. Jedním z takových jevů je například časté opakování slov studenty po tazateli beze změny jejich formy (viz příklad č. 6, s. 67), transkripční systém by měl poskytovat značky pro jejich zachycení. Tyto možnosti představují tzv. nástroje CHILDES (viz kapitolu Transkripce CHAT), jejich využití však vyžaduje zejména detailní seznámení s funkcemi a možnostmi vybraných programů. Problematické je také samotné zveřejnění korpusu, protože nástroje CHILDES jsou kompatibilní pouze mezi sebou. Obecně můžeme říct, že čím více specializovaný korpus tvoříme, tím více potřebujeme dostupné nástroje modifikovat.

Možným řešením je zveřejnit zpracovaný transkript společně s příslušnými nahrávkami. V našem případě bychom před publikováním museli nahrávky upravit, zejména odstranit osobní údaje, což by časovou náročnost spíše zvýšilo, než eliminovalo. Pokud bychom se však již během nahrávání vyhnuli otázkám zaměřeným na osobní údaje, nebylo by to příliš komplikované, a tím se dostáváme zpět k důležitosti výběru elicitačních metod a jejich využití v rámci nahrávání.

53 Kontaktovali jsme prostřednictvím emailu B. Štindlovou a požádali ji o vyjádření, bohužel je tato žádost dosud bez odpovědi. 54 Korpus je také zařazen do prvního žákovského korpusu CZESL-PLAIN. 72

Závěr

Žákovské korpusy představují relativně nový zdroj pro poznání v oblasti korpusové lingvistiky, teorie osvojování jazyka a výuky cizích jazyků. V teoretické části této práce žákovské korpusy nejprve zasazujeme do kontextu výše zmíněných disciplín. Mapujeme jejich vznik a vývoj. Jádro teoretické části spočívá v popsání základních parametrických rozdílů mezi korpusy obecnými a žákovskými. Zabýváme se parametry výstavby korpusů z hlediska velikosti, obsahu, autenticity zpracovaných dat a možnostmi lingvistické a chybové anotace. Na závěr teoretické části prezentujeme možnosti práce s žákovskými korpusy, představujeme konkrétní příklady užití a zároveň poukazujeme na limity, na které žákovské korpusy narážejí.

Získaná teoretická východiska jsme uplatnili k popisu a hodnocení projektů žákovských korpusů v České republice. Konkrétně se jedná o korpusy CZESL – PLAIN, CZeSL – SGT, Merlin a Databázi mluvené češtiny cizinců s ruštinou jako prvním jazykem a Databázi jazykových chyb v češtině mluvčích s prvním jazykem slovanským. Počet uvedených projektů odráží rostoucí teoretický zájem o češtinu nerodilých mluvčích a také potvrzuje silné zázemí korpusové lingvistiky, kterým Česká republika aktuálně disponuje. V kontextu ostatních světových žákovských korpusů, jež se soustředí výhradně na zpracování angličtiny jako cizího jazyka, je toto postavení opravdu zcela výjimečné. Ačkoliv projekty dosud zpracovaly poměrně velké množství materiálu od nerodilých mluvčích, jedná se především o materiál psaný, pocházející od mluvčích s rodným jazykem slovanským, což možnosti dalšího výzkumu poněkud omezuje.

Tento nedostatek nás motivoval k vytvoření malého mluveného žákovského korpusu, který čerpá z projevů cizinců zejména s germánským nebo románským prvním jazykem. Průběh budování korpusu je zaznamenán v praktické části. Výběr mluvčích byl omezen pouze na základě úrovně. Zaměřili jsme se na projevy mluvčích se začátečnickou úrovní, tj. úrovní A1 až A2 podle SERR. Sběr nahrávek probíhal během roku 2015 na území České republiky a celkem jsme pro korpus zpracovali 75 minut záznamu.

73

Ucelené zhodnocení praktické části mimo jiné ukazuje, že sestavit mluvený korpus i o velmi malém rozsahu je z hlediska času potřebného ke zpracování značně náročné. Časová náročnost doprovází celý průběh budování korpusu, od sběru nahrávek po jejich převod do elektronické podoby. Právě sestavení vhodných transkripčních pravidel představovalo největší výzvu, neboť dosud nejsou dostupná doporučení pro přepis mluvené češtiny nerodilých mluvčích. Na základě srovnání několika transkripčních modelů pro převod mluvených projevů jsme následně využili ortografický typ transkripce, který jsme modifikovali tak, aby odrážel vybrané odchylky od standardní výslovnosti. Také s ohledem na korpusovou aplikaci Sketch Engine, které je výsledný korpus součástí, jsou transkripční pravidla velmi zjednodušená a nezpracovávají všechny jevy, jež jsou zásadní pro analýzu žákovského mezijazyka.

I přesto korpus v aktuální podobě nabízí poznání podoby mluveného projevu cizinců na první začátečnické úrovni a otevírá možnosti dalšímu výzkumu, například analýze častých chyb, sestavení celkové chybové taxonomie nebo sepsání metodologických doporučení do výuky. Samotné zpracování korpusu může sloužit jako inspirace pro další badatele a zároveň jako nástroj pro odhalení potenciálních problémů, které s tvorbou mluvených korpusů souvisejí. Cílem práce tedy nebylo výsledný korpus analyzovat, ale sepsat úskalí, která tvorbu tohoto korpusu doprovázela, a navrhnout doporučení z toho plynoucí.

Základem úspěšné komunikace v cizím jazyce je mimo jiné zvládnutí zvukového plánu dané řeči. Zpětnou vazbu o úrovni mluveného projevu může poskytnout zvukový záznam. Stejně tak se nahrávání projevů studentů jeví jako významný pomocník ve výuce. Zpracovaná nahrávka může být v lekci využita k různým činnostem a zároveň může poskytnout přímá data pro žákovské mluvené korpusy. V současné vyučovací praxi je však pořizování a následné používání zvukových záznamů spíše výjimečné než běžné (Veroňková, 2012, s. 77). Rozvoj mluvených žákovských korpusů češtiny by měl probíhat společně s propagací nahrávání jako dosud nedoceněného pomocníka při výuce nejen češtiny pro cizince.

74

Použitá literatura a zdroje

BOLBOT, Katarzyna a Katsiaryna RAMASHEUSKAYA (2013). Databáze jazykových chyb v češtině mluvčích s prvním jazykem slovanským. In BEDNAŘÍKOVÁ, Božena a Pavla HERNANDEZOVÁ. Od slova k modelu jazyka: sborník z 13. mezinárodního setkání mladých lingvistů. 1. vyd. Olomouc: Univerzita Palackého v Olomouci, s. 418-424.

BOWKER, Lynne a Jennifer PEARSON (2002). Working with specialized language: a practical guide to using corpora. London: Routledge, 242 stran. ISBN 0415236983.

BROOK-HART, Guy, Simon HAINES, Laura MATTHEWS a Barbara THOMAS (2015). Cambridge English: complete advanced. Second edition. Cambridge: Cambridge University Press, 2014-2015. ISBN 978-1-107-68823-0.

CASEDEI, Lucia (2012). Chyby italsky mluvících studentů češtiny v písemném projevu. Krajiny češtiny: Časopis učitelů u krajanských komunit a lektorů českého jazyka a literatury na zahraničních vzdělávacích institucích [online]. 2012, 2015-11-17, (4): 62-74 [cit. 2015-11-17]. ISSN 1804-3283. Dostupné z: http://www.dzs.cz/file/2365/K%C4%8C%204,%20WEB,%207%C2%B42012.pdf.

CVEJNOVÁ, Jitka et al (2014). Referenční popis češtiny pro účely zkoušky z českého jazyka pro trvalý pobyt v ČR – úrovně A1, A2 [online]. 1. Praha: Národní ústav pro vzdělávání, školské poradenské zařízení a zařízení pro další vzdělávání pedagogických pracovníků, [cit. 2015-11-18]. ISBN 978-80-7481-076-3. Dostupné z: http://trvaly- pobyt.cestina-pro- cizince.cz/uploads/Dokumenty/Referencni_popis_cestiny_verze_pro_web.pdf.

CVRČEK, Václav a Olga RICHTEROVÁ (2013), eds. Pojmy:synchronni. Wiki, Český národní korpus [online]. Příručka ČNK, 13. 9. 2013 [cit. 17. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php/pojmy:synchronni.

CVRČEK, Václav a Olga RICHTEROVÁ (2013b), eds. Pojmy:reprezentativnost. Wiki, Český národní korpus [online]. Příručka ČNK, 13. 9. 2013 [cit. 18. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:reprezentativnost&rev=1379079160.

CVRČEK, Václav a Olga RICHTEROVÁ (2014a), eds. Pojmy:korpus. Wiki, Český národní korpus [online]. Příručka ČNK, 27. 11. 2014 [cit. 17. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:korpus&rev=1416829573.

75

CVRČEK, Václav a Olga RICHTEROVÁ (2014b), eds. Pojmy:anotace. Wiki, Český národní korpus [online]. Příručka ČNK, 24. 11. 2014 [cit. 17. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:korpus&rev=1416829573.

CVRČEK, Václav a Olga RICHTEROVÁ (2014c), eds. Pojmy:mluveny. Wiki, Český národní korpus [online]. Příručka ČNK, 24. 11. 2014 [cit. 17. 11. 2015]. Dostupné z: https://wiki.korpus.cz/doku.php?id=pojmy:mluveny&rev=1416829715.

CVRČEK, Václav a Olga RICHTEROVÁ (2014d), eds. Pojmy:lemma. Wiki, Český národní korpus [online]. Příručka ČNK, 24. 3. 2014 [cit. 17. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:lemma&rev=1395234392.

CVRČEK, Václav a Olga RICHTEROVÁ (2015a), eds. Cnk:oral2013. Wiki, Český národní korpus [online]. Příručka ČNK, 10. 11. 2015 [cit. 17. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:korpus&rev=1416829573.

CVRČEK, Václav a Olga RICHTEROVÁ (2015b), eds. Cnk:uvod. Wiki, Český národní korpus [online]. Příručka ČNK, 22. 10. 2015 [cit. 18. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=pojmy:korpus&rev=1416829573.

CVRČEK, Václav a Olga RICHTEROVÁ (2015c), eds. Cnk:speeches. Wiki, Český národní korpus [online]. Příručka ČNK, 1. 10. 2015 [cit. 18. 11. 2015]. Dostupné z: https://wiki.korpus.cz/doku.php?id=cnk:speeches&rev=1443694178.

CVRČEK, Václav a Olga RICHTEROVÁ (2015d), eds. Cnk:schola2010. Wiki, Český národní korpus [online]. Příručka ČNK, 13. 4. 2015 [cit. 18. 11. 2015]. Dostupné z: https://wiki.korpus.cz/doku.php?id=cnk:schola2010&rev=1428918691.

CVRČEK, Václav a Olga RICHTEROVÁ (2015e), eds. Kurz:hledani_v_mluvenych_korpusech. Wiki, Český národní korpus [online]. Příručka ČNK, 22. 10. 2015 [cit. 22. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=kurz:hledani_v_mluvenych_korpusech&rev=14429086 71.

DÍAZ-NEGRILLO, A. a J. FERNÁNDEZ-DOMÍNGUEZ (2006). Error tagging systems for learner corpora. Spanish Journal of Applied Linguistics (RESLA), č. 19, s. 83–102. Dostupné z: hispadoc.es/descarga/articulo/2198610.pdf.

76

ČERMÁK, František (2011). Korpusy včera, dnes a zítra. In ČERMÁK, F. eds. Korpusová lingvistika II Výzkum a výstavba korpusů. Praha: Nakladatelství Lidové noviny, 2011, s.10–29.

ELLIS, Rod (1990). Understanding second language acquisition. 6th impression. Oxford: Oxford University Press, 327 s. ISBN 019437081x.

GASS, Susan M, Jennifer BEHNEY a Luke PLONSKY (2013). Second language acquisition: an introductory course. 4th ed. New York: Routledge, 2013, xxiv, 623 s. ISBN 978-0-415-89495-1.

GRANGER, Sylviane. (1998). The computerized learner corpus: a versatile new source of data for SLA research. In GRANGER, Sylviane. Learner English on computer. London & New York: Addison Wesley Longman, s. 3–18.

GRANGER, Sylviane (2002). A bird’s-eye view of computer learner corpus research. In GRANGER, S., J. HUNG a S. PETCH-TYSON, eds. Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam & Philadelphia: John Benjamins, s. 3–33.

GRANGER, Sylviane (2004). Computer learner corpus research: Current status and future prospects. In CONNOR, U. a T. UPTON, eds. Applied : a multidimensional perspective, Amsterdam & Atlanta: Rodopi, s. 123–145.

GRANGEROVÁ, Sylviane (2009). The contribution of learner corpora to second language acquisition and foreign language teaching: a critical evaluation. In AJMER, K., ed. Corpora and language teaching. Amsterdam & Philadelphia: John Benjamins, s. 13–32.

HOLÁ, Lída a Pavla BOŘILOVÁ (2011). Čeština expres 1: [úroveň] A1/1 : [anglická verze]. 2., opr. vyd. Praha: Akropolis (Filip Tomáš), 96 s. ISBN 978-80-87481-22-6.

HLAVÁČKOVÁ, Dana. Korpusové zpracování korespondenčních textů: morfologické značkování. In HLADKÁ, Zdeňka a kol. Soukromá korespondence jako lingvistický pramen. 1. vyd. Brno: Masarykova univerzita, 2013, s. 19–31. ISBN 978-80-210-6140-8.

HRDLIČKA, Milan (2012). Jazyková chyba a práce s ní v jazykovém vyučování. In ŠEBESTA Karel, Svatava ŠKODOVÁ (2012), eds. Čeština – cílový jazyk a korpusy. 1. vyd. Liberec: Technická univerzita v Liberci, s. 89–109. ISBN 978-80-7372-842-9.

77

JAKUBÍČEK, Miloš, Jan BUŠTA, Dana HLAVÁČKOVÁ a Karel PALA (2009). Classification of Errors in Text. In RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing. 1. vyd. Brno: Masaryk University, 2009, s. 109-119. ISBN 978-80- 210-5048-8.

KARLÍK, Petr, Marek NEKULA a Jana PLESKALOVÁ (2002). Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, 604 stran. ISBN 80-7106484-x.

KAWECKI, Régis (2011). Teaching and learning French with the help of a French Caribbean corpus [online], 8 stran [cit. 2015-11-17]. Dostupné z: http://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference- archives/2011/Paper-242.pdf.

KRAUS, Jiří. Nový akademický slovník cizích slov A-Ž. Vyd. 1. Praha: Academia, 2005, 879 s. ISBN 80-200-1351-2.

KRČMOVÁ, Marie. Fonetika a fonologie. Elportál, Brno: Masarykova univerzita, 2008. ISSN 1802-128X. Dostupné z: http://is.muni.cz/do/1499/el/estud/ff/ps09/fonetika/tisk_2009/index.html.

LÜDELING, A (2005). Multi – level error annotation in learner corpora. In Proceedings of Corpus Linguistic 2005 Conference, 14 – 17 July. Birmingham. Dostupné z WWW: www.birmingham.ac.uk/Documents/college.../multilevelerror.doc.

LIDDICOAT, Anthony J (2011). An introduction to conversation analysis. 2. vyd. London: Continuum, c2011, 404 stran. ISBN 978-1-4411-8934-9.

MAŠÍN, Jaroslav (2015). Pragmalingvistika a osvojování češtiny jako cizího jazyka. 1. vyd. Praha: Filozofická fakulta Univerzity Karlovy, 183 stran. ISBN 978-80-7308-555-1.

PETKEVIČ, V., A. ROSEN, B. ŠTINDLOVÁ, T. JELÍNEK, M. HNÁTKOVÁ, A P. JÄGER (2012). Anotace chybových textů v českém žákovském korpusu. In ŠEBESTA Karel, Svatava ŠKODOVÁ (2012), eds. Čeština – cílový jazyk a korpusy. 1. vyd. Liberec: Technická univerzita v Liberci, s. 61–87. ISBN 978-80-7372-842-9.

POŘÍZKA, Petr (2008). Anotace orálních korpusů češtiny. Olomoucký korpus jako model. In KOPŘIVOVÁ, Marie a Martina WACLAWIČOVÁ. Čeština v mluveném korpusu. 1. vyd. Praha: Nakladatelství Lidové noviny, s. 177–190. ISBN 978-80-7106-982-9.

78

POŘÍZKA, Petr (2005). Přepis(y) textů v korpusech mluvené češtiny. In POŘÍZKA, Petr a Vladimír POLÁCH, eds. Jazyky v kontaktu – jazyky v konfliktu a evropský jazykový prostor: sborník příspěvků ze 4. mezinárodní konference Setkání mladých lingvistů, konané na Filozofické fakultě Univerzity Palackého v Olomouci ve dnech 12.-14. května 2003. 1. vyd. Olomouc: Univerzita Palackého, 2005, s. 235–240. ISBN 80-244-1027-3.

ROSEN, Alexandr. CzeSL-SGT: korpus češtiny nerodilých mluvčích s automaticky provedenou anotací. Ústav teoretické a komputační lingvistiky [online]. 2014, 2015-10-7 [cit. 2015-11-17]. Dostupné z: http://utkl.ff.cuni.cz/~rosen/public/2014-czesl-sgt-cs.pdf.

ROSEN, Alexandr. Korpus CzeSL-SGT: počet textů podle metadat. Ústav teoretické a komputační lingvistiky [online]. 2014, 2014-7-28 [cit. 2015-11-17]. Dostupné z: http://utkl.ff.cuni.cz/~rosen/public/sgt_counts_by_meta.html#s_jazyk.

SINCLAIR, John (1996). Preliminary recommendations on Corpus Typology [online]. Birmingham, [cit. 2015-11-17]. Dostupné z: http://www.ilc.cnr.it/EAGLES96/corpustyp/node11.html.

STITAR, Mojca. (2009). Slovene as a foreign language: The pilot learner corpus perspective. Slovenski jezik / Slovene Linguistic Studies 7, s. 135–152. Dostupné z WWW: https://kuscholarworks.ku.edu/bitstream/handle/1808/5274/8Stritar.pdf;jsessionid=C21080 B8C5A807528B27238FFCFD557A?sequence=1.

ŠEBESTA, Karel (2012a). Cesty k žákovských korpusům. In ŠEBESTA Karel, Svatava ŠKODOVÁ (2012), eds. Čeština – cílový jazyk a korpusy. 1. vyd. Liberec: Technická univerzita v Liberci, s. 5–13. ISBN 978-80-7372-842-9.

ŠEBESTA, Karel (2012b). Parametry žákovských korpusů a CzeSL. In ŠEBESTA Karel, Svatava ŠKODOVÁ (2012), eds. Čeština – cílový jazyk a korpusy. 1. vyd. Liberec: Technická univerzita v Liberci, s. 13–35. ISBN 978-80-7372-842-9.

ŠEBESTA, Karel (2014). Druhý a cizí jazyk: osvojování a vyučování: terminologický slovník. Vydání první. Praha: Filozofická fakulta Univerzity Karlovy, 121 stran. ISBN 978-80-7308-554-4.

ŠINDELÁŘOVÁ, J. a S. ŠKODOVÁ. Práce s korpusy ve výuce žáků-cizinců. Metodický portál RVP.CZ [online]. 2012 [cit. 2015-11-18]. Dostupné z:

79 http://clanky.rvp.cz/clanek/c/ZUH/17481/PRACE-S-KORPUSY-VE-VYUCE-ZAKU- CIZINCU.html/.

ŠKODOVÁ, Svatava (2012). Nástin využití žákovských korpusů pro jazykové vyučování. In ŠEBESTA Karel, Svatava ŠKODOVÁ (2012), eds. Čeština – cílový jazyk a korpusy. 1. vyd. Liberec: Technická univerzita v Liberci, s. 125–139. ISBN 978-80-7372-842-9.

ŠTINDLOVÁ, Barbora (2013). Žákovský korpus češtiny a evaluace jeho chybové anotace. 1. vyd. Praha: Univerzita Karlova v Praze, 223 stran. ISBN 978-80-7308-463-9.

ŠTINDLOVÁ, Barbora, Svatava ŠKODOVÁ, HANA Jiří a Alexandr ROSEN, (2012). A learner corpus of Czech: current state and future direction. Dostupné z WWW: http://utkl.ff.cuni.cz/~rosen/public/LCR2011_proceedings_Stindlova-et-al_prefinal.pdf.

VEROŇKOVÁ, Jitka. Nahrávání: nedoceněný pomocník při výuce češtiny pro cizince. Nová čeština doma a ve světě. 2012, 2012(1), s. 75–91.

Webové stránky AKCES: Akviziční korpusy českého jazyka [online]. 2013 [cit. 2015-11-17]. Dostupné z: http://akces.ff.cuni.cz/.

Cambridge English Corpus. Cambridge English [online]. 2015 [cit. 2015-11-17]. Dostupné z: http://www.cambridge.org/cz/cambridgeenglish/about-cambridge-english/cambridge- english-corpus.

Databáze jazykových chyb v češtině mluvčích s prvním jazykem slovanským [online]. Univerzita Karlova, 2015 [cit. 2015-11-17]. Dostupné z: http://chrup.ff.cuni.cz/About.aspx.

Databáze mluvené češtiny cizinců s ruštinou jako prvním jazykem [online]. Univerzita Karlova v Praze, 2008 [cit. 2015-11-17]. Dostupné z: http://ucjtk.ff.cuni.cz/mcr/Index- project.html.

International Phonetic Alphabet [online]. 2015 [cit. 2015-11-20]. Dostupné z: http://www.internationalphoneticalphabet.org/.

Korpus MERLIN. Merlin - platform [online]. 2014, 2015-8-19 [cit. 2015-11-17]. Dostupné z: http://merlin-platform.eu/C_mcorpus.php.

80

Learner corpora around the world. Université catholique de Louvain [online]. 2015-9-11 [cit. 2015-11-17]. Dostupné z: https://www.uclouvain.be/en-cecl-lcworld.html.

Merlin - platform [online]. 2014, 2015-8-19 [cit. 2015-11-17]. Dostupné z: http://merlin- platform.eu/index_help.php.

MERLIN project (2014): User Manual. Dostupné z: http://merlin- platform.eu/docs/MERLIN_user-manual-CZ.pdf.

Spanish Learner Oral Corpus [online]. [cit. 2015-11-17]. Dostupné z: http://cartago.lllf.uam.es/corele/home_en.html.

Russian Learner Translator Corpus: (RusLTC) Beta [online]. [cit. 2015-11-17].

SAMPA: computer readable phonetic alphabet. University College London [online]. 1999, 2015 [cit. 2015-11-20]. Dostupné z: https://www.phon.ucl.ac.uk/home/sampa/.

Struktura korpusu. Korpus DIALOG: The DIALOG Corpus [online]. Praha, 2008, 2015 [cit. 2015-11-20]. Dostupné z: http://ujc.dialogy.cz/?q=cs/node/32.

TalkBank. TalkBank [online]. [cit. 2015-11-17]. Dostupné z: http://talkbank.org.

The Longman Corpus Network. Longman Dictionaries Online USA [online]. Pearson Education Ltd., 2015 [cit. 2015-11-18]. Dostupné z: http://longmandictionariesusa.com/longman/corpus.

The NICT Japanese Learner English (JLE) Corpus [online]. 2004, 2012 [cit. 2015-11-17]. Dostupné z: https://alaginrc.nict.go.jp/nict_jle/index_E.html.

The Sketch Engine [online]. Brighton, 2003–2013 [cit. 2015-11-17]. Dostupné z: https://www.sketchengine.co.uk/.

Korpusy ŠEBESTA, K., H. GOLÁŇOVÁ, M. KŘEN a P. PROCHÁZKA. SCHOLA2010: korpus mluvené češtiny ve škole – přepisy nahrávek vyučovacích hodin na českých základních a středních školách. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz

81

WACLAWIČOVÁ, M., M. KOPŘIVOVÁ, M. KŘEN a L. VÁLKOVÁ. ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z WWW: http://www.korpus.cz

Zásady přepisu pro vybrané korpusy Czech SAMPA [online]. [cit. 2015-11-27]. Dostupné z: http://noel.feld.cvut.cz/sampa/.

CVRČEK, Václav a Olga RICHTEROVÁ (2015f), eds. Cnk:zasady_pro_prepis_vyucovacich_hodin Wiki, Český národní korpus [online]. Příručka ČNK, 12. 5. 2015 [cit. 22. 11. 2015]. Dostupné z: http://wiki.korpus.cz/doku.php?id=cnk:zasady_pro_prepis_vyucovacich_hodin&rev=1431 439321.

MACWHINNEY, Brian. The CHILDES Project: Tools for Analyzing Talk – Electronic Edition. Child Language Data Exchange System [online]. 2000, 2015-9-22 [cit. 2015-11- 28]. Dostupné z: http://childes.psy.cmu.edu/manuals/CHAT.pdf.

Popis BMK: Zásady přepisu. Ústav Českého národního korpusu [online]. Praha: Filozofická fakulta Univerzity Karlovy v Praze [cit. 2015-11-28]. Dostupné z: https://ucnk.ff.cuni.cz/popis_bmk.php.

Romi: Návod k přepisování a segmentování pomocí Transcriberu. AKCES: Akviziční korpusy českého jazyka [online]. Praha: FF UK, 2013 [cit. 2015-11-28]. Dostupné z: http://akces.ff.cuni.cz/node/160.

Transcription Conventions for L2 Spanish. Spanish Learner Language Oral Corpora: Linguistic development in L2 Spanish [online]. 2008 [cit. 2015-11-28]. Dostupné z: http://www.splloc.soton.ac.uk/trancon.html.

Transcription guidelines. Université Catholique de Louvain [online]. Louvain [cit. 2015- 11-28]. Dostupné z: https://www.uclouvain.be/en-307849.html.

Software Audacity, verze 2.1.0. Software na zpracování zvukového materiálu. Dostupné z: http://audacityteam.org/.

Smart Voice Recorder, verze 1.7.1. Aplikace pro nahrávání zvukového záznamu. Dostupné z: http://recorder.smartmobdev.com.

82

Seznam tabulek

Tabulka 1 Přehled zveřejněných českých mluvených korpusů k 20. 11. 2015, Zdroj: vlastní kompilace...... 16 Tabulka 2 Kritéria žákovských korpusů. Zdroj: vlastní kompilace...... 20 Tabulka 3 Zobrazení interpretačních rovin pro jednu chybu v žákovském projevu. Zdroj: Lüdeling, 2005, s. 4...... 32 Tabulka 4 Prototypy využité pro anonymizaci údajů v korpusu. Zdroj: ROMi, 2013, online, vlastní kompilace...... 66

83

Seznam obrázků

Obrázek 1 Příběh v obrázcích. Zdroj: Španělský mluvený korpus, online...... 27 Obrázek 2 Ukázka správně anotované části v programu feat. Zdroj: Petkevič – Rosen, 2012, s. 77...... 38 Obrázek 3 Chybová anotace pro projekt MERLIN, Zdroj: MERLIN project (2014): User Manual...... 40 Obrázek 4 Uživatelské prostředí databáze CHRUP. Zdroj: Databáze CHRUP, 2015, online...... 42 Obrázek 5 Doplňující informace ve slovníku. Zdroj: The Longman Corpus Network, 2015, online...... 48 Obrázek 6 Cvičení s textem z žákovského korpusu, Zdroj: Škodová a Šindelářová, 2012, online...... 49 Obrázek 7 Oprava chyb na příkladových větách z korpusu, Zdroj: Brook-Hart – Haines, 2014–2015, s. 21. 49 Obrázek 8 Využitá fotografie k popisu. Zdroj: Holá – Bořilová, 2011, s. 42...... 54 Obrázek 9 Způsob prezentace dat v korpusu SPLLOC, Zdroj: SPLLOC, online...... 61 Obrázek 10 Uživatelské prostředí korpusové aplikace Sketch Engine, Zdroj: Sketch Engine, 2013, online. . 70

84

Seznam příloh

Příloha 1: Seznam zkratek a symbolů v přepisech Příloha 2: Dotazník pro respondenty Příloha 3: Ukázka kompletního přepisu nahrávky Příloha 4: Přehled světových žákovských korpusů uvedených v práci

85

Příloha 1: Seznam zkratek a symbolů v přepisech eee označení spíše samohláskových zvuků ehm označení tazatelova přitakání hmm označení spíše souhláskových zvuků

? označuje otázku tazatele

(?) označuje slovo, u kterého si není přepisovatel jistý

. .. … označuje pauzy podle délky

--- označuje nesrozumitelný úsek

| označuje simultánní úseky

* označuje nedokončené slovo

[an] označuje anglické slovo

[fr] označuje francouzské slovo

[šp] označuje španělské slovo

[no] označuje cizí slovo

(zvonění telefonu) označuje další zvuky, promluvy v cizím jazyce

[ugo] označuje reálnou výslovnost

Příloha 2: Dotazník pro respondenty

Příloha 3: Ukázka kompletního přepisu nahrávky

bydlím v penzionu na Švermově ulici . vedle Kraví hory . kopec je přímo za budovou a tam je pěkná zahrada . jsem moc spokojený tam protože majitelka je moc hodná . a taky moc zajímavá . je archeolog[arkeolog] . a dávno . jsem myslel že budu archeolog[arkeolog] . eee výhoda je že můžu jít pěšky do práce každý den navíc --- je moc blízko . jediné co mi vadí je že nemám skutečný byt . mám vlastní pokoj a vlastní koupelnu a kuchyně ale musím přejít chodba chodbu

Příloha 4: Přehled světových žákovských korpusů uvedených v práci

The Longman Corpus Odkaz: http://www.pearsonlongman.com/dictionaries/corpus/learners.html

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden více ✓

médium psaný ✓ mluvený

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ne ✓

původ akademický komerční ✓

chybová anotace ano ✓ ne

International Corpus of Learner English Odkaz: http://www.uclouvain.be/en-cecl-icle.html

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden více ✓

médium psaný ✓ mluvený

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ne ✓

původ akademický ✓ komerční

chybová anotace ano ✓ ne

Indiana Business Learner Corpus Odkaz: aktuálně nedostupný online

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden více ✓

médium psaný ✓ mluvený

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký malý ✓

veřejně dostupný ano ne ✓

původ akademický ✓ komerční

The Cambridge Learner Corpus Odkaz: aktuálně nedostupný online

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden více ✓

médium psaný ✓ mluvený

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ne ✓

původ akademický komerční ✓

chybová anotace ano ✓ ne

Telecollaborative Learner Corpus of English and German Telecorp Odkaz: aktuálně nedostupný online

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden ✓ více

médium psaný ✓ mluvený

úroveň jedna více ✓

sběr dat průřezový longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ne ✓

původ akademický ✓ komerční

chybová anotace ano ne

National Institute of Information and Communications Technology – Japanese Learner En- glish Corpus Odkaz: http://www.alc.co.jp/edusys/sst/corpus.html

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden ✓ více

médium psaný mluvený ✓

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ✓ ne

původ akademický ✓ komerční

chybová anotace ano ✓ ne

Spanish Learner Language Oral Corpora Odkaz: http://www.splloc.soton.ac.uk/

Kritérium

cílový jazyk angličtina jiný ✓

první jazyk jeden ✓ více

médium psaný mluvený ✓

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký malý ✓

veřejně dostupný ano ✓ ne

původ akademický ✓ komerční

LINDSEI Corpus Odkaz:http://www.uclouvain.be/en-cecl-lindsei.html

Kritérium

cílový jazyk angličtina ✓ jiný

první jazyk jeden více ✓

médium psaný mluvený ✓

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ne ✓

původ akademický ✓ komerční

chybová anotace ano ✓ ne

Spanish Learner Oral Corpus Odkaz: http://cartago.lllf.uam.es/corele/home_en.html

Kritérium

cílový jazyk angličtina jiný ✓

první jazyk jeden více ✓

médium psaný mluvený ✓

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký malý

veřejně dostupný ano ✓ ne

původ akademický ✓ komerční

chybová anotace ano ✓ ne

Hamburg MapTask Corpus Odkaz: http://www1.uni-hamburg.de/exmaralda/files/z2-hamatac/public/

Kritérium

cílový jazyk angličtina jiný ✓

první jazyk jeden ✓ více

médium psaný mluvený ✓

úroveň jedna více ✓

sběr dat průřezový ✓ longitudinální

rozsah velký ✓ malý

veřejně dostupný ano ✓ ne

původ akademický ✓ komerční

chybová anotace ano ne