Masarykova univerzita Filozofická fakulta

Ústav českého jazyka Český jazyk

Mgr. Pavlína Vališová

Využití korpusů ve výuce češtiny jako cizího jazyka Dizertační práce

Vedoucí práce: doc. PhDr. Klára Osolsobě, Dr.

2017

1

Prohlašuji, že jsem diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury.

………………………………… Podpis autora práce

2

Poděkování

Velice děkuji vedoucí práce doc. PhDr. Kláře Osolsobě, Dr., za odborné vedení, cenné rady a intenzivní podporu, bez které by tato práce zřejmě nevznikla.

Dále děkuji:

- Jamesi Thomasovi, M. A., jehož seminář ´Využití jazykového korpusu při studiu a výuce jazyka´ v roce 2008 byl inspirací pro mé další směřování. - Dr. Paulu Thompsonovi z Centre for Corpus Reasearch, University of Birmingham, který mi pomohl získat semestrální stáž na tomto pracovišti a se kterým jsem konzultovala typy cvičení z korpusových dat. - Doc. Viktoru Zacharovi z Katedry matematické lingvistiky na Petrohradské státní univerzitě, se kterým jsem během své stáže v Petrohradu konzultovala budování učebnicového korpusu a návrh jeho pedagogické anotace. - RNDr. Vítu Suchomelovi z Fakulty informatiky MU za pomoc s tvorbou vlastního korpusu ve Sketch Engine. - Mgr. Petře Honzákové z Ústavu jazykové a odborné přípravy Univerzity Karlovy za metodické připomínky k typům korpusových cvičení. - Mgr. Blance Jaurisové z University of Oxford za testování typů korpusových cvičení. - Dr. Janě Markové za jazykovou korekturu práce. - Dr. Blance Nyklové za revizi překladů. - Přátelům a rodině za podporu, jmenovitě Dr. Jitce Cirklové a Dr. Petře Stražovské. - Všem svým studentkám a studentům češtiny pro cizince za inspiraci.

3

Motto:

„Every student a Sherlock Holmes!“

Tim Johns

4

Anotace Cílem této dizertační práce je představit aplikaci korpusové lingvistiky ve výuce češtiny jako cizího jazyka (ČCJ). Ukazuje, v čem jsou jazykové korpusy a korpusové metody přínosné: zachycují typické užití jazyka a autentické příklady. Práce prezentuje typy korpusů s pedagogickým zaměřením: žákovský, pedagogický a učebnicový. Diskutuje také styčné body využívání korpusů výuce s komunikačním přístupem a dalšími současnými metodami ve výuce L2 a také s teorií osvojování L2, konkrétně s hypotézou povšimnutí. Praktická část se zabývá přímým a nepřímým využitím korpusů ve výuce ČCJ a tvorbou učebnicového korpusu. Prezentujeme typologii korpusových cvičení včetně ukázek a příklady nepřímého využití na základě českých korpusových příruček. Analýza učebnicového korpusu a komparace jeho dat s korpusem obecného jazyka ukazuje, jak empirická data obohacují výuku o konkrétní vzorce a kolokace.

Abstract

The aim of this dissertation is to present the application of corpus linguistics in teaching Czech as a foreign language (CFL). It shows how language corpora and corpus methods are beneficial for teaching: it displays typical language usage and authentic examples. The thesis presents different types of corpora for pedagogical purposes: learner corpora, pedagogic corpora and textbook corpora. It also discusses the link between using corpora in language teaching and communicative language teaching, other contemporary teaching methods and second language acquisition theories, especially the noticing hypothesis. The applied part of the thesis deals with direct and indirect uses of corpora in CFL teaching and building a textbook corpus. It presents a typology of corpus-based exercises and examples of indirect use of corpora using Czech corpus- based publications. The analysis of Czech textbook corpora and its comparison with general language corpus shows how empiric data enrich teaching with pattern and collocations of words.

5

Klíčová slova korpusová lingvistika, pedagogické korpusy, učebnicový korpus, čeština jako cizí jazyk, výuka jazyků, data-driven learning (DDL)

Keywords corpus linguistics, pedagogic corpora, textbook corpus, Czech as a foreign language, language teaching, data-driven learning (DDL)

6

Obsah

1 Úvod ...... 10 2 Terminologický slovníček ...... 13 3 Metody výzkumu jazykových korpusů ...... 15 3.1 K čemu je korpus ...... 15 3.1.1 Korpusová lingvistika ...... 15 3.1.2 Data vs. intuice ...... 17 3.1.3 Reprezentativnost korpusů ...... 20 3.1.4 Typy korpusů ...... 21 3.1.5 České korpusy ...... 24 3.1.6 Nástroje a české korpusy ...... 26 3.2 Corpus-based a corpus-driven výzkum ...... 29 3.2.1 Neo-firthinánská tradice ...... 29 3.2.2 Corpus-based výzkum ...... 31 3.2.3 Corpus-driven výzkum ...... 31 3.2.4 Význam jako centrální pojem ...... 32 3.2.5 Český corpus-based a corpus-driven výzkum ...... 37 3.3 Typy pedagogické aplikace korpusů ...... 40 3.4 Shrnutí ...... 44 4 Specializované korpusy s pedagogickým zaměřením ...... 45 4.1 Žákovské korpusy ...... 45 4.1.1 Žákovský korpus CzeSL ...... 47 4.1.2 Žákovský korpus MERLIN ...... 48 4.1.3 DIY žákovské korpusy ...... 48 4.2 Pedagogické korpusy ...... 50 4.2.1 Korpus ELISA a jeho tematická anotace ...... 52 4.2.2 Projekt SACODEYL a nástroje pro pedagogický korpus ...... 54 4.2.3 Vícejazyčný projekt BACKBONE ...... 55 4.3 Učebnicové korpusy ...... 57 4.3.1 Korpus německých učebnic angličtiny (GEFL TC) ...... 60 4.3.2 Korpus TeMa a jeho anotace ...... 61 4.3.3 Využití učebnicových korpusů ...... 63 4.4 Shrnutí ...... 65 5 Korpus a metody výuky jazyků ...... 66 5.1 Současný komunikační přístup ve výuce jazyků ...... 66

7

5.1.1 Korpus a komunikační přístup ...... 68 5.2 Další současné metody ...... 69 5.2.1 Úkolová metoda (Task-based language teaching – TBLT) ...... 69 5.2.2 Computer-assisted language learning (CALL) ...... 70 5.2.3 Lexikální přístup (Lexical approach) ...... 72 5.3 Shrnutí ...... 75 6 Korpus a teorie osvojování druhého jazyka (SLA) ...... 76 6.1 Povšimnutí (noticing) ...... 76 6.2 Učení se objevováním (discovery learning) ...... 77 6.3 Shrnutí ...... 81 7 Přímé využití korpusů ve výuce ...... 83 7.1 Metoda Data-driven Learning (DDL) ...... 83 7.1.1 Kritické hodnocení DDL ...... 86 7.1.2 DDL ve výuce angličtiny ...... 88 7.1.3 DDL a specializované korpusy ...... 90 7.2 DDL a typy cvičení ...... 93 7.2.1 DDL instrukce ...... 93 7.2.2 Tim Johns: Data-driven learning ...... 94 7.2.3 Tribble a Jones: Concordances in the classroom ...... 100 7.2.4 Costas Gabrielatos – domácí úkol ...... 102 7.2.5 Ana Frankenberg-García – Korpus jako doplněk učebnice ...... 104 7.3 DDL čeština jako cizí jazyk ...... 107 7.3.1 Experimenty s DDL aktivitami ve výuce češtiny ...... 108 7.3.2 Nástroj Kontext ...... 114 7.3.3 SyD – online korpus pro všechny ...... 116 7.3.4 Sketch Engine ...... 120 7.3.5 SkeLL – Sketch Engine for Language Learning ...... 122 7.4 Typy cvičení – ukázky ...... 123 7.4.1 Typologie korpusových cvičení ...... 123 7.4.2 Obecné korpusy ...... 125 7.4.3 Paralelní korpusy ...... 135 7.4.4 Žákovské korpusy ...... 138 7.5 Shrnutí ...... 139 8 Nepřímé využití korpusů ...... 141 8.1 Pedagogická gramatika ...... 143 8.1.1 Parcelace gramatiky ...... 144 8.1.2 Pedagogická gramatika a korpus ...... 145

8

8.1.3 COBUILD English Grammar ...... 151 8.2 Autentický jazyk ve výuce ...... 154 8.2.1 Modelové věty ...... 156 8.2.2 Úprava vět z korpusu ...... 157 8.3 Nepřímá aplikace ve výuce češtiny ...... 159 8.3.1 Statistiky češtiny ...... 159 8.3.2 Mluvnice současné češtiny ...... 162 8.3.3 Akademická gramatika spisovné češtiny ...... 164 8.3.4 Frekvenční slovníky češtiny ...... 166 8.4 Shrnutí ...... 168 9 Analýza učebnicového korpusu ...... 170 9.1 Klasická analýza učebnic ...... 170 9.2 Tvorba korpusu ...... 172 9.2.1 Výběr textů do korpusu a jejich klasifikace ...... 175 9.2.2 Diskuze k anotaci učebnicového korpusu ...... 178 9.3 Komparace dat učebnicového korpusu s autentickým jazykem ...... 179 9.3.1 Výběr slovní zásoby v učebnicích A1 ...... 180 9.3.2 Kontexty sloves v učebnicích A2 ...... 194 9.4 Shrnutí ...... 202 10 Závěr ...... 203 11 Doporučení pro další výzkum ...... 207 12 Seznam literatury ...... 209 12.1 Primární literatura ...... 209 12.2 Učebnice a mluvnice češtiny jako cizího jazyka ...... 219 12.3 Korpusy a korpusové nástroje ...... 221 13 Přílohy ...... 222 13.1 Seznam tabulek ...... 222 13.2 Seznam obrázků ...... 223

9

1 Úvod

Současná doba i evropská jazyková politika vyžaduje nové přístupy k výuce cizích jazyků. Máme jak mnoho nových cílových skupin studentů, tak i nové a moderní učebnice a příručky. Během své desetileté praxe ve výuce češtiny pro cizince jsem se však přesvědčila, že mnoho učitelů i přesto vyrábí výukové materiály šité na míru, neboť zacílených materiálů je stále nedostatek. Tato práce by proto chtěla ukázat nejen jim, ale i autorům učebnic a sylabů, čím může být jazykový korpus přínosný a jak jej, popř. již publikované korpusové příručky, konkrétně využít ve vlastní výuce i při tvorbě cvičení. Korpusová data přinášejí informace o tom, co je typické a co okrajové, ukazují slovo v kontextu a především obsahují autentický jazyk rodilých mluvčích, který není upravený pro didaktické účely. Data z korpusu tak mohou pomoci učit studenty jazyk, kterým opravdu mluvíme a usnadnit jim komunikaci.

Vzhledem k tomu, že disciplína čeština jako cizí jazyk, stejně jako korpusová lingvistika, je poměrně nová, nabízí se zde inspirace využitím korpusových dat ve výuce angličtiny, kde mohou čerpat z dlouholetých zkušeností. Předkládaná práce proto popisuje současné metody výuky angličtiny i využívání korpusových dat ve výuce angličtiny a pro tvorbu korpusových žákovských slovníků a gramatik. Jelikož je toto téma v českém prostředí poněkud nové, dali jsme tomuto teoretickému popisu velký prostor s cílem prezentovat přehled problematiky. Práce hojně využívá zahraniční literaturu, uplatňuje však výhradně českou perspektivu. Vzhledem k mé praxi ve výuce češtiny pro cizince v různých typech kurzů a pro různé cílové skupiny se v práci snažím zapojit svoji praktickou zkušenost a propojit ji s teoretickým pozadím. Práce proto není členěna klasickým způsobem na teoretickou bázi a výzkumnou část, avšak i teoretické kapitoly obsahují různé sondy do dostupných učebních materiálů či situací nebo problémů z praxe. Za aplikované kapitoly považujeme především typy korpusových cvičení pro češtinu (kap. 7) a popis výstavby učebnicového korpusu včetně dvou případových studií (kap. 9).

Práce je rozdělena na celkem 7 kapitol. Na začátku práce předkládáme pro snazší orientaci terminologický slovníček, ve kterém uvádíme překlady anglických termínů, které v práci používáme. První kapitola se věnuje výhodám korpusů z hlediska jazykové výuky. Z korpusů lze získat údaje o frekvenci jazykových prostředků, o kolokacích

10 a koligacích slova, sémantické prozodii, slovních svazcích a funkci v rámci textu. Kapitola také stručně popisuje typy korpusů a dostupné české korpusy a nástroje. Větší část je věnována korpusovým metodám, konkrétně prezentuje dva hlavní korpusové metodické přístupy (corpus-based a corpus-driven výzkum). Corpus-driven přístup, který staví korpusová data na první místo a zpochybňuje jazykovou intuici, se stal základem pro využívání korpusů ve výuce (projekt COBUILD, metoda data-driven learning – DDL). V závěru kapitoly uvádíme přehled pedagogické aplikace korpusů. Korpusy lze využívat ve výuce přímo (hands-on, hard DDL), kdy studenti sami vyhledávají v korpusu, či nepřímo (hands-off, soft DDL), kdy učitelé či autoři výukových materiálů využívají korpus jako zdroj dat. Cvičení z korpusových dat na papíře jsou tedy někde mezi oběma póly.

Další kapitola uvádí typy specializovaných korpusů s pedagogickým zaměřením. Žákovský korpus je složen z textů studentů a slouží především výzkumníkům jakožto základ pro analýzu chyb. Pedagogický korpus v užším slova smyslu je vytvořen tak, aby zahrnoval témata, která se studenti učí a jsou pro ně užitečná. Učebnicový korpus je tvořen z učebnic a slouží k analýze učebnicového jazyka či komparaci s jazykem autentickým.

Následující kapitola představuje současné přístupy a metody jazykové výuky a ukazuje místo korpusové lingvistiky v jejich rámci. Styčné body komunikačního přístupu a korpusové lingvistiky vidíme především v těchto aspektech: kontextualizace, různé metody výuky, tvorba sylabu, role studenta a učitele. Dále se věnujeme využívání počítačů ve výuce (CALL), úkolové metodě (TBLT) a lexikálnímu přístupu (LA), který přímo vychází z korpusových metod.

Následující kapitola se orientuje psycholingvisticky, a to na osvojování druhého jazyka, konkrétně se věnuje tzv. hypotéze povšimnutí, jež souvisí s využíváním korpusových dat ve výuce. Představujeme také učení se objevováním, které povšimnutí využívá.

Další dvě kapitoly se zaměřují již na konkrétní využití korpusu ve výuce, a to nejdřív přímé a potom nepřímé. V přímém využití korpusů ve výuce představíme metodu data-driven learning, která praktikuje interakci studentů přímo s korpusovým vyhledávačem, nebo v tzv. měkké variantě interakci učitele s korpusem pro přípravu výukových aktivit. Diskutujeme klady a zápory této metody, stav jejího výzkumu ve

11 výuce angličtiny a především možnosti pro výuku češtiny. Prezentujeme, jakým způsobem lze přímo ve výuce využívat dostupné české korpusové nástroje. Na základě zahraničních zdrojů vytváříme typologii korpusových cvičení na papíře a na konkrétních cvičeních ukazujeme, jak tuto typologii aplikovat na češtinu. U každé aktivity diskutujeme nejen náročnost a možnou jazykovou úroveň pro studenty, ale také obtížnost a časovou náročnost pro učitele. U testovaných cvičení uvádíme i zpětnou vazbu.

Kapitola o nepřímém využití korpusů, tj. pro tvorbu gramatik, slovníků a učebnic pro nerodilé mluvčí, se zabývá pedagogickou gramatikou a také tím, jaká kritéria jsou důležitá při její tvorbě. Představujeme korpusovou gramatiku projektu COBUILD, diskutujeme o přínosech autentického jazyka ve výuce a prezentujeme, jak konkrétně současné české korpusové publikace použít a jejich data zjednodušit pro výuku cizinců. Také se věnujeme tvorbě modelových vět z autentických příkladů a pravidlům, jak věty upravovat.

Poslední kapitola se zaměřuje na učebnicový korpus, který jsme vytvářeli z učebnic češtiny pro cizince. Diskutujeme výběr textů do korpusu, zařazení pod psaný či mluvený jazyk a možnou budoucí anotaci. Na dvou případových studiích ukazujeme možnosti využití tohoto korpusu, pokud data z něj srovnáme s korpusem jazyka rodilých mluvčích. Vybraná slovesa z korpusů učebnic češtiny pro cizince úrovní A1 a A2 (frekvenci jejich tvarů a kontexty) porovnáváme s webovým korpusem czTenTen a na konkrétních případech ukazujeme, že korpusová data jsou přínosná i pro výuku nižších pokročilostí.

Za hlavní přínos práce považujeme především představení metod využívání korpusů ve výuce, konkrétně návrhy korpusových cvičení na papíře a jejich typologii, a dále tvorbu a analýzu učebnicového korpusu. Výsledky obou těchto aplikovaných částí ukazují, že empirická data z korpusů jsou pro výuku češtiny jako cizího jazyka velmi užitečná. Doufáme také, že práce díky svému přehledovému charakteru zaujme i učitele a autory výukových materiálů, kteří se dosud problematikou využití korpusů příliš nezabývali, a pomůže tak popularizovat tuto tematiku v českém prostředí.

12

2 Terminologický slovníček

Computer-assisted language learning (CALL) – učení se jazyku za pomocí počítače (zahrnuje nejen využívání korpusů, ale i e-learning, mobilní aplikace apod.)

Conciousneess-raising (C-R) – zvyšování povědomí, zde o formální struktuře jazyka

Corpus-based / corpus-informed přístup – výzkum „na korpusu založený“, postupuje se podle předem dané hypotézy, korpusová data slouží pouze k jejímu ověření

Corpus-driven přístup – výzkum „korpusem řízený“, závěry jsou uskutečněny pouze na základě dat

Data-driven learning (DDL) – učení se jazyku na základě pozorování korpusových dat

Diskurzivní konektor (Discourse marker) – slova nebo fráze, které organizují text

Druhý jazyk (second language – L2) – jazyk, který není rodný, ale využívá se ke komunikaci v dané zemi (vs. cizí jazyk)

Koligace – specifický druh kolokace, která namísto lexikálně-sémantických vztahů mezi jednotkami zohledňuje vztahy mezi lexikální jednotkou a gramatickou kategorií a/nebo textovou strukturou.

Kolokace – slova, která se často vyskytují v blízkosti klíčového slova

Komunikační přístup (communicative language teaching – CLT) – současný přístup ve výuce jazyků, který upřednostňuje obsah, cílem je úspěšná komunikace v daném jazyce

Lexikální přístup (lexical approach) – metoda výuky jazyka založená na výuce kolokací a slovních svazků (vychází z korpusových metod)

Mezijazyk (interlanguage) – mix prvků rodného a cílového jazyka, stadium osvojování cizího/druhého jazyka

Osvojování druhého jazyka (second language acquisition – SLA) – disciplína na pomezí lingvistiky a psychologie, zabývá se procesem nabývání L2 při učení

Parcelace gramatiky – zjednodušení gramatiky a její dávkování dle funkce

13

Pedagogický korpus (pedagogic corpus) – korpus s pedagogickým zaměřením, obsahuje texty a videa na užitečná témata, která se studenti učí

Povšimnutí (noticing) – hypotéza, která vychází z toho, že čeho si student vědomě všímá, to si lépe pamatuje

PPP (prezentace, procvičování, produkce – presentation, practise, production) – technika výuky, při které se nejdříve prezentují pravidla, následně se procvičuje jev a nakonec studenti naučené dovednosti využívají v kontextu

Reprezentativnost – diskutovaný termín z oblasti korpusové lingvistiky, sleduje různé parametry (rozsah, obsah) v souvislosti s účelem, k němuž má být korpus používán

Sémantická prozódie – význam slova, který předurčuje výběr kolokace, např. pozitivní nebo negativní

Serendipity („šťastná náhoda“) – náhodné objevení pravidla studentem

Slovní svazky (lexical bundles / chunks) – skupiny slov, které jsou typické pro konkrétní žánr / typ textu

Učebnicový korpus (textbook corpus) – korpus z učebnic, slouží ke zkoumání učebnicového jazyka, typů cvičení apod.

Učení se objevováním (discovery learning) – učení se pomocí experimentů, zdůrazňuje samostatnost studenta

Úkolová metoda (task-based language teaching – TBLT) – plnění úkolu při učení a následné prezentování jeho výsledků

Vzorec (pattern) – každé slovo má vzorce, které popisují jeho typický kontext (ten může být gramatický nebo lexikální)

Word Sketch – funkce v nástroji Sketch Engine zobrazující kolokace klíčového slova ve skupinách podle syntakticko-sémantických vztahů

Žákovské korpusy (learner corpora) – korpusy textů studentů cizího jazyka

Žákovský slovník (learner dictionary) – výkladový slovník sloužící pro studenty L2 (zahrnuje příklady užití slova)

14

3 Metody výzkumu jazykových korpusů

3.1 K čemu je korpus

Jazykové korpusy přináší do lingvistiky empirická data, která mají velký rozsah a jsou díky elektronickému zpracování snadno přístupná. Ruku v ruce s tím přichází i nové metody lingvistického výzkumu. Poskytují lingvistům možnost nespoléhat výhradně na vlastní intuici, ale provádět empirický výzkum opřený o objektivně přístupné zdroje dat, které nejsou autorem ovlivněna a obsahují autentický jazyk (McEnery a Wilson, 1996). Neznamená to, že introspekce je zcela zavržena. Ideálně by se měly oba přístupy kombinovat. Podle Hunston(ové) (2010, s. 3):

V korpusu nejsou obsaženy nové informace o jazyce, korpus nám jen na jazyk nabízí nový úhel pohledu.1

Korpus totiž díky množství dat ukazuje takový pohled na jazyk, jaký by často byl i rodilému mluvčímu skrytý. Oproti klasickému lístkovému katalogu má korpus technické a koncepční výhody (velikost, počítačové zpracování, možnost sledovat frekvence slova i jeho kontext). Kromě toho poskytuje i výhody metodologické – díky počítačovému zpracování nabízí objektivnější analýzu dat než v případě intuice (Cvrček a Kováříková, 2011). V souvislosti s výukou jazyků jsou kromě velkého objemu dat zdůrazňovány jako hlavní přínosy možnost pozorovat autentický jazyk, který není upravený pro didaktické účely, a taktéž šance využít on-line korpusové manažery umožňující rychlý a snadný přístup k takovým datům, která běžné slovníky a další příručky studentům jazyka nenabízejí.

3.1.1 Korpusová lingvistika Vznik korpusové lingvistiky můžeme datovat do 50. let dvacátého století, skutečný rozmach však zaznamenala až od osmdesátých let díky rychlému rozvoji informačních technologií. Nyní za jazykový korpus považujeme elektronický soubor autentických textů (Cvrček a Richterová, 2014). Vzhledem k tomu, že korpusové manažery jsou

1 “A corpus does not contain new information about language, but offers us a new perspective on the familiar.“ 15 v současné době dostupné on-line, korpusy neslouží pouze lingvistům, ale jsou využívány i v jiných oblastech, např. při studiu literatury, v kulturních studiích, sociologii a v neposlední řadě i při výuce jazyků. A právě tímto aspektem využití jazykových korpusů se budeme podrobně zabývat v této práci. Pro výuku jazyků přináší korpusy navíc takové informace o jazyce, které introspekci rodilého mluvčího nejsou nutně přístupné. Jedná se o frekvenční údaje nebo slovní spojení včetně frazeologie (Hunston(ová), 2010, s. 13).

Korpusová lingvistika jako odvětví jazykovědy nezkoumá konkrétní rovinu jazyka, např. morfologii nebo syntax, ale je považována spíše za metodologii. Využívá korpusové manažery (vyhledávače) k tomu, aby získala empirické informace o jazyce, které dále interpretuje. Tyto procedury a metody, jejichž východiskem je zpracovávání jazykových dat z korpusu, se označují jako corpus-based výzkum. Přísnější forma, corpus-driven výzkum, staví korpusová data na první místo a odmítá stanovení hypotéz předcházejících vyhledávání (McEnery a Hardie, 2012). Rozdílu těchto dvou základních metodologických přístupů se budeme věnovat v následující kapitole (3.2).

Z korpusů můžeme získat 1. frekvenční údaje o zkoumaných jazykových jednotkách a 2. přehled o tom, v jakých kontextech se v reálném textu vyskytují (konkordance). Z těchto poznatků vychází dva základní typy analýzy: kvantitativní a kvalitativní. Tyto dva typy analýz jsou v korpusové lingvistice považovány za stejně důležité (ibid., s. 2). Frekvenční data ukazují, co je v současném úzu typické a co okrajové, lze např. vygenerovat seznam nejfrekventovanějších slov. Konkordance zobrazují všechny věty, ve kterých se vyskytlo vyhledané slovo. Díky tomu je možné vyhledat autentické víceslovné jednotky nebo častá slovní spojení. Čermák (2011) pro studium korpusů vymezuje čtyři oblasti zkoumání: 1. izolovaný prvek, 2. prostá kombinace (kolokace), 3. složitá kombinace, tj. víceslovné jednotky včetně frazeologie a 4. koligace (souvýskyt gramatických kategorií), někdy vnímaná jako poddruh kolokace.

V souvislosti s výukou jazyků Hunston(ová) (2010, s. 13) vytyčuje tyto tři hlavní oblasti využití: 1. frekvenci, 2. frazeologii a 3. kolokace. Seznam nejfrekventovanějších slov v korpusu lze využít jak při tvorbě učebnic, tak slovníků. Frekvenční seznam můžeme zobrazit v abecedním pořadí nebo podle frekvence. Zajímavé může být porovnání frekvence mezi dvěma různými korpusy, např. dvěma

16 specializovanými korpusy odborných textů, kde si můžeme všimnout rozdílů v terminologii. Jako kolokaci označujeme tendenci dvou či více slov objevovat se v promluvách ve vzájemné blízkosti. Pro určení signifikantní kolokace se používají speciální statistické metody, mezi nejčastější patří MI score, t-score a z-score. Kolokace lze zkoumat i pouhým čtením konkordančních řádků, je však jasné, že tento způsob nebude nejpřesnější. Co se týče výuky, lze i prosté čtení kontextu hledaného slova považovat za přínosné, neboť i na několika řádcích lze objevit pravidelná slovní spojení.

3.1.2 Data vs. intuice Ústředním pojmem při využívání korpusů jsou empirická data. Korpusový lingvista je upřednostňuje před využitím jazykové introspekce, kterou považuje za nedostatečnou:

Intuice je vždy arbitrární, proklamativní a subjektivní a nelze s ní tedy objektivně v zásadě pracovat, jakkoli někdy může jako korektiv ve sporných případech posloužit. (Čermák, 2011, s. 23)

Naopak korpusová data jsou jasně měřitelná a zpětně dohledatelná. Je však podstatné si uvědomit, že korpus je pouze vzorkem jazyka a nikdy nemůže zachytit jazyk celý, neboť jazyk je živý a neustále se vyvíjí. Z tohoto důvodu korpusovou lingvistiku v jejích počátcích kritizoval stoupenec racionalismu Noam Chomsky a tvrdil, že lingvista by se měl zabývat obecným systémem jazyka (kompetence), nikoli jeho uskutečněním v řeči (performance), které nemůže nikdy zcela postihnout. Korpus dle Chomského představuje omezený počet vět jazyka, avšak rodilý mluvčí může vyprodukovat takových vět neomezené množství, proto nemůže být žádný korpus zcela reprezentativní (Chomsky, 1965, s. 4; McEnery a Wilson, 1996). V době padesátých a šedesátých let, ze které pochází tyto kritické poznámky, však byly možnosti korpusové lingvistiky velmi omezené a korpusy byly malé velikosti. František Čermák toto období nazývá učednické, Jan Svartvik dokonce dobou kamennou korpusové lingvistiky (Čermák, 2011, s. 13). Změna přišla až v letech osmdesátých v souvislosti s rozšířením počítačů, možností korpusy zpracovat elektronicky a zpřístupnit je různým uživatelům. Dnešní korpusy mají stovky miliónů slov, vyhledávání je rychlé a korpusové manažery se neustále zlepšují. Korpusoví lingvisté jsou si vědomi omezení v tom smyslu, že korpus v sobě nikdy nezahrne jazyk jako celek. Přesto jsou díky

17 většímu objemu dat korpusové výzkumy daleko přesnější a objektivnější než výzkumy založené na introspekci mluvčích.

Podle Leeche (1992) je právě fakt, že korpusová lingvistika se zaměřuje na jazykovou performanci, přínosem. Výzkum performance neboli externalizovaného jazyka považuje na rozdíl od Chomského za užitečnější, obzvláště v aplikované lingvistice, kam spadá např. výuka jazyků nebo překlad. Především ve výuce jazyků se nelze spolehnout pouze na intuici, neboť současné metodické přístupy k výuce jazyků, jako např. komunikační, vyžadují orientaci na autentický jazyk, pragmatiku a využitelnost v praxi. Proto je korpus výborným nástrojem pro výzkum fungování řeči (ať již v mluvené nebo psané podobě jazyka) rodilých mluvčích, jenž pak může být aplikován při tvorbě učebnic, gramatik a slovníků pro nerodilé mluvčí. Rodilý mluvčí intuicí pozná, která věta je správná a která ne, díky sociálním zkušenostem ví, co je v jaké situaci vhodné užít a co ne. Student cílového jazyka se to však musí naučit. Podle Hunston(ové) (2010, s. 20) je jazyková intuice nedostatečná, hlavně pokud jde o tyto čtyři oblasti: 1. kolokace, 2. frekvence, 3. pragmatika a 4. frazeologie.

1. Kolokace

Některá slovní spojení lze snadno odvodit intuicí, např. prát prádlo, jiné, a to zvláště při výuce vysoce pokročilých, není lehké vymyslet bez pomoci jazykových dat, např. kolokace adverbií: výrazně snížit, vysoko postavený, hluboce zakořeněný, maximálně spokojený, hojně navštěvovaný, dramaticky změnit, významně se podílet apod. (Kopřivová, 2006). Bez korpusových dat si i rodilý mluvčí bude těžko vědom takovýchto kombinací.

2. Frekvence

Pokud se studenti ptají na vyjádření určitého významu v cílovém jazyce, bylo by ideální, kdyby byli učitelem či jazykovými příručkami informováni o nejčastějších možných slovech či slovních spojeních. Učebnice však autoři z valné části vytváří na základě své jazykové intuice, a proto takové informace obsahují jen částečně. Podobná situace vzniká, požaduje-li student formulaci určitého jazykového pravidla. Pokud by se např. studenti ptali na to, jak odlišit slova, která končí na konsonant, ale patří k ženskému rodu, učiteli nezbývá než říci, že tato slova se musí učit nazpaměť jednotlivě. Pro začátečníky je takový způsob jistě vhodný. Středně pokročilí většinou

18 vyžadují více pravidel a velice by jim pomohl seznam nejčastějších slov. Ten lze najít např. v Mluvnici současné češtiny (2010, s. 178–179) a případně upravit. Jedná se o slova báseň, píseň, daň, dlaň, garáž (vzor píseň), lidi (pouze pl.), děti (pouze pl.), a bolest, část, čelist (vzor kost).2

Podobně korpusová data frekvenčně odlišují používání dublet. Pokud se student podívá do Jazykové příručky3, zjistí, že u slova koncert existují dubletní tvary v lokálu singuláru: koncertu/koncertě.Učebnice většinou zjednodušují výklad těchto dublet tak, že u cizích slov se používá pouze koncovka -u. Až po vyhledání variant v psaném korpusu4 vidíme jasnou tendenci: Slovo koncert má v lokálu 910 výskytů, z toho 520 (57%) je tvar koncertě. I v mluvených korpusech má tento tvar jasnou převahu: 70%, a to přestože mluvené korpusy v nástroji SyD nejsou morfologicky značkované, tudíž neumožňují rozlišit pád, a zbývajících 30% zahrnuje jak lokál, tak i genitiv a dativ singuláru.

3. Sémantická prozodie a pragmatika

Vzhledem k tomu, že korpus umožňuje sledovat jazykovou jednotku v jejím přirozeném kontextu, lze zkoumat účelné užití slova či slovního spojení v závislosti na jeho okolí. Sémantická prozodie ukazuje vztah slova nebo slovního tvaru ke skupině sémanticky vymezených slov, s nimiž se pravidelně vyskytuje (Cvrček a Kováříková, 2011, s. 119). Např. slovo kvůli se podle kolokací využívá hlavně v negativním kontextu: neshoda, nedostatek, dluh, krize, spor, nemoc, obava, nehoda. Jeho varianta díky se naopak spojuje s významem pozitivním: technologie, dotace, podpora, schopnost apod.5 Frazeologie

Korpus také přináší objektivní data o tom, jak se v současné době využívají konkrétní frazémy. Podle Cvrčka a Kováříkové (2011, s. 118) se frazémy tradičně považují za neměnný celek, přestože ve skutečnosti s nimi mluvčí nakládají velice kreativně v závislosti na kontextu (např. frazém Vlk se nažral a koza zůstala celá se vyskytuje v různých obměnách: Jenže vlk se nikdy nemůže nažrat tak, aby koza zůstala celá.)

2 Jako ukázku uvádíme prvních pět nejfrekventovanějších slov pro každý vzor. 3 http://prirucka.ujc.cas.cz/ 4 Využili jsme dotazů [lemma="koncert"&tag="NNIS6.*"][word="koncertě"&tag="NNIS6.*"] v korpusu SYN2015. 5 Kolokace jsme vyhledali v nástroji SyD – Korpusový průzkum variant. 19

Na druhé straně si musíme být vždy vědomi také limitů jazykových korpusů, nejen jejich výhod. Z korpusu se nedozvíme, co je správné nebo kodifikované, pouze co je více nebo méně frekventované. Je vždy pouhým vzorkem, nikdy nemůže obsáhnout všechny existující věty nebo kontexty. Korpus by měl dodat data, zatímco intuice pomoci je interpretovat (Hunston(ová), 2010, s. 22–23). Introspekci lze smysluplně využívat nejen pro hodnocení korpusových výsledků vyhledaných pomocí korpusového manažeru, ale také před samotným vyhledáváním při zvolení vhodné výzkumné otázky. Podle Fillmora (1992) by se měly korpusové a introspektivní metody doplňovat, ideálně spojovat v osobě jednoho lingvisty.

3.1.3 Reprezentativnost korpusů V korpusové lingvistice patří pojmy reprezentativnost a vyváženost korpusu mezi základní pojmy. Reprezentativností je míněno, že korpus představuje vzorek jazyka, jenž reprezentuje jazyk v celé jeho šíři, tj. zahrnuje texty všech variet jazyka, celý úzus (Cvrčka Richterová, 2013c). Vyváženost korpusu znamená složení korpusu ze všech druhů textů a žánrů. Otázka reprezentativnosti dosud nebyla uspokojivě vyřešena a právě v této oblasti naráží korpusová lingvistika na největší kritiku (Leech, 2007; Chromý, 2014). Nelze však po korpusu chtít, aby zahrnoval veškerý jazyk, s jakým se denně mluvčí setkává. Chromý (2007) navrhuje, aby součástí korpusu byly např. i e- maily, esemesky nebo nápisy ve městě (2007, s. 190). Myšlenka, že korpus by měl obsáhnout vše, je však utopická. Podle Bibera (1993, s. 243):

Každý výběr textu představuje vzorek. To, zda vzorek je, či není ,reprezentativní´, závisí ovšem především na tom, do jaké míry odpovídá typům textů cílové populace.6

Vzhledem k tomu, že přibližně 90% jazykové produkce je konverzace (ibid., s. 247) a většina velkých korpusů je psaných, nelze dosáhnout 100% vyváženosti jazykové reality. Výběrem textů se nicméně reprezentativnosti můžeme co nejvíce přiblížit. Protože reprezentativní korpus obecného jazyka ukazuje typický úzus na úkor jeho periferie, je vhodné si v případě speciálních výzkumů vytvořit vlastní subkorpus (Čermák et al, 1997; Cvrček, 2011, s. 131).

6“Any selection of text is a sample. Whether or not a sample is ´representative´, however, depends first of all on the extent to which it is selected from the range of text types in the target population.“

20

Dalšími důležitými otázkami jsou objem a obsah korpusu. V současnosti je za reprezentativní vzorek považován korpus o 100 milionech slov (Šulc, 2001), podle Leeche však existuje přímá úměra velikosti a reprezentativnosti (2007, s. 6). Výběr obsahu u různých korpusů značně variuje. Základními třemi kritérii pro výběr vzorků textů je a) produkce, b) recepce a c) texty samotné. U Českého národního korpusu je výběr textů koncipován na základě recepce textů u populace a vychází ze sociologických výzkumů (Čermák, 1997). Poslední psaný reprezentativní korpus SYN2015 však již hledisko recepce opustil a proporčně ponechává třetinové zastoupení publicistických textů, odborných textů a beletrie (Cvrček, Čermáková a Křen, 2016).

Kromě specializovaných pedagogických korpusů se pro výuku nebo pro tvorbu výukových materiálů nejvíce hodí obecný reprezentativní korpus právě proto, že se skládá z různých typů textů a lze v něm najít typická užití slov.

3.1.4 Typy korpusů Kromě obecného korpusu, který se snaží reprezentovat jazykový úzus, existuje mnoho dalších druhů korpusů. Čermák (2011) je dělí podle čtyř kritérií: 1. synchronní a diachronní, 2. jazyk psaný a mluvený, 3. jazyk reprezentativní, specifický a oportunní a 4. jednojazyčný a vícejazyčný korpus. Cvrček a Richterová (2014) přidávají ještě dvě kritéria: 5. synchronní a archivní a 6. různé korpusy podle účelu. Dále také lze rozlišovat korpusy anotované a neanotované (McEnery a Hardie, 2014). Představíme některé druhy korpusů, které z hlediska výuky jazyků považujeme za relevantní.

1. Korpusy obecného jazyka

Pokud mluvíme o obecném korpusu, většinou máme na mysli reprezentativní korpus psaného jazyka o min. 100 milionech slov, jakým jsou v českém prostředí korpusy řady SYN. Mluvené korpusy bývají vzhledem k náročnosti budování daleko menší. Reprezentativní korpusy díky pečlivému výběru textů různých typů a žánrů ukazují typická užití jazyka a lze se k nim vracet a data si zpětně ověřovat. To však nelze u tzv. monitorovacích korpusů (Hunston, 2002, s. 16; McEnery a Hardie, 2014, s. 6–7), které neustále rostou a slouží především lexikografii, např. Bank of English Johna Sinclaira, který čítá 450 milionů slov. V důsledku své velikosti takový korpus obsahuje více typických užití a je v něm možné najít množství příkladů pro tvorbu slovníků.

21

Podobně jako monitorovací korpus, webový korpus má daleko větší rozsah než reprezentativní korpus, neboť se buduje stažením textů z webu. Velké množství dat sice znamená i širokou paletu žánrů a typů textů, kvůli neexistenci proporčnosti však podle Čermáka nemůžeme mluvit o reprezentativnosti (2011, s. 17). Pala a Rychlý naopak tvrdí, že při vyčištění textů z webu lze takový korpus považovat za reprezentativní a jeho velikost je právě výhodou, protože obsahuje více dat, např. český korpus řady TenTen má téměř 5 bilionů slov (2011, s. 39).7 Jako další příklad webového korpusu je třeba zmínit projekt Aranea, do kterého patří nereferenční srovnatelné korpusy 14 jazyků8.

2. Korpusy vícejazyčné

Mezi vícejazyčné korpusy patří korpusy paralelní, které je možné tvořit díky překladům. Existují paralelní korpusy obecné i specializované, např. korpusy beletrie nebo dokumentů Evropské unie, a korpusy srovnatelné, které se skládají z několika subkorpusů / reprezentativních vzorků sestavených podle stejných pravidel (Hunston, 2002; Chlumská, 2014).9

Paralelní/překladové korpusy zahrnují originál a jeho překlady do jiných jazyků, jedná se tedy především o psaný jazyk. Mohou je využívat jak překladatelé, tak i studenti cílového jazyka, pokud hledají různé ekvivalenty jazykových vyjádření. Srovnatelné korpusy slouží k výzkumu rozdílů mezi jazyky (Hunston, 2002; Čermák, 2014). Český obecný paralelní korpus InterCorp obsahuje převážně beletristické texty 30 jazyků a má rozsah celkem 1400 milionů slov.10 Jako příklad srovnatelného českého korpusu lze uvést webové korpusy v rodině Aranea: základní český korpus (maius) o 1 mld slov.

3. Korpusy specializované

Specializované korpusy se nesnaží o obsáhnutí obecného jazyka, ale jsou složeny pouze z textů určitého typu. Jde tedy o jiný druh reprezentativnosti – reprezentují určitý typ textu nebo žánr, např. publicistika, odborné články, výuka, texty žáků apod. (Hunston(ová), 2002). Specializovaný korpus lze budovat zvlášť, nebo jako

7 Korpusy řady TenTen viz: https://www.sketchengine.co.uk/cztenten-corpus/ 8 Aranea: http://wiki.korpus.cz/doku.php/cnk:aranea 9 Někdy se také používají pojmenování korpusy srovnatelné a překladové, přičemž paralelní slouží jako synonymní pojem pro korpus vícejazyčný (Cvrček a Richterová, 2015). 10 InterCorp: http://wiki.korpus.cz/doku.php/cnk:intercorp 22 virtuální subkorpus obecného korpusu (Čermák, 2011). Za specializované korpusy lze považovat české korpusy řady PUB zahrnující pouze publicistické texty, korpus soukromé korespondence (KSK), korpus vyučovacích hodin (SCHOLA) nebo české žákovské korpusy (CzeSL-Plain, CzeSL-SGT).11 Řadili bychom sem také pedagogické korpusy, neboť se jedná o korpusy vytvářené se specifickým účelem.

4. Korpusy pedagogické

Termín pedagogic corpus poprvé použil David Willis v roce 1993. Dle Hunston(ové) (2002, s. 16) zahrnuje jazyk, jemuž je student vystavený, tj. učebnice, cvičebnice nebo čítanky. Je možné jazyk v něm obsažený porovnat s korpusem obecného jazyka, abychom viděli, zda je jazyk prezentovaný v učebnicích užitečný a přirozený.

Jiný typ pedagogického korpusu uvádí Braun(ová) (2005). Podotýká, že obecný korpus není vždy vhodný pro výukové účely, protože byl primárně vytvořen pro výzkum jazyka tak, aby reprezentoval různé žánry a typy textů. Obsahuje tedy i slova, která se studenti učit nepotřebují. Podle Braun(ové) by pedagogicky relevantní korpus měl obsahovat pouze 20 až 200 tisíc slov, měl by být složen z textů, které budou studenty motivovat, a měl by zahrnovat komunikační situace, které studenti potřebují. Jako příklad uvádí např. korpus ELISA vytvořený na univerzitě v Tübingen, který je složený z 15 rozhovorů a čítá 60 tisíc slov. Pedagogickým korpusům se budeme podrobněji věnovat v kapitole 4. Pro odlišení jsme se rozhodli nazývat korpus složený z učebnic jako učebnicový korpus a termín pedagogický korpus bude tedy v naší práci odkazovat pouze ke korpusu s pedagogickým zaměřením, jakým je např. ELISA. Více o korpusech s pedagogickým zaměřením v kapitole 4.2 a 4.3.

5. Korpusy žákovské

Pro termín learner corpora se v českém prostředí ujal pojem žákovské korpusy. Jedná se o korpusy textů, které vyprodukovali studenti-cizinci učící se cílový jazyk.12 Mohou být psané i mluvené a často jsou anotovány tzv. chybovou anotací, lze v nich

11 Další korpusy viz http://wiki.korpus.cz/doku.php/cnk:uvod 12 Za žákovský korpus ve vlastním slova smyslu nelze patrně považovat korpus Chyby (Jakubíček, Bušta, Hlaváčková a Pala, 2009) vzniklý na FI MU. Tento korpus obsahoval texty studentů FI, kteří v rámci kurzu zaměřeného k tvorbě odborných textů poskytovali své úkoly. Korpus se primárně budoval pro trénování automatických korektorů. Přesto data v něm obsažená sloužila vyučujícím kurzu jako evidence o úrovni frekventantů kurzu a o chybách, jichž se dopouštějí a na které je tudíž třeba se ve výuce zaměřit. 23 tedy vyhledávat podle typů chyb. Tyto typy korpusů umožňují zkoumat osvojování druhého jazyka, např. mezijazyk (interlaguage) studentů, jazykový transfer mluvčích konkrétního mateřského jazyka apod. Můžeme dělat výzkum toho, jak se jazyk jednotlivých studentů od sebe liší nebo žákovský jazyk porovnávat s korpusy obecného jazyka (Hunston(ová), 2002, s. 15). Žákovské korpusy je možno také využít pro přímou práci studentů (Šebesta a Škodová, 2012, s. 130), pro tyto účely však zřejmě lépe poslouží malý žákovský korpus vytvořený učitelem ze studentských textů, ve kterých studenti sami hledají svoje vlastní chyby (Granger(ová), 2002, s. 27; Seidlhofer(ová), 2002).

Existuje mnoho žákovských korpusů, mezi nejznámější patří International Corpus of Learners English (ICLE), jenž zahrnuje anglické eseje studentů různých mateřských jazyků. Největší český žákovský korpus CzeSL-Plain byl dokončen v roce 2012, má téměř 2 miliony slov a ručně se anotuje chybovou anotací (anotovaný CzeSL- STG má necelý milion). Zahrnuje texty studentů-cizinců různých národností i pokročilostí, eseje a školní písemné práce nerodilých mluvčích a texty romských žáků.13Jako druhý příklad českého žákovského korpusu zmiňme mezinárodní vícejazyčný projekt Merlin, který slouží ke zkoumání referenčních úrovní Evropského rámce. Česká část je složena z textů studentů z Certifikovaných zkoušek češtiny (CCE) úrovně A2–B2.14 Více o žákovských korpusech v kapitole 4.1.

3.1.5 České korpusy První jazykový korpus dnešního typu byl vytvořen již v roce 1961 a byl jím známý milionový anglický Brown Corpus od Francise a Kučery (McEnery a Wilson, 1996; Čermák, 2014)15. Jako první také sloužil pro tvorbu slovníku na základě korpusových dat a ukazoval živý jazyk. První korpusy se tedy budovaly primárně pro výzkum angličtiny, postupně se však k empirickému poznávání jazyka přidávaly i další jazyky. Český národní korpus byl založen roku 1994 skupinou odborníků v čele s profesorem Františkem Čermákem a od té doby již v rámci tohoto projektu vzniklo množství psaných, mluvených i specializovaných korpusů (Cvrček a Richterová, 2014). V této

13 CzeSL-Plain: http://wiki.korpus.cz/doku.php/cnk:czesl-plain 14 Merlin: http://merlin-platform.eu/ 15 Brown corpus: http://clu.uni.no/icame/brown/bcm.html 24 kapitole představíme základní obecné psané a mluvené korpusy, specializovaným a žákovským korpusům je věnována kapitola 4.

Mezi reprezentativní psané korpusy českého jazyka patří korpusy řady SYN vznikající po pěti letech: SYN2000, SYN2005, SYN2010 a SYN2015. Každý z nich obsahuje 100 milionů slov a je lemmatizován a morfologicky označkován. Složení textů se mírně liší podle aktuálních výzkumů recepce textů: SYN2000 obsahuje nejvíce publicistiky (60%), SYN2005 a SYN2010 nejvíce beletrie (40%). Poslední SYN2015 se svým složením mírně liší, nevychází již totiž z recepce textů, ale jeho složení je proporčně rozloženo na tři stejně velké části: publicistika, beletrie a odborná literatura (Cvrček a Richterová, 2016).

Mezi obecné mluvené korpusy patří ORAL2006, ORAL2008 a ORAL2013, z čehož první dva zahrnují pouze území Čech a jsou menšího rozsahu: 1 milion slov. Nový ORAL2013 již pokrývá celou Českou republiku, je považován za reprezentativní a jeho rozsah činí 2,8 milionu slov. Všechny tyto mluvené korpusy zahrnují neformální konverzaci rodilých mluvčích. Korpusy ORAL2008 a ORAL2013 jsou navíc sociologicky vyvážené podle hlavních sociologických kategorií jako je pohlaví, věk, vzdělání a oblast pobytu v době dětství.

Webové korpusy jsou vytvářeny na Fakultě informatiky Masarykovy univerzity v Brně ve spolupráci s britskou firmou Lexical Computing a jsou k dispozici ve vyhledávači Sketch Engine. Český webový korpus czTenTen16 je jedním z 32 korpusů různých jazyků. Každý z nich má až 10 bilionů slov, buduje se stahováním textů z internetu a jejich automatickým čištěním od odkazů, reklam, poznámek apod. (Suchomel, 2012). Poslední verze českého korpusu, czTenTen[2012] má 4 biliony slov. Tyto webové korpusy patří k tzv. monitorovacím korpusům, neboť se rozšiřují každé dva roky, přičemž vždy lze oddělit starou a novou verzi. Autoři vychází z toho, že nástroje k čištění a budování korpusů se postupně zlepšují. Jsou pro ně tedy důležitější kvalitní data než fixní data, ke kterým se lze vracet jako u statických korpusů (Jakubíček et al, 2012).

16 Viz https://www.sketchengine.co.uk/documentation/tenten-corpora/ 25

3.1.6 Nástroje a české korpusy V dnešní době mohutného rozvoje informačních technologií jsou i korpusové manažery mnohem dostupnější a uživatelsky přátelštější než dříve. Z toho plyne i jednodušší využití ve výuce bez nutnosti instalace softwaru nebo složité registrace. Základní nástroje pro Český národní korpus využitelné pro výuku jsou KonText, zobrazující slovo v kontextu v podobě konkordančních řádků, dále SyD – korpusový průzkum variant, jenž primárně ukazuje frekvenční zastoupení variant v psaných a mluvených korpusech, a nakonec Skech Engine, který se velmi podobá nástroji KonText, navíc však nabízí funkce Word Sketch (zobrazení kolokací podle gramatických kategorií) a vytvoření vlastního korpusu.

Nástroj KonText umožňuje vyhledávat konkrétní slovní tvar, všechny tvary slova na základě zadání lemmatu nebo podle gramatických kategorií pomocí dotazovacícho jazyka (CQL – Corpus Query Language). Základním zobrazením výsledků hledání je klíčové slovo uprostřed (obr. 1) a omezený kontext vlevo i vpravo (který však lze rozšířit). Dále lze vyhledávat kolokace, tj. slova, která se nejčastěji vyskytují v blízkosti klíčového slova, a jejich frekvenční zastoupení. Pro výukové účely stačí i základní vyhledávání, při kterém se zobrazí věty s klíčovým slovem uprostřed. Studenti se tak mohou soustředit pouze na nejbližší kontext a hledat typická užití a vzorce, které se opakují (patterns). Pro náročnější uživatele a používání všech funkcí je však nutné se registrovat. Nástroj je přístupný online na stránce: https://kontext.korpus.cz/ a díky tomu dostupnější než jeho starší varianta Bonito.

Obrázek 1 Slovo v kontextu (nástroj KonText)

Korpusový průzkum variant (SyD) je dostupný online bez jakékoli registrace: https://syd.korpus.cz/ a díky jednoduchosti a přehlednému designu je to jeden

26 z nejvhodnějších nástrojů pro výuku. Jeho úvodní stránka vypadá jako internetový vyhledávač s vyhledávacím oknem uprostřed, tudíž není nutné žádné složité vysvětlování použití nástroje. Lze v něm vyhledávat varianty a po prvním kliknutí se zobrazí grafy s frekvenčním zastoupením vyhledaných variant v psaném a mluveném jazyce (SyD využívá psaný korpus SYN2010 a mluvené korpusy ORAL2006, ORAL2008 a ORAL2013) (viz obr. 2).

Obrázek 2 Zastoupení slov opravdu a fakt v psaných a mluvených korpusech (nástroj SyD)

Další funkce Kolokace tentokrát zobrazí nejčastější kontexty slova, ale ve formě word clouds, proto je pro studenty daleko jednodušší identifikovat typická slovní spojení a rozdíly ve významu slov či různé významy jednoho slova (obr. 3).

Obrázek 3 Kolokace slova pivo (nástroj SyD)

S pokročilejšími studenty lze využít i funkci Rozložení, díky které uvidí využití jednotlivých variant v různých textech (rozložení lze zobrazit podle typu textu nebo podle žánru). Studenti také vidí (zobrazeno vizuálně), v jakých žánrech se daná varianta vyskytuje. Jedná se tak o zajímavé doplnění prvotní informace o frekvenčním rozložení v psaném a mluveném jazyce.

27

Takto mohou studenti češtiny jako cizího jazyka rychle najít takové informace o slově, jež nenabízí klasické slovníky: zastoupení v psané nebo mluvené češtině a nejčastější kontexty slova, které naznačují jeho typické užití a významy.

Nástroj Sketch Engine17má mnoho obdobných funkcí jako nástroj KonText, liší se však tím, že přístup k němu je placený. Software, který umožňuje pracovat se slovními profily (Word Sketches) je produkt soukromé britsko-české firmy Lexical Computing18. Využívat jej mohou tedy spíše instituce, než jednotlivci. Umožňuje přístup k množství korpusů různých jazyků. Z českých korpusů tam patří především webové korpusy vytvářené na Masarykově Univerzitě, např. czTenTen. Specifická funkce pro tento nástroj je především Word Sketch (obr. 4), která zobrazuje kolokace slova podle definovaných gramatických vztahů. Nástroj může usnadnit vyhledávání konkrétních kolokací, např. u otázky: S jakým slovesem se pojí klíčové slovo? Word Sketch však mohou být nápomocné i autorům výukových materiálů při tvorbě tematických lekcí, pro které rychle najdou typickou slovní zásobu. Další užitečnou funkcí je vytvoření vlastního korpusu, a to buď z vlastních souborů (Create corpus) nebo stáhnutím článků z webu (WebBootCaT). Takto lze vytvářet např. malé žákovské korpusy jedné třídy nebo skupiny studentů a malé specializované korpusy za účelem specializované výuky, např. pro výuku mediků. Sketch Engine tak opět nabízí přímé využití studenty, tak i nepřímé využití učiteli či autory výukových materiálů a učebnic.

Obrázek 4 Word Sketches slova práce (nástroj Sketch Engine)

17https://www.sketchengine.co.uk/ 18https://www.lexicalcomputing.cz/ 28

3.2 Corpus-based a corpus-driven výzkum

V rámci výzkumu jazykových korpusů se především v anglosaském prostředí odlišují dva metodologické přístupy, corpus-based versus corpus-driven výzkum. V českém prostředí pro ně nejsou ustálené termíny. Bylo navrhováno využít pojmy přístup korpusem ověřovaný nebo na korpusu založený (corpus-based) a korpusem řízený/inspirovaný (corpus-driven) (Čermáková, 2009; Cvrček a Kováříková, 2011; Chlumská, 2014). Žádný z těchto termínů se však zatím neujal a ve slovníku pojmů z korpusové lingvistiky na stránkách Českého národního korpusu jsou tyto přístupy také primárně označovány anglickými termíny.19 Proto i zde budeme používat termíny corpus-based a corpus-driven. Základní dichotomie těchto dvou metod je v míře důležitosti, jakou lingvista přikládá korpusovým datům (Cvrček, 2011). V corpus-based přístupu se využívají korpusová data pro ověření nebo potvrzení již předem stanovené hypotézy. Corpus- driven přístup jde dál a nevyužívá pouze vybrané příklady pro podpoření teorie, avšak data jsou zde na prvním místě. Pozorování dat vede ke generalizaci a následně teoretickému tvrzení (Tognini-Bonelli(ová), 2001). Vedle této základní dvojice přístupů existuje ještě pojem corpus-informed (korpusem poučený), jenž využívá korpusová data pouze omezeně pro ilustraci příkladů (Chlumská, 2014, s 222). V českém prostředí má velkou tradici corpus-based metoda, srov. například práci Štíchy nebo Mluvnici současné češtiny vytvořenou Ústavem českého národního korpusu.Corpus-driven metoda se používá spíše ojediněle (Cvrček, 2011; Chlumská, 2014). Více o české korpusové lingvistice viz kapitola 3.2.5.

3.2.1 Neo-firthinánská tradice Rozdíl v přístupech corpus-based a corpus-driven podrobně popsala Tognini- Bonelli(ová) (2001), která vychází z tradice birminghamské školy, někdy také nazývané jako neo-firhtiánská korpusová lingvistika. Jedná se o lingvisty, kteří působili na univerzitě v Birminghamu a teoreticky vycházeli z J. R. Firtha. Patří mezi ně John

19 Viz http://wiki.korpus.cz/doku.php/pojmy:corpus_based a http://wiki.korpus.cz/doku.php/pojmy:corpus_driven 29

Sinclair, Michael Stubbs, Michael Hoey, Susan Hunston(ová) a Wolfgang Teubert. Corpus-driven přístup je nejčastěji spojován s pojmy indukce, kolokace a diskurz. Corpus-driven proces je sice induktivní, data předcházejí generalizaci, avšak vždy jsou potřeba lingvistovy znalosti a zkušenosti při interpretaci dat (ibid., s. 85). Rozdíl mezi corpus-based a corpus-driven metodou tkví tedy především v tom, jak velký význam je přidělen datům. Bez jazykové intuice se lingvisté neobejdou ani v jednom případě. Tuto terminologii popírají McEnery a Hardie (2012, s. 6), kteří označují všechny korpusové výzkumy za corpus-based, neboť korpusovou lingvistiku považují za metodu určenou ke studiu jazyka. Z tohoto důvodu rozlišují spíše přístup korpus jako metoda a korpus jako teorie (corpus-as-method a corpus-as-theory). Lingvisté neo-firthiánské školy totiž považují korpusová data za teorii samu, ne za pouhý zdroj empirických dat. McEnery a Hardie to vysvětlují tím, že se dívají na konkordance samotné (jako vzorky textu) spíše než na kalkulaci konkordancí. Podle Tognini-Bonelli(ové) (2011, s. 86) text poskytuje informace, na jejichž základě můžeme vytvářet nové kategorie a klasifikace, a není nutné se řídit existujícími teoriemi: „Korpusový lingvista potřebuje mít otevřenou mysl.“20 Korpusový výzkum totiž přináší nový popis jazyka, především pak kolokací a vzorců (patterns), které mohli tradiční lingvistice uniknout. Cvrček (2011, s. 123) používá pro corpus-driven přístup metaforu lešení, které lze rozbít a následně postavit znovu, podobně jako lze kompletně změnit hypotézu na základě pozorování korpusových dat. Formulace: „Korpus je nejen nástroj, ale také jeden ze zásadních konceptů lingvistické teorie.“21 (Stubbs, 1997: 301, přes McEnery a Hardie, 2014), prezentující korpusovou lingvistiku jako teoretický koncept, tedy také neříká, že text se objasní sám, ale ukazuje maximální důležitost korpusových dat. Ten, kdo analyzuje tato data, pak nepoužívá žádnou z existujících lingvistických teorií. Ani zastánci corpus-driven přístupu úplně nezavrhují intuici, ale vidí její místo až jako druhotné, pomáhající analýze získaných dat. Na rozdíl od empirických dat, která poskytuje korpus, nepodává lingvistická introspekce informace o aktuálním využívání jazyka., Její místo je v evaluaci těchto dat, neměla by však data vytvářet (Sinclair, 1991, s. 39). Corpus- driven a corpus-based přístup tedy lze chápat ne jako dichotomii, ale spíše jako škálu důležitosti korpusových dat (McEnery a Hardie, 2014, s. 151).

20 “The corpus lingvist needs to have an open mind.“ 21 “Corpus is not just a tool, but a major concept in linguistic theory.“ 30

3.2.2 Corpus-based výzkum Podle Tognini-Bonelli(ové) (2001) je corpus-based přístup založen především na intuici rodilého mluvčího nebo zkušeného lingvisty, jehož teorii korpusová data pouze testují. Z toho plyne, že data, která potvrzují teorii, by měla být oddělena od těch dat, která jsou s ní v rozporu. Tognini-Bonelli(ová) představuje tři druhy postupů, jak se s tímto problémem lingvisté vyrovnávají: 1. Tyto dva druhy dat oddělit, 2. Výsledky simplifikovat a vymyslet elegantní teorii v rámci nalezených dat, 3. Zahrnout alespoň některá z dat do popisu jako možnost systému bez nutnosti měnit teoretický rámec (2001, s. 68). V rámci corpus-based metodologie lingvisté nazírají na korpusová data podle předem připravených kategorií. Korpus je proto považován za užitečný hlavně jako hodnotný zdroj kvantitativních dat. Korpusová data mohou také ukazovat, kde je možné již připravený model mírně upravit. Analýza se však vždy pohybuje v rámci předem daných kategorií a respektuje je. Nikdy se nemůže stát, že by korpusová data tyto kategorie nějak narušila či pozměnila (ibid., 2001, s. 65–66). Vytváří se tak propast mezi teoretickými kategoriemi a korpusovými důkazy. Ve vztahu k výuce jazyků poukazuje na podobný problém Berry (1999, přes Tognini-Bonelli(ová), 2001, s. 15). Zdůrazňuje, že důležitost předem existující teorie souvisí s tradiční deduktivní výukou, která je považována u některých gramatik za samozřejmou. Učitelé a lingvisté by tedy měli spolupracovat, neboť učitelé se nemohou vzdalovat od reálných jazykových dat.

3.2.3 Corpus-driven výzkum V corpus-driven přístupu naopak lingvista staví korpusová data výše. Nemají funkci pouhého potvrzení teoretického stanoviska a lingvista respektuje korpusové důkazy. Korpus není jen zdrojem příkladů, ale teorie je s ním plně v souladu a teorie by bez nich nemohla existovat (Tognini-Bonelli, 2001, s. 84). Základní postup zní: Pozorování vede k hypotézám, které vedou ke generalizaci, která vede k ucelenému teoretickému konceptu.22 (ibid., 2001, s. 85). Tento postup nelze aplikovat úplně mechanicky, lingvista však i nadále využívá své znalosti a zkušenosti, avšak až v závěrečné evaluaci jazykových dat. Za první počin na poli corpus-driven metodologie lze považovat projekt COBUILD Johna Sinclaira (korpusová lexikografie) a další studie na něj navazující:

22 “Observation leeds to hypotheses leads to generalisation leads to unification in theoretical statement.“ 31

COBUILD English Grammar, Pattern Grammar (Huston a Francis, 2000) (více o projektu COBUILD v kapitole 7). Sinclairova metodologie obohatila popis jazyka o kvalitativní přístup, zaměření na význam slova v závislosti na jeho kontextu a ukázala na nedostatečnost a nevěrohodnost lingvistovy introspekce (ibid., 2001, s. 86). Jazykovědná introspekce je totiž vždy ovlivněna idiolektem lingvisty a také předchozími popisy jazyka. Výzkum jazyka se tak nachází pod vlivem tzv. observer- efektu, při kterém pozorující subjektivně ovlivňuje zkoumaný objekt (Cvrček a Kováříková, 2011, s. 117). Korpusová data jsou z tohoto důvodu objektivnější, protože tento efekt je snížen množstvím jazykových dat.

3.2.4 Význam jako centrální pojem Podobně jako v jazykovém vyučování se v posledních několika desítkách let přesouvá ohnisko z formy na význam, tak i v corpus-driven přístupu je centrální význam. Podle Sinclaira se však význam nevztahuje na jednotlivá slova, ale na širší kontext, jeho kolokace a koligace (1991). V corpus-driven přístupu má díky jeho původnímu zaměření na lexikografii zásadní roli lexikon, na rozdíl od generativní gramatiky, jež bývá kvůli Chomského postoji ke korpusům kladena do opozice ke korpusové lingvistice (McEnery a Hardie, 2014, s. 147). Sinclair (1991) poukazuje na to, že slovo se nevyskytuje v textu náhodně, ale vždy jeho význam souvisí s jeho okolním kontextem. Např. víceslovné jednotky mají jiné kolokace než jejich jednotlivé části, stejně jako jednotlivé flektivní formy slova. Význam se tedy odvozuje od slovního tvaru, spíše než od lemmatu, např. jsi má funkci plnovýznamovou, sponovou i pomocnou, jseš však nemůže mít funkci pomocnou: *kupoval seš je tedy agramatické (Cvrček a Kováříková, 2011, s. 128). Podobně Schoene(ová) (2011) navrhuje, aby se při výuce češtiny pro cizince prezentovaly konkrétní tvary, jež jsou frekventované, namísto lemmatu (Drážďany), např. v Drážďanech. Sinclair teoreticky vychází z Firtha, anglického lingvisty první poloviny dvacátého století, jenž nebyl sice korpusovým lingvistou, ale je autorem pojmů kolokace a koligace a zdůraznil důležitost kontextu slova v lexikografii. Podle Firtha je kolokace součástí významu slova:

32

Kolokaci slova nebo nějakého většího celku nelze pokládat za pouhou juxtapozici – jde o posloupnost vzájemných očekávání.23 (Palmer, 1968, s. 181) Poukázání na důležitost slovních spojení, jejich významu a pragmatiky je obzvláště podstatná pro jazykové vyučování. Mají se tedy studenti učit konkrétní slovní spojení nebo časté kontexty spíše než jednotlivá slova, jež neumí dát sami do kontextu? Jistě by to v mnoha případech bylo výhodou, a to hlavně v situaci, kdy mnoho českých výukových materiálů upřednostňuje gramatiku a tradiční nepřímé výukové metody (dedukci) (Valková, 2014). Pokud se student učí slovo, nestačí mu znát je jako samostatnou jednotku, ale musí ho umět použít v kontextu, např. znát typická slovní spojení: hezký den (kolokace), nebo valenční doplnění slova: zabývám se sportem (koligace) či spojení několika slov: myslím si, že (lexical bundles). Sinclair při tvorbě studentského slovníku the Cobuild Learners Dictionary, využívajícího korpusové doklady, klade důraz na kontextuální a pragmatické doplnění slova. Studenti tak dostanou po přečtení hesla daleko konkrétnější představu o tom, jakým způsobem slovo využívat (Tognini-Bonelli, 2001, s. 21). Slovník určený pro studenty češtiny pro cizince, který by neukazoval pouze gramatické kategorie, ale použití slova v kontextu, by byl jistě také přínosem, neboť student si potřebuje osvojit aktuální úzus, aby byl úspěšný v komunikaci. Nyní se podíváme podrobněji na konkrétní pojmy korpusové lingvistiky definující slovo v kontextu a ukážeme si, jak mohou být korpusová data užitečná ve výuce lexika. Kontexty klíčového slova se souhrnně nazývají vzory (patterns) (Hunston a Francis, 2000) a liší se tím, zda se jedná o slova (kolokace), gramatické kategorie (koligace), sémantické skupiny (sémantická prozodie) nebo víceslovné jednotky / fráze (lexical bundles).

Kolokace Kolokace označuje tendenci slova vyskytovat se s jinými slovy (Hunston, 2002, s. 68) a je jedním z centrálních pojmů korpusové lingvistiky. Většinou se měří rozpětím +/- 4 slova v sousedství klíčového slova (ibid., s. 69; McEnery a Hardie, 2014, s. 129), Čermák (2006, s. 11) uvádí až +/- 5. O přesném vymezení toho, co je a co již není kolokace, se stále vedou diskuze, protože se nejedná o pevné slovní spojení jako ve

23 “The collocation of a word or of a ´piece´ is not to be regarded as mere juxtaposition, it is an order of mutual expectancy.“ 33 frazeologii. Za hlavní hledisko se považuje frekvence kolokací, je však jasné, že ta se může lišit v závislosti na výběru korpusu a na asociačních mírách. Absolutní frekvence často zahrnuje vysoce frekventovaná slova a nemusí být jednoduché kolokace objevit. Využívají se proto statistické metody MI-score (míra vzájemné informace) a t-score (test signifikantnosti / míra kontrastu), které určují míru pravděpodobnosti výskytu dvou slov (ibid., s. 13; Cvrček a Richterová, 2016). MI-score ukazuje méně frekventované kolokace, měří spíše sílu kolokace, protože není závislé na velikosti korpusu, zatímco pro t-score je velikost korpusu zásadní a ukazuje spíše vysoce frekventované kolokace (Hunston(ová), 2002, s. 73). Další využívané statistické testy jsou: chi-squared (chi kvadrát) a log-likelihod text (McEnery a Hardie, 2014). Chi- squared testem se určuje statistická významnost rozdílu ve frekvenci slova v blízkosti klíčového slova a jeho frekvencí v celém korpusu (Cvrček a Richterová, 2013a). Čermák (2006), stejně jako Tognini-Bonelli(ová) (2001), považuje za podstatné i závěrečné manuální třídění kolokací. Jak kontext souvisí s významem slova a že je pro výuku klíčový, si můžeme ukázat na rozdílu ve významu dvou sloves, která si studenti často pletou: mýt a čistit. Nejčastější kolokace slova mýt jsou: nádobí, ruce, okna, vlasy, podlahu, nohy, auto, u slova čistit to jsou: zuby, vzduch, krev, hlavu, nehty, brýle, rány. Na první pohled je jasné, že tato slova ve většině případů nelze zaměnit, a proto by i učebnice měly tuto situaci zohlednit. Prezentování kolokací je však spíše ojedinělé a ve většině případů založené na autorově introspekci, jako příklad učebnice využívající kolokace lze uvést Česky v Česku I (Štindlová, 2008), např. učit se češtinu, řídit autobus, čistit si zuby apod., nebo New Czech Step by Step (Holá, 2012): mít štěstí, mít smůlu, mít pravdu apod. Korpus tedy může být zdrojem nejčastějších kolokací, které je však poté nutné pro výuku jazyků vybrat na základě funkčního hlediska a dle jazykové úrovně.

Koligace Koligacím, neboli gramatickým a strukturním kontextům (Cvrček – Richterová, 2013b), je v učebnicích přikládána velká váha. Děje se tak hlavně z důvodu vysoké flektivnosti češtiny. Učební materiály mají studenty podpořit v tom, aby si např. zapamatovali, s jakým pádem se pojí konkrétní sloveso. Zmiňme např. učebnice řady Basic Czech nebo Česky krok za krokem, které podávají podrobné seznamy sloves a předložek ke každému pádu.

34

Na druhé straně vidíme nedostatek v prezentaci a procvičování jazykových prostředků, které ukazují vztahy v rámci textu. Zřejmě vzhledem k české tradici zaměřené na pravopis se málo příruček věnuje výuce psaní tak, aby se studenti naučili začínat nebo končit odstavec či text, vyjadřovat srovnání či kontrast apod. (srov. diskurzivní konektory – discourse markers). Opět v omezené míře jsou představovány některé útvary jako např. inzerát, e-mail, dopis nebo životopis (Cvejnová, 2008, 2012; Holá, 2012). Systematická pozornost je věnována především dopisu, srov. například formální a neformální fráze v učebnici New Czech Step by Step (Holá, 2012, 179): Mějte se hezky. Těšíme se na Vaši odpověď. S pozdravem. Posílám pusu. apod. Skutečnost, že prakticky chybí výukové materiály zaměřené na výuku psaní (ve smyslu formulování), považujeme za problematickou hlavně proto, že psaní je součástí certifikovaných zkoušek z češtiny, včetně zkoušek za účelem získání trvalého pobytu nebo občanství. Z mé zkušenosti bývá tato část zkoušky pro studenty jedna z nejobtížnějších a často kvůli ní zkoušku opakují. Výzkumy diskursivních konektorů (tzv. discourse markers) pro různé žánry by proto byly velkým přínosem pro výuku češtiny pro cizince, především pro výuku psaní.

Slovní svazky Jako lexical bundles24 (slovní svazky nebo lexikální fráze) se označují víceslovné jednotky o 3 až 5 slovech, které se vyskytují v rámci jednoho žánru (Cvrček a Kolaříková, 2011, 127). Podle Hunston(ové) jsou ustálené fráze důležité při výuce jazyků, protože existuje asociace mezi vzorci užití a významem (2002, s. 138). Vzorce, které se objevují v textech, mají význam jako celek, nelze je rozložit na jednotky a jako celek jsou taky obsaženy ve slovníku (tzv. princip předurčeného výběru – The Idiom Principle) (Sinclair, 1991, s. 110). Dostáváme se tak k hranicím toho, co považujeme za frazeologii. Hunston(ová) poukazuje na to, že vzory (kolokace nebo lexical bundles) se k sobě nepřipojují lineárně, ale spíše se překrývají a kombinují (tzv. tok vzorců – pattern flow) (Hunston(ová), 2002, s. 146). Zdůrazňuje také, že výuka jazyků by se neměla simplifikovat na seznam frází bez jakýchkoli gramatických pravidel. Výběr mezi výukou fráze a pravidla by měl spočívat v zohlednění širšího kontextu a komunikační situace (ibid., s. 153).

24 Anglické pojmy bundles a chunks jsou velmi podobné, bundles však souvisí s typem textu (Biber et al, 2004). Chunks se někdy používá jako pojem pro víceslovné jednotky (zahrnuje i kolokace) (Richards a Rodgers, 2001; Lewis, 1996). 35

Učebnice češtiny jako cizího jazyka prezentují fráze jako klasické ustálené jednotky typu: Má obě ruce levé (Kestřánková, 2010, s. 234) nebo Jde to s ním od deseti k pěti (Bischofová a Hrdlička, 2007, 87), a to hlavně pro vyšší pokročilosti (B1 a výše). Ustáleným frázím se hodně věnuje také kniha Any Adamovičové Nebojte se češtiny (2013). Učebnice pro nižší pokročilosti se omezují na fráze využitelné v obchodě nebo restauraci: Chtěl bych, Co si dáte, Ještě něco, Můžu platit kartou apod. Jak již bylo řečeno výše, užitečné by byly zejména prvky týkající se běžných komunikačních situací, např. omluva, pozvání, nabídka, vyjádření názoru apod.25 a prvky konstruující text. Systematičtější výuce vyjádření vlastního názoru se věnuje např. učebnice Čeština pro cizince a azylanty B1, srov. Domnívám se, Podle mého názoru, Mám pocit, že (Bischofová a Hrdlička, 2005, s. 32). Lingvistické výzkumy zabývající se širšími kontexty slova tak mohou být pro vyučování češtiny velmi přínosné.

Sémantická prozódie26 Za sémantickou prozodii se označují jednotky v kontextu slova, jež mají pozitivní nebo negativní význam (McEnery a Hardie, 2014). Podle Tognini-Bonelli(ové) je tento význam často skryt v podvědomí a těžko ho lze objevit introspekcí (2011, s. 114). Prozodie ukazuje nejen pozitivní a negativní význam, ale často také metaforu nebo ironii, např. pěkný kravál. Z hlediska jazykové výuky je důležité upozorňovat na slova, která mají jednoznačně negativní významy, např. (s)páchat: zlo, nepravost, delikt, krutost, nebo mohou vyjadřovat oboje, a to v závislosti na kontextu: kvůli nízké ceně, kvůli nedostatku.27 Korpusové metody, především výpočet kolokací, tak mohou pomoci při tvorbě výukových materiálů nejen pro vyhledání nejčastějších kolokací slova, ale též při výběru příkladů pozitivní a negativní prozodie.

Diskurz Pojem diskurz se využívá v různých odvětvích i různými způsoby. V lingvistice se za něj tradičně považuje jazykové užití širší, než je věta (Baker, 2006, s. 3). Lze mluvit o diskurzu jednotlivých typů textů, např. recept nebo dopis mají ustálenou strukturu. Jejich diskurz poznáme lehce, a to díky lexikálním jednotkám nebo gramatickým

25 Tato témata zahrnuje např. online kurz Čeština do práce: http://www.kurzycestinyprocizince.cz/ 26 Cvrček a Kováříková (2011) označuje sémantickou preferenci za synonymum k sématické prozódii, Sinclair odlišuje preferenci jako sémantické pole a slova a prozodii jako jeho pragmatickou realizaci (Tognini-Boneli(ová), 2001) 27 Kolokace byly vyhledány v nástroji SyD. 36 strukturám na konkrétních místech (ibid., s. 3). Např. v receptu se objevuje genitiv partitivní nebo imperativ. V analýze diskurzu se liší dva koncepty pohledu na výzkum textu. Kritická analýza diskurzu (Critical discourse analysis – CDA) zkoumá text z hlediska mentálního konceptu, tj. toho, jak se lidé nebo skupiny lidí dívají na svět (McEnery a Hardie, 2014, s. 135). Na druhé straně Sinclairův pohled na text je apolitický a více strukturní, důležité pojmy pro něj jsou koherence a koheze textu a to, jak na sebe navazují věty (ibid., s. 134). Jak již bylo uvedeno výše, materiály pro výuku struktury textu a toho, jak text konstruovat, tj. jaké využívat fráze v určitých částech textu a jak spojovat věty (aktuální větné členění), nejsou dostatečné. Hrdlička (2009) a Stočková (2015) ve svých analýzách učebnic poukazují na fakt, že syntax bývá často opomíjena na úkor morfologie. Také výuka různých žánrů, především těch, které obsahují certifikované zkoušky (např. popis, článek, úvaha apod.), se jeví jako přínosná. Nová publikace Korespondence v češtině (Bozděchová, 2015) se soustředí pouze na jeden (ovšem důležitý) žánr.

3.2.5 Český corpus-based a corpus-driven výzkum Přestože česká korpusová lingvistika (KL) se dynamicky rozvíjí již od roku 1994, kdy byl v Praze založen Ústav českého národního korpusu (Čermák, 2007), a Český národní korpus byl první reprezentativní korpus mezi slovanskými jazyky, stále můžeme mezi českými lingvisty i mezi studenty a učiteli češtiny najít nepochopení nebo nedůvěru. Podle Cvrčka a Kovaříkové (2011, s. 114) to souvisí jednak s přirozenou nedůvěrou humanitně orientovaných vědců k technickým postupům, dále s počítačovou gramotností a v neposlední řadě také se zkreslenými představami o tom, co všechno nám korpusy mohou poskytnout a jak je lze zkoumat. Podle Cvrčka a Kováříkové (ibid., s. 113) je však česká diskuze odlišná a výtky, které dostává korpusová lingvistika, jsou dosti jiné, než s jakými se musela vyrovnávat ve světovém měřítku. Existují totiž představy, že korpus je pouze lepším lístkovým katalogem a korpusová lingvistika se zabývá pouze budování a značkováním korpusů. Tento fakt dokládá jeden z kritiků stavu korpusové lingvistiky Chromý (2014), když tvrdí, že jediná užitečná role korpusu je funkce blízká dřívějším lístkovým katalogům, protože v něm najdeme velké množství příkladů struktur. Zpochybňuje reprezentativnost korpusu, neboť dle něj korpus nikdy nemůže zahrnovat všechen jazyk,

37 se kterým se setkáme, a z tohoto důvodu nelze říct, do jaké míry korpus odpovídá skutečné jazykové realitě (Chromý, 2014). Řešení vidí ve využití specializovaných korpusů, jež mohou docílit reprezentativnosti právě díky tomu, že se zaměřují na konkrétní sociologicky doloženou populaci (ibid., s. 191). Jiný kritik korpusové lingvistiky Čech (2014) naopak v reprezentativnosti nevidí hlavní problém, neboť při „statistickém testování hypotézy neznamená rozsáhlost dat, na nichž je hypotéza testována, žádnou automatickou výhodu“ (ibid., s. 182). Pokud totiž dle něj testujeme nějakou hypotézu, např. Zipfův zákon četnosti slov28, tyto mechanismy se odráží v jakémkoli vzorku přirozeného jazyka. Z jeho pohledu je důležitější právě zaměření české korpusové lingvistiky na corpus-based výzkum. Domnívá se, že česká KL je pevně svázána s deskriptivně strukturální lingvistikou a možnosti korpusů jsou tak využívány pouze ve velmi omezené míře, a to pouze pro kvantifikační analýzu a ilustraci příkladů (corpus-based nebo corpus-informed přístup), již nazývá tzv. popisem s čísly. Perspektivu KL pak vidí ve využití corpus-driven přístupu. Tyto dva kritické přístupy přezírají významný přínos české korpusové lingvistiky, jenž vidíme především ve velké knižní produkci Ústavu českého národního korpusu a dalších pracovišť (zmiňme např. práce Čermáka, Cvrčka, Štíchy ad.) a v rozvoji budování a značkování korpusů, kde české práce vynikají, a to nejen mezi slovanskými jazyky (např. syntaktická anotace Pražského závislostního korpusu, chybová anotace českého žákovského korpusu, tvorba korpusových manažerů Bonito, Sketch Engine ad.).29 Na druhé straně se možná dotýkají toho, co již Čermák v roce 2011 (2011, s. 25) označil za budoucnost korpusové lingvistiky: 1. popis gramatiky včetně sociolingvistiky a pragmatiky (výzkum syntagmatiky jazyka: kolokací a větších ustálených struktur, a to i za hranici věty) a s tím související potřeba specializovaných korpusů, které budou sloužit ke studiu textové lingvistiky (diskurzu) a 2. lexikografie a tvorba korpusových slovníků, které budou definovat pojem lexém šířeji, tzn. včetně ustálených víceslovných kombinací. Stručně shrnuto, česká korpusová lingvistika zřejmě v současné době směřuje k většímu zaměření na kvalitativní výzkum jazyka, což dokládají nové studie představující corpus-driven přístup (Čermáková, 2009; Cvrček a Kováříková, 2011;

28Zipfův zákon je matematický vzorec, který popisuje frekvenční vzorce slov v korpusu. V každém korpusu (stejně jako v každém přirozeném jazyce obecně) se vyskytují vysoce frekventovaná slova a málo frekventovaná slova. Frekvenční křivka (Zipfův zákon) je stálá a nemění se jiným složením korpusu (McEnery et al, 2006). 29 Výčet jistě zdaleka není dostatečný, tato kapitola se však primárně zabývá českým corpus-based a corpus-driven výzkumem a některým publikacím, které lze využít pro výuku češtiny, se budeme podrobněji věnovat v kapitole 8.4. 38

Cvrček, 2013), stejně jako např. nový nástroj pro vyhledávání klíčových slov v textu KWords.30 Jak již bylo uvedeno výše, v českém prostředí převažuje corpus-based přístup a kvantitativní metoda jazykového výzkumu. Rozlišování corpus-based a corpus-driven přístupu zde nemá tradici, studie využívající korpus jsou nejčastěji označeny termínem „korpusové“ (Chlumská, 2014, s. 224)31 Přestože budoucnost vidíme ve větším zapojení corpus-driven přístupu, pro jazykové vyučování jsou práce založené na korpusu (corpus-based) také velmi přínosné, a to především při nepřímém využití korpusů pro tvorbu učebnic, mluvnic a slovníků pro nerodilé mluvčí. Za nejdůležitější z hlediska výuky češtiny pro cizince považujeme Frekvenční slovník češtiny (Čermák a Křen, 2004), Frekvenční slovník mluvené češtiny (Čermák, 2007) a A Frequency Dictionary of Czech: Core Vocabulary for Learners (Čermák a Křen, 2011), které mohou sloužit pro výběr slovní zásoby v učebnicích. Dále Statistiky češtiny (Bartoň, 2009), které obsahují frekvenční analýzu české gramatiky a tato data lze využít při řešení posloupnosti prezentace gramatických jevů ve výuce češtiny jako cizího jazyka. Mluvnice současné češtiny (Cvrček et al, 2010) obsahuje nejfrekventovanější příklady u jednotlivých gramatických kategorií, Akademická gramatika spisovné češtiny popis gramatických pravidel a detailní klasifikaci gramatických jevů. Podrobněji se těmito publikacemi a jejich využitím pro výuku budeme zabývat v kapitole 8.4.

Jako příklady českých corpus-driven studií lze uvést např. Valenci českých substantiv (Čermáková, 2009), která klasifikuje valenční rámce českých substantiv podle sémantických skupin, nebo Kvantitativní analýzu kontextu (Cvrček, 2014) zaměřující se na metody výzkumu slova v kontextu. Příkladová studie (ibid., s. 64) zde ukazuje, jak lze klasifikovat slovní druhy na základě kontextu a její výsledky vzbuzují otázku, zda např. číslovky při popisu jazyka zařazovat jako samostatný slovní druh, pokud se kontextově chovají jako adjektiva nebo zájmena. Corpus-driven studie jsou též velmi přínosné pro jazykové vyučování, a to především svým zaměřením na víceslovné jednotky (kolokace, frazeologie), vztah gramatiky a významu (pattern grammar) nebo autenticitu (modelové příklady) (Hunston(ová), 2002, s. 96–109). Podrobněji o využití korpusů pro tvorbu výukových materiálů pojednává kapitola 8.

30 KWords: https://kwords.korpus.cz/ 31 Nejedná se však o corpus-informed výzkumy, které korpus využívají pouze pro ilustraci několika příkladů. 39

3.3 Typy pedagogické aplikace korpusů

Během posledních 25 let se jazykový korpus stal důležitým empirickým zdrojem výzkumu psaného i mluveného jazyka. Díky rozvoji informačních technologií v posledních letech je možné vytvářet korpusy s obrovským množstvím dat. Nová lingvistická disciplína korpusová lingvistika se tak namísto jazykové intuice lingvistů opírá o empirická data na základě dat z korpusů. Kromě korpusové lingvistiky však tyto empirické důkazy nacházejí své místo také v dalších oborech, a to zejména aplikované lingvistiky, např. lexikografii, translatologii, analýze diskurzu ad., ale také v dalších odvětvích, mezi něž patří literární věda, sociologie a v neposlední řadě také didaktika cizích jazyků. Korpusová lingvistika jako disciplína ovlivňuje výuku jazyků tím, že jí předává své zdroje a metody. Naopak moderní jazyková výuka má vliv zpětně na korpusovou lingvistiku, a to především svými požadavky na zdroje a vyhledávací nástroje. Např. díky potřebě zautomatizovat chybovou analýzu jazyka studentů začaly vznikat žákovské korpusy (learner corpora), taggery pro jejich anotaci i nové přístupy. Výuka jazyků se může inspirovat korpusovými metodami a začlenit je do výuky, a zároveň ovlivnit korpusovou lingvistiku z hlediska potřeby uživatelsky přístupných nástrojů, jež lze využít v pedagogické praxi (Römer(ová), 2008). Využití pro jazykovou výuku v češtině zatím není tak rozšířené, jako např. v angličtině, kde vznikají gramatiky, slovníky či učebnice pro nerodilé mluvčí na základě korpusových dat (Römer, 2008, s. 112; Gabrielatos, 2005), ale díky budování množství korpusů a vývoji uživatelsky přátelských nástrojů pro jejich vytěžování tuto cestu česká korpusová lingvistika usnadňuje a otevírá jí nové možnosti.

Přes všechen pokrok se však zdráháme říci, že si korpus našel cestu do jazykových učeben. Proto se korpus snažíme zpopularizovat mezi učiteli a ukazovat jeho přednosti a využití ve výuce.32 Od roku 2011 jsem vedla několik seminářů pro učitele češtiny pro cizince zaměřených na využití Českého národního korpusu ve výuce, např. pro Společnost zabývající se emigranty (SOZE), Asociaci učitelů češtiny jako cizího jazyka (AUCČJ) a v roce 2016 také pro Metodické a odborné centrum Ústavu jazykové a odborné přípravy Karlovy univerzity v Praze a Centrum pro integraci cizinců v Praze. V letech 2012 až 2013 jsem tři semestry vyučovala předmět zaměřený

32 V současné době spolupracuji s ÚČNK na novém portálu Pro školy, který bude zahrnovat také korpusová cvičení pro češtinu jako cizí jazyk (viz kap. 7.4 o typech cvičení). 40 přímo na korpus ve výuce: ´Využití korpusů při výuce češtiny jako cizího jazyka´ v rámci Centra počítačové lingvistiky na Filozofické fakultě Masarykovy univerzity v Brně. Kromě tohoto předmětu, kam chodili studenti s žádnou nebo minimální pedagogickou zkušeností, jsem se setkala s tím, že učitelé češtiny, z velké většiny vystudovaní bohemisté, neměli s prací s korpusem téměř žádné zkušenosti. Korpusová lingvistika je většinou výběrový předmět a studenti se mu v případě obavy z techniky mohou vyhnout. Vidíme tedy jako velmi důležité nejen to, aby korpusoví lingvisté spolupracovali s pedagogy, ale také, aby se sami učitelé, potažmo i studenti, naučili využívat korpus a jeho nástroje jako samostatní uživatelé. Disciplína čeština jako cizí jazyk je totiž vcelku novou disciplínou, která se sice rychle rozvíjí a vzniká mnoho nových učebnic a materiálů komunikačně zaměřených, přesto však všichni učitelé mají zkušenosti s tvorbou vlastních materiálů. V mnoha případech to je přímo nutností, pokud potřebují materiály pro konkrétní cílovou skupinu, kterou učí. Je tedy potřeba školit učitele ve využívání korpusů a v práci s vyhledávači. Römer(ová) dokonce navrhuje, aby korpusová lingvistika byla pro budoucí učitele povinná (2006). Tato práce proto chce poukázat na přínosy korpusu a konkrétní metody využití ve výuce s cílem překonat nedůvěru k technickým obtížím nebo se jim přímo vyhnout.

Výhodou korpusových dat je fakt, že obsahují autentická data, jež nejsou upravená pro pedagogické účely (Bernardini(ová) (2000). Z korpusu můžeme čerpat nejen údaje o frekvenci, ale také reálné příklady užití jazyka, což je v současné době, kdy převažuje komunikační přístup ve výuce a studenti se spíše než o jazyce učí komunikovat v reálných životních situacích, velmi důležité (Valková, 2014). Jak již bylo řečeno, korpus přináší typické vzory užití (patterns), neboť ukazuje slovo v kontextu. Získáme tak nejen frekvenční údaje o zastoupení různých jevů, ale hlavně reálné příklady: slovo a jeho kolokace, koligace nebo celé modelové věty (Hunston(ová), 2002; Römer(ová), 2006). Tato jazyková data však nejsou pouhými příklady, které využijeme v rámci stávajících kategorií, nýbrž využití korpusových dat vyžaduje nový způsob výuky (Tognini-Bonelli, 2001, s. 14), který je však v souladu se současným komunikačním přístupem (viz kap. 5.1). Korpus přináší informace o lexikálních jednotkách širších než slovo, které nesou význam a nejsou k sobě přiřazeny náhodně (Sinclair, 1991, s. 110). Ty jsou však často jazykové introspekci skryté. Tognini-Bonelli (2001, s. 15) upozorňuje na častý nesoulad pedagogických gramatik a lingvistických fakt. Není to však simplifikací, která nutně musí nastat při

41 prezentaci pro nerodilé mluvčí, ale jedná se o nedostatečný input. Korpusová data obecných korpusů jsou proto využitelná pro tvorbu gramatik, slovníků a učebnic, tak i přímo do výuky pro hlubší vhled do autentického jazyka.

Využití korpusů při učení se a výuce jazyků

Nepřímé aplikace: praktické využití Přímé aplikace: praktické využití pro učitele pro výzkumníky a autory výukových a studenty (Data-driven learning – DDL) materiálů

Dopad Dopad na sylabus na teoretickou Interakce učitele Interakce studenta kurzů literaturu a výukové s korpusem s korpusem materiály Obrázek 5 Korpusové aplikace ve výuce jazyků (Römer(ová), 2008)

Využití korpusové lingvistiky pro výuku jazyků (ať už se týká korpusových dat či metod korpusové lingvistiky) se tradičně dělí na dva typy: přímé a nepřímé (obr. 5). Přímou aplikací rozumíme práci studentů s korpusovým materiálem. Jedná se o metodu data-driven learning (DDL), poprvé aplikovanou Timem Johnsem na konci 80. let na lekcích angličtiny (Johns, 1991). Studenti tedy buď hledají jazyková data či příklady přímo v korpusovém vyhledávači, nebo konkordanční řádky učitel připraví předem na papír, popř. upraví věty podle cíle cvičení nebo pokročilosti studentů. Cílem této metody je naučit studenty vertikální čtení textu, dívat se pouze na nejbližší kontext a odhalit pravidelnosti, na základě kterých sami generalizují pravidlo. Jde tedy o induktivní metodu „zespodu“ (bottom-up), oproti klasickému prezentace – praktikování – produkce (PPP – presentation, practise, production) (Johns, s. 199; Tognini-Bonelli, 2001; Gabrielatos, 2005; Römer(ová), 2008). Diskutuje se také o tom, že takovéto „kondenzované“ čtení kratších kontextů, tzv. vzorků textu, vystavuje studenty autentickému jazyku, učí je všímat si pravidelností a významů (noticing) a pomáhá jim vytvořit si intuici rodilých mluvčích (Bernardini, 2002; Gabrielatos, 2005).

Tento přístup se dělí na dva druhy, tzv. hard/tvrdý – observace surových korpusových dat a využívání korpusových vyhledávačů přímo studenty, a tzv. soft/měkký – úprava dat učitelem a vytištění na papír (Gabrielatos, 2005; Boulton,

42

2009b). Při druhém způsobu tedy studenti nemusí umět užívat korpusové nástroje, stačí „korpusově gramotný“ učitel. Dalo by se také říci, že spíše než jasné rozdělení na tvrdou a měkkou verzi DDL zde existuje škála, neboť záleží na tom, jaké učitel formuluje otázky, do jaké míry studentům práci s korpusem usnadňuje a do jaké míry korpusová data upravuje (data lze využít i pro tvorbu tzv. klasických učebnicových cvičení). Přímému využití korpusů, včetně konkrétních typů cvičení a aplikace pro češtinu se budeme věnovat v kapitole 7.

Nepřímá aplikace pomáhá učitelům nebo autorům učebnic a gramatik v rozhodování, kdy jaký jev prezentovat, tzn. nejen co učit, ale i kdy to učit (Leech, 1997). Přínosem tedy mohou být frekvenční data daných jevů z korpusu nebo konkrétní příklady užití slov v kontextu, tzn. úseky konkordančních řádků s klíčovým slovem, které ilustrují jeho časté nebo typické spojení s dalšími slovy. Výsledkem je prezentace autentického jazyka a kontextualizace ve výuce oproti klasickému učení gramatických struktur běžnému v nepřímých metodách výuky.

Při přímém i nepřímém využití korpusu je třeba pečlivě zvažovat volbu korpusu. Zmínili jsme převážně obecné korpusy, tj. reprezentativní korpusy textů rodilých mluvčích, které dodají příklady jazykového užití a také slouží k jazykovědnému výzkumu. Žákovské korpusy, tj. korpusy textů studentů cílového jazyka, poskytují data pro výzkum osvojování druhého jazyka a jejich mezijazyka. Korpusy z učebnic porovnávají jazyk v učebnicích s jazykem rodilých mluvčích v obecném korpusu (Gabrielatos, 2005). Data ze všech těchto korpusů jsou pak užitečná při tvorbě sylabu a pedagogických gramatik nebo učebnic (Römer, 2006, 2008). Nepřímým využitím korpusů a konkrétním korpusovým výzkumům, které lze aplikovat pro tvorbu výukových materiálů, se zabýváme v kapitole 8.

Co je tedy ještě potřeba udělat pro lepší propojení korpusové lingvistiky a jazykového vyučování? Römer(ová) (2006, s. 126) zmiňuje tři hlavní oblasti: 1. zdroje, 2. výzkum a 3. ´misionářská´ činnost. Mohlo by se zdát, že máme všechno potřebné, jen začít. Jeden z problémů může být v tom, že vyučujeme především mluvený jazyk, avšak mluvené korpusy je mnohem náročnější vytvořit než psané, a proto bývají daleko menší. Nové možnosti ukazují specializované pedagogické korpusy (viz následující kapitola). Pro výuku češtiny lze v současné době využít obecné, paralelní i žákovské korpusy. Podobně korpusové nástroje se v první řadě

43 vytváří pro jazykovědce, popř. širší obec zájemců, především ovšem rodilých mluvčích. Pedagogická aplikace je možná a žádoucí u řady korpusových nástrojů (viz níže). Cenným doplněním jednotlivých nástrojů jsou uživatelsky přístupné manuály, které v poslední době existují v češtině i angličtině. Výzkum jazyka, který může vést ke konkrétním aplikacím v podobě gramatik, slovníků a učebnic, i šíření povědomí o korpusové lingvistice mezi lidmi v praxi, tj. učiteli, autory učebnic i studenty češtiny, se mohou opřít o solidní základy.

3.4 Shrnutí Tato kapitola představuje teoretický úvod do korpusové lingvistiky a jejích metod z hlediska jazykového vyučování. Ukazuje, že princip korpusové lingvistiky nespoléhat se na intuici, ale na empirická data může být prospěšný ve výuce češtiny pro cizince především v těchto oblastech: 1. frekvence – korpus ukazuje typický úzus, 2. sémantická prozodie / pragmatika – v korpusu najdeme slovo v jeho přirozeném kontextu a 3. frazeologie – v korpusu nalezneme současné užívání frází a jejich obměny. Kapitola podává stručný přehled existujících typů korpusů včetně pedagogických. Vysvětluje dva hlavní přístupy v korpusové metodologii – corpus-based a corpus-driven výzkum, jež se odlišují mírou spoléhání se na korpusová data. Pro corpus-driven výzkum, který v českém prostředí nemá tradici, jsou korpusová data na prvním místě. Neznamená to však, že bychom se jazykové intuice museli úplně vzdát, neboť lingvistova zkušenost je při interpretaci vyhledaných dat tak jako tak nezbytná. Pro corpus-driven výzkum, podobně jako pro současné přístupy v jazykovém vyučování, je centrálním pojmem význam jazykové jednotky. Soustředí se tedy především na kontext slova, a to: kolokace, koligace, slovní svazky, sémantickou prozodii a diskurs. Prezentujeme, jak výzkum v těchto oblastech přináší důležitá data pro jazykovou výuku, a to konkrétně češtiny pro cizince. Z těchto dvou typů výzkumu pak vychází dvě linie využívání korpusů ve výuce. Přímé využití, tj. studenti pracují s korpusovým vyhledávačem (metoda data-driven learning), a nepřímé využití korpusů, při kterém učitelé nebo autoři výukových materiálů vytěžují korpus a získaná data zpracovávají do cvičení, sylabů nebo učebnic. Kapitola tak předkládá základní informace o tom, co korpus nabízí, jak to lze získat a jak konkrétně uplatnit ve výuce češtiny pro cizince.

44

4 Specializované korpusy s pedagogickým zaměřením

Obecné korpusy, čímž jsou myšleny např. reprezentativní korpusy češtiny řady SYN, přispívají k empirickému poznání současného jazykového úzu na základě autentických dat. Výsledky korpusových analýz lze využívat při vytváření výukových materiálů či gramatik češtiny jako cizího jazyka. Nezastupitelnou roli v oblasti využívání korpusů pro jazykovou výuku však mají také specializované korpusy. Oblastí, která má velký potenciál pro výuku, jsou tzv. žákovské korpusy, které se skládají z textů studentů cílového jazyka, a automatizují tak výzkum osvojování druhého jazyka, především chybovou analýzu. Novým polem výzkumu jsou také pedagogické korpusy., Jednak jsou to korpusy s pedagogickým zaměřením, jejichž obsah se buduje tak, aby zahrnoval slovní zásobu, kterou studenti potřebují. Jiný typ pedagogického korpusu, který v této práci pro odlišení nazýváme učebnicový, automatizuje analýzu učebnic cizího jazyka, tedy jazyka prezentovaného v učebnicích určených nerodilým mluvčím.

4.1 Žákovské korpusy33

Korpusy textů nerodilých mluvčích, tj. studentů cizího/druhého jazyka, se v současnosti velmi dynamicky rozvíjejí. V českém prostředí se pro tento typ korpusu vžil název žákovské (Šebesta a Škodová, 2012; Štindlová, 2013). Žákovské korpusy neslouží k popisu běžného jazyka, ale zachycují jazyk produkovaný nerodilými mluvčími, kteří se jej učí jako cizí/druhý. Tyto typy korpusů poskytují nové typy dat, jež zpřesňují výzkum osvojování jazyka a mohou pomoci zlepšit výuku jazyků (Granger(ová) et al, 2002). Žákovské korpusy jsou tradičně menší než korpusy národní, což je způsobeno obtížností při sběru dat i jejich zpracování. Objemy těchto korpusů čítají většinou desítky tisíc slov, milionové korpusy existují pouze pro angličtinu (Šebesta a Škodová, 2012, s. 14). Žákovské korpusy slouží především pro analýzu tzv. mezijazyka (interlanguage). Mezijazyk je v rámci disciplíny osvojování druhého jazyka považován

33 Žákovské korpusy a jejich využití podrobně pospala v českém prostředí Štindlová (2013) a také monografie Čeština cílový jazyk a korpusy (Šebesta a Škodová, 2012). 45 za svébytný útvar, jímž se studující/žáci vyjadřují. Má své zákonitosti, jeho vývoj je však dynamický, odlišuje se jak od mateřského jazyka, tak i od jazyka cílového. Jeho přechodný charakter ukazuje právě termín mezijazyk (Šebesta a Škodová, 2012, s. 17).34 Pro výzkum mezijazyka jsou důležité dvě základní analýzy: kontrastivní a chybová analýza. Kontrastivní analýza srovnává dva jazyky – cílový jazyk a studenty produkovaný mezijazyk. Chybová analýza se oproti tomu více orientuje na zkoumání mezijazyka jako takového a jeho charakteristiky, např. nadužívání či podužívání některých jevů (Štindlová, 2013). S těmito přístupy úzce souvisí specifický typ značkování žákovských korpusů, tzv. chybová anotace. Žákovské korpusy mohou být značkovány dvojím způsobem: 1. lingvistické značkování, čímž je myšleno tradiční slovnědruhové a morfologické značkování (tagging), popř. syntaktická anotace, strukturní značky i metadata, a 2. chybová anotace, což znamená značkování chyb, které se v textech vyskytují a odlišují se od jazykové normy cílového jazyka. Chybové anotace mohou být manuální i automatické, lineární i vícestupňové (Šebesta a Škodová, 2012; Štindlová, 2013). Přestože je třeba chybovou anotaci provádět převážně ručně, výzkum automatické anotace se v současné době též rozvíjí a počet značkovaných žákovských korpusů neustále roste. Cestou automatické anotace chyb se vydal i první český žákovský korpus CzeSL. Valná většina žákovských korpusů se orientuje na angličtinu jako cizí/druhý jazyk. Jedním z největších korpusů je CLC (Cambridge Learner Corpus) zachycující texty z mezinárodních zkoušek a čítající 50 milionů slov. Eseje studentů vysokých škol zahrnují známé korpusy jako mezinárodní ICLE (The International Corpus of Learner English) nebo německý FALCO (Ein fehlerannotiertes Lernerkorpus des Deutschen als Fremdsprache). ICLE zahrnuje 16 subkopusů podle mateřských jazyků (včetně češtiny) a jeho objem činí 3 miliony slov.35 Korpus FALCO vznikající na Humboldtově univerzitě v Berlíně má v současnosti téměř 300 tisíc slov. Je rozdělen na tři části podle žánru a pět subkorpusů podle mateřského jazyka a využívá taggování na několika rovinách. (Štindlová, 2013, s. 98–100)36. Žákovské korpusy mají pro jazykovou výuku velký potenciál. Výsledky výzkumů těchto korpusů se uplatňují při tvorbě slovníků, mluvnic a učebnic pro

34 Někdy bývají žákovské korpusy označovány jako korpusy mezijazyka. 35Viz http://www.uclouvain.be/en-cecl-lcworld.html 36 Viz https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko 46 nerodilé mluvčí. Korpusová data včetně anotace totiž přináší empirická data o mezijazyku. V případě subkorpusů podle mateřského jazyka (v CZeSLu např. ukrajinští nebo vietnamští mluvčí) lze vytvářet výukové materiály a příručky přímo na míru mluvčím konkrétního mateřského jazyka (Bedřichová et al, 2011). V oboru čeština jako cizí jazyk bylo zatím publikováno velmi málo studií zaměřujících se na výzkum mezijazyka, dostupnost korpusů však otevírá nové možnosti využití jak pro výzkum, tak ve výuce. O využití žákovského korpusu přímo ve výuce pojednává kapitola 7, konkrétně 7.1.3 a 7.5.3. Následující podkapitoly stručně představí existující české žákovské korpusy37 a poslední z nich prezentuje, jak lze vytvářet vlastní malé žákovské korpusy a využívat je jako zdroje pro výuku konkrétního kurzu nebo přímo při výuce.

4.1.1 Žákovský korpus CzeSL Kromě testovacího slovinského korpusu PiKUST (necelých 35 tisíc slov) je český CzeSL prvním klasickým žákovským korpusem slovanského jazyka. Od roku 2003 byl na Fakultě informatiky v Brně vyvíjen tzv. korpus Chyby (v roce 2009 měl asi 500 tisíc slov). Nejedná se přímo o žákovský korpus, neboť zahrnuje texty rodilých mluvčích, obsahuje však také chybovou anotaci (chyby pravopisné, gramatické aj.) (Pala et al, 2003; Jakubíček et al, 2009). Sběr materiálu pro CzeSL byl dokončen v roce 2012, chybová anotace však stále probíhá (Šebesta et al, 2012). Celkový objem korpusu činí 2 miliony slov, anotovaná část pouze 960 tisíc slov.38 Tento korpus je součástí většího projektu Akviziční korpusy češtiny (AKCES), kam patří kromě textů cizinců také korpus textů českých žáků a znevýhodněných skupin, např. romských žáků (ROMi) a korpus textů neslyšících (DEAF). (Šebesta – Škodová, 2012; Bedřichová et al, 2011).39 V současné době jsou zpřístupněny dvě verze, CzeSL-Plain bez anotace a CzeSL-STG s manuální anotací. CzeSL je značkován chybovou anotací o dvou úrovních (více o anotaci viz Štindlová, 2013).

37 Nezmiňujeme se podrobněji o databázi CHRUP, neboť naše práce se soustředí na využívání korpusů ve výuce. Vyhledávač této databáze je určen hlavně výzkumníkům, neboť vyhledávání je možné pouze na základě typů chyb. Viz: http://chrup.ff.cuni.cz/ 38 Viz http://wiki.korpus.cz/doku.php/cnk:czesl-plain 39 Viz http://akces.ff.cuni.cz/node/155 47

4.1.2 Žákovský korpus MERLIN Žákovský korpus Merlin40 vznikal v letech 2012-2014 v rámci projektu, jehož cílem bylo vytvořit korpusy tří různých jazyků (čeština, němčina, italština) v návaznosti na popis jazykových úrovní dle Společného evropského referenčního rámce pro jazyky (SERRJ). Jeho cílem tak bylo vytvořit volně dostupnou on-line platformu, ve které je možné zkoumat a ověřovat mezijazyk nerodilých mluvčích dle jazykových úrovní. Obsahuje písemné projevy z certifikovaných zkoušek (Štindlová a Čurdová, 2015). Chybová anotace je dvouúrovňová (podobně jako u CzeSLu inspirovaná německým korpusem FALKO) a je jednotná pro všechny tři jazyky.

Pro češtinu jsou v něm zahrnuty úrovně A2-B2 z Certifikovaných zkoušek češtiny na Ústavu jazykové a odborné přípravy Univerzity Karlovy v Praze (dále ÚJOP UK). Lze stanovit subkorpus a vyhledávat pouze zvolenou jazykovou úroveň. Korpus tak umožňuje vyhledávat jevy typické pro danou jazykovou úroveň (Štindlová et al, 2014).

4.1.3 DIY žákovské korpusy41 V současné době, kdy jsou korpusové nástroje často volně dostupné, existují možnosti vytvořit si vlastní malý žákovský korpus. Podle Seidlhofer(ové) (2002) by měla být jazyková výuka uzpůsobena konkrétní cílové skupině studentů a zasazena do lokálních podmínek (ibid., 215) a žákovský korpus studentů jedné třídy tak může pomoci nejen učiteli vidět, co je pro studenty těžké a jak by měl obsah výuky změnit, ale také může sloužit studentům, aby si uvědomili svoje chyby.

Seidlhofer(ová) navrhuje, aby studenti byli nejen tvůrci korpusu (píší vlastní texty), ale aby byli i jeho výzkumníci (data-driven aktivity). Pokud studenti pozorují data, která sami vytvořili, mohou si tak povšimnout mezery mezi vlastní produkcí a jazykem rodilých mluvčích (noticing the gap) (ibid., s. 218; Millar a Lehtinen, 2008). Podle Seidlhofer(ové) je povšimnutí (noticing) obzvláště hodnotné pro vysoce pokročilé studenty. Když studenti porovnávají vlastní texty s korpusem L1, je toto učení ve shodě s konceptem učení jako procesu a zvyšuje jejich motivaci. Pokud pracují s outputem,

40 Viz http://merlin-platform.eu/ 41 DIY – do it yourself („udělej si sám“) 48 dozví se, jak konkrétně zlepšit vlastní komunikaci. Více o hypotéze povšimnutí viz kap. 6.1.

Data-driven learning (DDL) využívá autentická data z korpusů rodilých mluvčích. Seidlehofer(ová) (ibid.) místo DDL aktivit prezentuje tzv. learning-driven data, tzn., že na prvním místě je produkce studentů, která bude i předmětem výzkumu. Během kurzu na univerzitě ve Vídni dostali studenti za úkol napsat resumé jednoho článku a zprávu, svoji odpověď na tento článek (oba texty o 60 slovech). Z těchto textů byl následně vytvořen korpus, který byl východiskem pro následující analýzy. Studenti nejdříve dostali všechny texty, diskutovali nad nimi a napsali všechny otázky, které je při analýze a diskuzi nad texty napadly (otázky se týkaly statistiky, gramatiky, lexika, kolokací a variací). Díky znalosti textů tak studenti získali naléhavou potřebu používat korpusové nástroje. Porovnávali např. seznamy slov nebo klíčová slova z resumé a zpráv. Často vyhledávali výraz nebo frázi z vlastních textů v L1 korpusu. Protože texty i otázky byly jejich, nemuseli zkoumat dekontextualizované vzorky korpusu rodilých mluvčích, ale východiskem byla jejich vlastní produkce (ibid., s. 230). Mohli se tak zaměřit na specifika vlastního vyjadřování a zjistit, jak konkrétně je zlepšit. Pozitivem byly také anonymizované texty, takže studenti mohli převzít roli učitele, aniž by to bylo vnímáno jako osobní útok.

Millar a Lehtinen (2008) zdůrazňují pozitiva využívání lokálního žákovského korpusu nejen ve výukových materiálech, ve kterých lze upozornit na časté chyby, ale také přímo ve třídě. Zatímco Seidlhofer(ová) používá studentské texty jako východisko pro otázky a následné vyhledávání v L1 korpusu, navrhují Millar a Lehtinen (2008) DDL aktivity s opačným postupem: 1. nejdříve jsou prezentovány vybrané konkordance z L1 korpusu, 2. poté je studenti porovnávají s žákovským korpusem, 3. dále jsou jim představeny další možné vzorce slova (další vybrané kolokace z L1 korpusu s jiným užitím) a nakonec 4. studenti reflektují svůj vlastní text. Ať jdeme při využívání žákovského korpusu ve třídě jakýmkoli směrem, vždy je nutné porovnat data s korpusem rodilých mluvčích, aby studenti viděli i správné vyjádření (Hunston(ová), 2002).

Výběr jevů, které je potřeba zkoumat, zjistíme na základě analýzy seznamů slov (absolutní frekvence) nebo klíčových slov. Klíčová slova získáme díky automatickému porovnání seznamu slov z žákovského a referenčního korpusu. Pokud jsou některá slova

49 v žákovském korpusu výrazně frekventovaná, jsou označena jako pozitivní klíčová slova, naopak výrazně nefrekventovaná jsou negativní klíčová slova. Díky nim lze zjistit nadužívání a podužívání nějakého jevu nebo slova. Podle Millera a Lehtinena (ibid.) je zapotřebí i učitelovy intuice k tomu, aby odhalil, jaká slova studenti špatně nebo nevhodně používají kvůli negativnímu transferu z mateřského jazyka. Díky konkordancím však lze snadněji zjistit, které oblasti gramatiky a lexikonu činí studentovi potíže (ibid., s. 66).

Jak lze v českém prostředí vytvořit lokální žákovský korpus? Vlastní korpus lze vytvořit v nástroji Sketch Engine, který umožňuje vytvářet seznamy slov, generovat klíčová slova, kolokace i vyhledávat a zobrazit klasické konkordance (viz kap. 7.3.4). Pokud bychom chtěli získat pouze klíčová slova, můžeme využít nástroj KWords Českého národního korpusu42, kde je možné vybrat jako referenční korpus jeden z reprezentativních korpusů psané češtiny řady SYN. V případě, že bychom chtěli texty také chybově anotovat, lze využít studentský nástroj Hypal.43 Pro anotaci bychom však potřebovali daleko více času, než v běžné výuce bývá. I samotná tvorba korpusu bez anotace může být časově náročná. Usnadněnou cestu bychom měli, pokud studenti odevzdají práce v elektronické podobě. Na druhé straně je však psaní na počítači často ovlivněno automatickou kontrolou pravopisu a tudíž chyby v pravopisu a diakritice nemusíme nutně odhalit. Velkou výhodu však vidíme v práci studentů s vlastními daty a tím pádem ve specificky zacílené výuce.

4.2 Pedagogické korpusy44

Při využívání korpusů ve výuce bývají převážně zmiňovány a používány tzv. obecné nebo reprezentativní korpusy. Otázkou však je, zda jsou tyto korpusy pro studenty vhodné, neboť byly primárně vytvořeny pro lingvistická bádání, a proto obsahují také slovní zásobu, kterou studenti ve většině případů nepotřebují, např. terminologii vědeckých textů, nebo takovou, která je vysoce obtížná a vyskytuje se téměř jen

42https://kwords.korpus.cz/ 43https://hypal.eu 44 Části této kapitoly již byly publikovány: Vališová, 2012a, 2012b 50 v beletrii. Braun(ová) (2005) se proto zamýšlí nad tím, jak by měl vypadat korpus, který je pedagogicky relevantní. Dochází k závěrům, že korpus, který je vhodný pro výuku, se od korpusů obecných podstatně liší v těchto oblastech: 1. velikost, 2. obsah, 3. formát dat a 4. anotace. Dostatečná velikost korpusu je 20 až 200 tisíc slov, neboť korpusy velkého rozsahu najdou uplatnění především v lexikografii, a to z důvodu potřeby vyhledat dostatečné množství výskytů a příkladů. Velký korpus má příliš mnoho výsledků vyhledávání, je tedy „zaneřáděný“ (messy), a jeho data jsou často nejednoznačná a zavádějící (ibid., s. 50). Analýza konkordancí je pro studenty náročná právě z toho důvodu, že texty obsažené v korpusu neznají. Texty v korpusu jsou vyňaty ze svého originálního diskurzu a ne všichni studenti jsou schopni rekonstruovat jejich kontext. Pro autentifikaci, tj. pro vytvoření si vztahu k textu, je nutná znalost kulturního pozadí (ibid; Widdowson, 1990). To souvisí s obsahem korpusu – dle Braunové (2005, 2009) by pedagogický korpus měl být homogenní, co se týče témat. Texty mají být vybrány tak, aby zahrnovaly komunikační situace, jež jsou pedagogicky relevantní a studenty zajímají. Třetí problematickou oblastí korpusů je vyhledávání dat, která se zobrazují ve formě konkordancí, tj. klíčových slov uprostřed (KWIC). Konkordance mají tu výhodu, že studenti mohou pozorovat pouze nejbližší kontext a objevovat tak vzorce a pravidelnosti jazyka, především lexiko-gramatické. Na druhou stranu by toto vertikální čtení mělo být kombinováno se čtením celých textů (tzn. celého korpusu), aby se jazykové jevy daly interpretovat v souvislosti s danou komunikační situací a kulturním pozadím (Braun, 2005, s. 54). Kromě korpusového přístupu (frekvence, KWIC, konkordance) je tedy důležitý i přístup založený na analýze diskurzu. Podle Braunové také u pedagogického korpusu nestačí anotace formálních jednotek, ale podstatnější jsou významy související s širším kontextem a tématem textu. Navrhuje proto tzv. pedagogickou anotaci (manuální), která by označila slova týkající se stejného tématu. K příkladům pedagogických korpusů uvedeme dva projekty univerzity v Tübingen zaměřené na výuku angličtiny, ELISA – English Language Interview Corpus as a Second language Application a BACKBONE – Pedagogic corpora for content & language integrated learning. Třetí projekt SACODEYL – European Youth Language byl organizovaný na univerzitě v Murcii. Korpus ELISA je jakýmsi průkopníkem a vzorem pro další pedagogické korpusy. Projekt SACODEYL kromě

51 korpusu zahrnuje i volně přístupné programy na tvorbu a anotaci vlastního korpusu a tipy pro vytvoření doplňkových výukových aktivit. Projekt BACKBONE pak výsledky dřívějších projektů spojuje a vytváří platformu s korpusy několika evropských jazyků.

4.2.1 Korpus ELISA a jeho tematická anotace Korpus ELISA byl vybudován tak, aby usnadňoval jazykové učení na základě témat. Vzhledem k tomu, že jak studenti, tak učitelé běžně pracují s celými texty, je možné v tomto korpusu zobrazit nejen konkordance, ale i texty v celku. Důležitá je také audiovizuální složka, neboť video usnadňuje výuku mluveného jazyka. Uživatelé korpusu tak mají přístup k různým typům dat (Braun, 2009). ELISA45 zahrnuje 25 rozhovorů s rodilými mluvčími v délce od 5 do 15 minut. Korpus tedy obsahuje videa, jejich přepisy i vyhledávač konkordancí. Rodilí mluvčí mluví různými variantami angličtiny – pochází z Ameriky, Austrálie, Skotska nebo Irska, a tématem rozhovorů je jejich pracovní život. Škála témat je tím samozřejmě omezená (Braun, 2007). Každý rozhovor pokrývá některé z 11 témat: (1) náš kraj (2) co děláme (3) osobní historie (4) začínáme (5) příklady projektů (6) vzdělání a školení (7) ekonomické otázky (8) obchodní otázky (9) pracovní rutina (10) výzvy (11) plány do budoucna (Braun, 2006, s. 10). Každé interview má také svůj název, krátké resumé, informaci o obsažených gramatických jevech a tzv. tematickou anotaci46, tj. rozčlenění textu dle výše uvedených témat. Lze tak najít např. téma „náš kraj“ napříč všemi rozhovory. Přestože jazyk i obsah jsou různé, na ukázkách většinou můžeme zaznamenat jazykové i komunikační podobnosti (Braun, 2006, s. 12). Dále části textů zahrnují informace o oboru, funkci

45ELISA:http://corpora4learning.net/resources/materials.html#1 46Braun(ová) tuto anotaci nazývá: anotace pro pedagogické účely (2006), pedagogická anotace (2009) nebo tematická anotace (2006). Pro odlišení od anotace učebnicového korpusu (pedagogická anotace) a z toho důvodu, že hlavním cílem je tematická analýza textů v tomto korpusu, se zde budeme držet názvu „tematická anotace“. 52 a gramatickém jevu, např. část rozhovoru s arteterapistkou bude zahrnovat tag tématu „co děláme“, oboru „umění a fotografie“, funkci „představování“ a gramatiky „čas přítomný prostý“ (obr. 6) (ibid., s. 13).

Obrázek 6 Tematická anotace korpusu ELISA (Braun, 2006)

Obrázek 7 ukazuje příklady vyhledaných výskytů, kde se autoři rozhovorů představují. Braun (2009) poukazuje na to, že k představování nestačí jedna věta a že konkordance nám ne vždy podají jasný výsledek. Pokud bychom např. vyhledávali konkordance se slovem name, měli bychom omezenější příklady. Kdybychom vyhledali I´m nebo I am, zobrazilo by se nám naopak příliš mnoho příkladů, které se do kontextu představování nehodí.

Obrázek 7 Korpus ELISA - vybrané výskyty z části Představování (Braun, 2009)

Braun(ová) (2005) vychází z předpokladu, že konkordanční řádky a seznamy slov mají smysl, pouze pokud jsou zapojeny do vhodných aktivit. Proto každé interview zahrnuje cvičení využívající v něm obsaženou slovní zásobu, a tak mohou studenti s rozhovorem pracovat detailněji. Výhodou je, že slyšeli celé interview, a znají proto širší kontext vět obsažených ve cvičeních. Další nespornou výhodou je zařazení audiovizuálního materiálu, tzn. transkriptu rozhovoru, studenti mohou sledovat také 53 video a procvičovat tak poslech. Kromě zmíněné tematické anotace jsou rozhovory doplněny také seznamem slov dle frekvence a aktivitami s vybranými konkordancemi pro studium synonym a kolokací – ty pomohou studentům a učitelům, již nejsou blíže seznámeni s korpusovým vyhledáváním. Komentáře zahrnující lexikální, gramatické a kulturní informace jsou k dispozici proto, že interview zahrnují mluvčí různého původu a variet angličtiny. Ke každé části textu také následují otázky a klasická cvičení. Pro studenty nižších pokročilostí je k dispozici též zjednodušený transkript rozhovorů a tipy pro učitele i studenty, jak s rozhovory pracovat. Celý korpus obsahuje i korpusový vyhledávač, ve kterém si uživatel může vybrat potřebné rozhovory a vyhledávat konkordance ve formátu KWIC nebo celé věty.

Tento typ korpusu „pomáhá studentům vytvořit spojnici mezi záznamem textu v korpusu a situacemi, které se objevují v diskurzu, tak, aby mohli (re)konstruovat a efektivně využít korpus pro učení.“47 (Braun(ová), 2006, s. 15). Studie Braun(ové) (2007) z prostředí střední školy totiž ukázaly, že studenti v mnoha případech nemají analytické dovednosti pro interpretaci konkordancí a potřebují aktivity, které jsou komunikačně relevantní a konkrétně zaměřené. Kromě zvážení učebních stylů studentů, jejich preferencí a motivace je proto dle ní podstatné také spojit klasické korpusové metody s dalšími metodami. Spolu s pedagogicky relevantním obsahem korpusu je tedy metodologie zapojení korpusů do výuky jedním z nejdůležitějších bodů.

4.2.2 Projekt SACODEYL a nástroje pro pedagogický korpus48 Projekt SACODEYL se orientuje na jazyk mládeže a po vzoru korpusu ELISA zahrnuje videorozhovory a jejich transkripce včetně tematické anotace. Pokrývá celkem 7 evropských jazyků (angličtina, němčina, francouzština, litevština, rumunština a španělština) a každý z těchto subkorpusů osahuje 20 až 25 rozhovorů žáků ve věku 13 až 18 let o délce 10 minut. Interview se týkají těchto témat: „osobní informace, domov a rodina, současné a minulé životní návyky, koníčky a zájmy, dovolená, škola a vzdělání, pracovní zkušenosti, plány do budoucnosti, otevřená diskuzní témata“.49

47 “help learners bridge the gap between the textual records in the corpus and the discourse situations they have to (re)construct in order to exploit the corpus materials efficiently for learning purposes.“ 48 http://www.um.es/sacodeyl/ 49 “personal information, home and family, present and past living routines, hobbies and interests, holidays, school and education, job experiences, plans for the future, open discussion topics“ 54

Tento projekt především nabízí volně ke stažení několik nástrojů, jež jsou potřebné pro tvorbu pedagogického korpusu: traskriptor, anotátor, vyhledávač a Virtual Resourse Pool, nástroj, který spojuje předchozí ve webovém prostředí50. Tyto nástroje lze využít při budování vlastního pedagogického korpusu a použil je i projekt BACKBONE.

4.2.3 Vícejazyčný projekt BACKBONE Mezinárodní projekt BACKBONE51 zahrnuje, podobně jako ELISA, videorozhovory, tentokrát však pro celkem 7 jazyků: angličtinu (britskou a irskou), němčinu, francouzštinu, španělštinu, polštinu a turečtinu a mezinárodní angličtinu (lingua franca) mluvčích zahrnutých jazyků. Tento korpus je na rozdíl od projektu ELISA sponzorován evropskými fondy, a proto je přístupný zdarma. Korpus má regionální zaměření a obsažená témata jsou: „kultura, svět práce, život ve městě a na venkově, společenské problémy, zdraví a sociální zabezpečení, vzdělání, životní prostředí, vláda a politika.“52 Cílem korpusu je prezentovat méně vyučované evropské jazyky a také regionální varianty více vyučovaných evropských jazyků. Projekt byl testován na různých typech škol, především na středních školách. Záměrem je korpus využívat v rámci kontextového vzdělávání (CLIL – content and language integrated learning) a ve spojení s e-learningem (tzv. blended-learning)53 ve středním a vyšším školství (Kohn et al, 2009). Snaží se tak revidovat metodu data-driven learning tím, že využívá korpus s pedagogicky relevantními tématy (ibid., s. 2).

Za nejpodstatnější přínos tohoto korpusu je považována kombinace korpusového vyhledávání (konkordance) a tematického čtení celého textu. Lze také vyhledat konkrétní tematické sekce v celém korpusu nebo ve vybraných textech (obr. 8).

50 http://www.um.es/sacodeyl/en/pages/software.htm#annotator 51 http://u-002-segsv001.uni-tuebingen.de/backbone/moodle/ 52“culture, world of labour, urban and rural life, social issues, health and social security, education, environment, government and politics“, viz http://projects.ael.uni- tuebingen.de/backbone/moodle/mod/resource/view.php?id=2310 53 Při pilotních kurzech se využíval Moodle pro e-learning. 55

Obrázek 8 Tematické tagy korpusu BACKBONE

Další výhodou je zapojení audiovizuální složky. Je možné dívat se na celé video rozhovoru nebo jej pouze poslouchat, či se dívat nebo poslouchat pouze části dle témat (obr. 9). Podobně jako u korpusu ELISA, každá tematická část rozhovoru má vlastní název a díky této anotaci lze vyhledat stejné tematické části napříč různými texty.

Obrázek 9 Korpus BACKBONE - ukázka54

Kromě toho lze vyhledávat konkordance konkrétních slov, souvýskyt slov (co- occurence) nebo seznamy slov, a to vždy pro vybranou tematickou oblast nebo celý

54http://webapps.ael.uni-tuebingen.de/backbone-search/faces/search.jsp 56 korpus. Možnost hledání souvýskytu slov je jakýmsi rozšířením kontextu klíčového slova. Při zadání vyhledávaného slova lze vybrat počet vět okolního kontextu (obr. 10).

Obrázek 10 Co-occurence slova job v korpusu BACKBONE

Kromě korpusu nabízí projekt BACKBONE také e-learningové aktivity pro samostudium (poslech s porozuměním, procvičování gramatiky a lexika) a handouty pro učitele zahrnující popisy vyhledávacích i komunikačních aktivit ke každému tématu.55

4.3 Učebnicové korpusy56

Cílem korpusů z učebnic je analyzovat jazyk, se kterým student přichází do styku a který se učí. Přestože nelze do takového korpusu zahrnout veškerý jazyk, se kterým se student setkává ve třídě (chybí input učitele a spolužáků) a mimo třídu, i tak může být cenným pomocníkem při zjišťování, jaký jazyk učebnice na jednotlivých referenčních úrovních používají a do jaké míry je simplifikován. Při komparaci s daty z národního nebo i žákovského korpusu lze zkoumat odchylky a dojít k závěrům, jak výklad či texty v učebnicích vylepšit. V rámci korpusových metod tak lze vytvořit seznam slov, se kterými student přichází do styku, a také jejich kontextů a porovnat je s přirozeným

55 E-learningové aktivity a tipy pro učitele jsou však přístupné pod heslem. Příklady aktivity projektu BACKBONE viz: http://projects.ael.uni- tuebingen.de/backbone/moodle/file.php/1/reports/10%20Pedagogical%20corpora%20compilation%20%2 8del%205%29.pdf 56 Části této kapitoly již byly publikovány: Vališová, 2013a, 2013b, 2015. 57 jazykem z korpusů obecného jazyka, abychom zjistili, zda je jazyk prezentovaný studentům užitečný (Hunston(ová), 2002, s. 16).

Tognini-Bonelli(ová) (2001, s. 17) poukazuje na neshodu mezi pedagogickými gramatikami a jazykovými fakty. Ukažme si na příkladu z českých učebnic, jak může být jazyková intuice zavádějící. Chceme-li srovnávat data z učebnicového korpusu a korpusu obecného jazyka, je dle našeho názoru smysluplné zaměřit se především na tyto dva aspekty:1. výběr slovní zásoby a 2. kontexty slov a modelové věty. Při výběru slovní zásoby by měl hrát hlavní roli současný úzus. Například v jedné z námi zkoumaných učebnic (Basic Czech II) se vyskytlo slovo mejdan (Adamovičová et al, 2014). Při vyhledání variant mejdan, party a večírek v dalších učebnicích zjistíme, že toto slovo užívá pouze tato učebnice. Další převáženě používají party (12 výskytů, 4 učebnice)57 a pouze jedno slovo večírek (Easy Czech). Pokud tyto varianty vyhledáme v korpusech obecného jazyka, mluvených i psaných, vidíme jasnou tendenci – v psané komunikaci převládá slovo večírek, v mluvené party (obr. 11), slovo mejdan se drží u 10% (tab. 1). Při diachronním pohledu (obr. 12) si můžeme všimnout prudkého poklesu v užívání slova mejdan po roce 1989 a naopak nárůstu slova party, zřejmě vlivem angličtiny. Slovu mejdan bychom se tedy při výuce raději vyhnuli. Učebnice evidentně dávají přednost slovu party z toho důvodu, že je lidem znalým angličtiny lehce srozumitelné. Přesto vzhledem k vysoké frekvenci, a to i v mluvených korpusech, by slovo večírek v učebních materiálech mělo mít svoje místo. Studenti znají slovo večer už v začátcích studia a je pro ně proto jednoduché význam slova večírek pochopit.

UčKo-A1, A2 ORAL2013 SYN2015 czTenTen mejdan 24% 11% 10% 11% party 71% 43% 36% 55% večírek 6% 46% 54% 34% Tabulka 1 Frekvenční distribuce slov mejdan, party a večírek v různých korpusech

57 Podrobněji o českém učebnicovém korpusu (UčKo), jeho velikosti a složení viz kap. 9. 58

Obrázek 11 Synchronní frekvenční distribuce slov mejdan, party a večírek (SyD)

Obrázek 12 Diachronní frekvenční distribuce slov mejdan, party a večírek (SyD)

Učebnicové korpusy jsou specializovanou oblastí spojující korpusovou lingvistiku a výuku jazyků. Začínají se vyskytovat na počátku 21. století v souvislosti s potřebou vyučovat užitečnou slovní zásobu a současný jazyk tak, aby studenti mohli úspěšně komunikovat. Úplně prvním učebnicovým korpusem byl The TOEFL 2000 First Academic Spoken and Written Corpus z roku 2002, kolekce americké angličtiny o celkovém rozsahu 2,7 miliónů slov, z čehož necelých 800 tisíc slov pochází z učebnic. Tento korpus však sloužil i jiným účelům než pouze analýze učebnic (např. testování). Další korpus, který stojí za zmínku, je German English as a Foreign Language Textbook Corpus (GEFL TC), který obsahuje dialogy z německých učebnic angličtiny, dále korpus TeMa, zahrnující 32 celých učebnic angličtiny. Podrobněji je představíme v následujících podkapitolách.

59

4.3.1 Korpus německých učebnic angličtiny (GEFL TC) Německý German English as a Foreign Language Textbook Corpus (GEFL TC) z roku 2004 je tvořen dvěma sadami učebnic angličtiny určených německým mluvčím a čítá 100 tisíc slov. Zahrnuje pouze dialogy z těchto učebnic, neboť učebnice se orientují na současný mluvený jazyk a nácvik komunikace. Jeho tvůrkyně Römer(ová) již publikovala i několik studií, ve kterých srovnává tento učebnicový jazyk s autentickým jazykem z britských národních korpusů (Römer(ová), 2004, 2006).

V článku z roku 2004 Römer(ová) porovnává výskyt modálních sloves a jejich kontextů v učebnicích a v mluvené části Britského národního korpusu (BNC spoken). Její výzkum poukázal na velké rozdíly. V učebnicích byla nadužívaná slovesa will/´ll, can a must, zatímco would/´d, could, should a might podužívaná (Römer(ová), 2004, s. 193). Učebnice také daleko častěji používají modální slovesa v negaci a rozdíly jsou viditelné i v otázce, např. should je v učebnicích výhradně prezentováno v otázkách, přestože v BNC je 64% oznamovacích vět. Rozdíly nalezla Römer(ová) také v kontextech, např. slovesné tvary can a could se daleko častěji používají ve významu schopnosti (52,5% a 78,3%) než v BNC (36% a 34%) (ibid., s. 193). Na základě svých zjištění Römer(ová) navrhuje vyučovat modální slovesa v jiném pořadí, než se běžně vyučují, a nevynechávat jejich další významy, např. dovolení u might a could a prezentovat can a could častěji v kontextu možnosti (ibid., s. 196). Vidíme tedy, že výsledky jejího výzkumu jsou přímo aplikovatelné a užitečné při tvorbě učebních materiálů.

Ve své monografii o slovesech v průběhovém čase Römer(ová) (2005) opět porovnává data z učebnicového korpusu s BNC spoken. Tentokrát však vybírá 100 nejfrekventovanějších sloves v průběhovém tvaru (např. accepting, adding apod.) a zkoumá jejich kontexty na 200 konkordančních řádcích z každého korpusu. Hlásí se tím k data-driven výzkumu – bere korpusová data vážně a neoperuje s žádnou předem připravenou hypotézou. Nachází celkem podstatné rozdíly mezi učebnicemi a národním korpusem (podužívání a nadužívání času, subjektů a objektů, předložek, negace, adverbií, funkční distribuce apod.) a navrhuje mírné změny ve vyučování průběhových tvarů.

Dle Römer(ové) ukazuje tento typ výzkumu, jak jazyk přirozeně funguje. Pomáhá zviditelnit a uvědomit si, jaké jednotky jsou typické pro konkrétní typ textu

60 nebo jaké významy může určité slovo mít (ibid., s. 276). Pozastavuje se také nad tím, že do dnešní doby neměl korpusový výzkum na vývoj učebních materiálů až takový dopad, jaký by si představovala – jazyk z reálného života a typické vzorce se ještě nedostaly do učebnic. Podle Römer(ové) (ibid., s. 277) bychom měli psát pedagogické gramatiky na základě empirických dat.

4.3.2 Korpus TeMa a jeho anotace Projekt učebnicového korpusu TeMa58 na univerzitě v Lovani z roku 2007 se liší rozsahem i pojetím. Dříve uvedené korpusy zahrnovaly převážně texty nebo dialogy, korpus TeMa naproti tomu obsahuje celé učebnice, neboť jeho cílem je výzkum všech částí učebnic. Také jeho rozsah je daleko větší. Činí asi 724 tisíc slov a skládá se z 32 učebnic obecné angličtiny. Navíc díky tzv. pedagogické anotaci nabízí mnohem větší pole využití (Gouveneur(ová) a Meunier(ová), 2009).

Korpus TeMa je rozdělen na 4 subkorpusy: texty, přepisy poslechů, cvičení a instrukce. U každé učebnice je vždy uveden zdroj, a to konkrétně v tomto pořadí: 1. název učebnice, 2. jestli je to učebnice nebo cvičebnice, 3. lekce, strana, cvičení a nakonec 4. typy cvičení. Pro čtvrtou část korpusu autoři vytvořili speciální značky pro pedagogickou anotaci, tzn. označkováno je každé cvičení podle typu, např. doplňování (slova z výběru, slova ve správném tvaru, libovolného slova), spojování apod. Při doplňování je samozřejmě označena i správná forma slova, která se má doplnit. Tento korpus je součástí většího projektu na výzkum frazeologie, jeho koncept však může být inspiračním zdrojem pro podobné typy korpusů.

TeMa využívá tzv. problémově orientovanou anotaci. Funguje tak, že uživatel korpusu si přidá takovou anotaci, která se mu hodí pro jeho konkrétní výzkum (Gouveneur(ová) a Meunier(ová), 2009, s. 189). V tomto korpusu je označkován subkorpus cvičení z učebnic a značky prezentují typy cvičení, které se v učebnicích vyskytují. Dvoupísmenná značka (BC) označuje pedagogický status cvičení (box to complete). Značka uprostřed věty (AB) odkazuje ke klíči (answers from the box). Každá doplněná odpověď v rámci věty je doplněná znakem # a konec věty $:

58Viz http://www.uclouvain.be/en-cecl-tema.html 61

„They´ve got a lot _____ common.

1213(BC)to#$ 1213(CB)They´ve got a lot 1213(AB)in#common$” (ibid., s. 191) Anotace obsahuje celkem 80 značek, které vychází ze základních 8 typů cvičení: “doplňte, definujte, spojte, nahraďte, rozumějte, opravte, (pře)pište” (ibid., s. 191), které mají další podkategorie. Celý tagset není zveřejněn, pouze ukázky. Prezentujeme tedy pouze příklad podkategorií tagu doplňte (complete):

Základní tag: C – doplňte (A – odpověď)

Podkategorie:

CB – doplňte cvičení slovy z rámečku (AB)

CE – dopňte cvičení (AE)

CT – doplňte text (AT)

CZ – doplňte cvičení výběrem z několika variant (AZ – správná odpověď, BZ - možnosti)

CZX – doplňte cvičení výběrem (škrtněte špatnou odpověď) (AZX)

CW – doplňte slovo vzniklé odvozením (AW) Gouverner(ová) (2008) již publikovala studii na základě dat z anotovaného korpusu TeMA, ve které se zaměřuje na frazeologické vzorce sloves take a make ve cvičeních. Kromě toho zkoumá také pedagogické zaměření cvičení a druhy aktivit. Rozdělila cvičení na ta, která se explicitně zaměřují na kolokace těchto sloves, která se zaměřují nepřímo a která vůbec. Míra zaměření je různá v závislosti na jazykové úrovni (ibid., s. 235). Přímé zaměření na kolokace převažovalo ve cvičeních středně pokročilé úrovně (B1), zatímco ve vyšších úrovních se již neprocvičovaly explicitně. Podle Gouverneur(ové) je tento nedostatek procvičování kolokací s vysoce frekventovanými slovy důvodem, proč mají vysoce pokročilí s těmito slovesy obtíže. Při výzkumu typů cvičení zjistila, že na vysoce pokročilé úrovni převažují cvičení, která nevyžadují produkci, jako např. výběr z několika variant. Naopak zcela chybí cvičení typu „pozorumění“, které vyžaduje povšimnutí, a také cvičení, která by vyžadovala opakování či použití slova v novém kontextu, je o polovinu méně než na středně pokročilé úrovni. Podle Gouverner(ové) (ibid., s. 237) však povšimnutí považuje za jedno z důležitých kritérií při učení, např. při hádání významu slova, explicitním učení nebo vysvětlování významu. Kromě toho se také vyhodnocovala, na jakou část kolokace se cvičení zaměřují, a objevila značné rozdíly. Středně pokročilé učebnice se primárně soustředí na sloveso, zatímco vysoce pokročilé na podstatné jméno. Při

62 zkoumání žákovských korpusů vysoce pokročilých studentů však vidíme, že problémem je převážně výběr slovesa, proto navrhuje, aby i na této úrovni byla vysoce frekventovaná slovesa jako take a make a jejich kolokace znovu procvičována a upevňována. Jako plus však vidí vysoké zaměření na celý vzorec (sloveso a jeho kolokace) na vysoce pokročilých úrovních. Ukazuje tak, že automatické vytěžování anotovaného učebnicového korpusu přináší užitečné výsledky a je jistě zajímavou oblastí pro další výzkum.

Tento typ korpusu poskytuje empirická data a díky anotaci je možné data zkoumat z různých perspektiv. Jeho autorky jako hlavní cíle vidí: 1. Vylepšení pedagogických materiálů v souvislosti s výzkumem osvojování druhého jazyka, a to především věnování pozornosti tzv. povšimnutí. 2. Vytvořit doplňky k učebnicím, jako např. žákovské slovníky, CD a on-line zdroje, které by obsahovaly konkordance, autentické texty a další cvičení (ibid., s. 196–7). Přestože má korpus omezený obsah, nezahrnuje otevřené úlohy ani interakci s učitelem, může poskytovat důležitá empirická data pro zlepšení výuky. Různým možnostem využití učebnicového korpusu se věnuje následující kapitola.

4.3.3 Využití učebnicových korpusů Využívání učebnicového korpusu dělíme na dvě hlavní oblasti, a to: 1. deskriptivní – popisují učebnicový jazyk jako specifický žánr a 2. didaktickou oblast – zkoumají typy cvičení (Gouveneur(ová) a Meunier(ová), 2009, s. 195).

Mezi deskriptivní způsoby využití patří výzkum slovní zásoby a komparace s autentickým územ v národních korpusech (Römer(ová), 2004; Gouveneur(ová) a Meunier(ová), 2009). Učebnicový korpus může být též využit pro studium osvojování jazyka, neboť můžeme vyhledat všechny kontexty, ve kterých se slovo či fráze vyskytují a se kterými se tedy student dostal do kontaktu (Huston(ová), 2002, s. 16). Pedagogické značkování však umožňuje i zkoumání učebnic z dalších perspektiv. Při rozdělení na subkorpusy podle úrovní lze zkoumat výběr slovní zásoby pro jednotlivé úrovně. Slovní zásobu specifickou pro konkrétní úroveň lze porovnat s popisem Rámce59. Lze porovnat input v podobě textů, poslechů i cvičení, tzn., jaká slovní zásoba

59 Společný evropský referenční rámec pro jazyky viz: http://www.msmt.cz/mezinarodni- vztahy/spolecny-evropsky-referencni-ramec-pro-jazyky 63 se vyskytuje v té které části, a zda se od sebe liší. Porovnáním kolokací slov ve cvičeních lze objevit rozdíly mezi učebnicemi. Gouverner(ová) (2008) v pilotní studii dle korpusu TeMa např. objevila v tomto směru mezi učebnicemi velké rozdíly.

Také lze zkoumat metajazyk, který učebnice využívají, a to nejen pro instrukce ke cvičením (např.: Používají obecné výrazy nebo konkrétní? Používají imperativ či jiný tvar?), ale i při výkladu gramatiky. Zde se však často místo češtiny objevuje zprostředkovací jazyk. Rovněž důslednost ve využívání lingvistické terminologie je důležité téma. Ve studii z roku 2010 (Osolsobě a Vališová, 2010) je prezentován výzkum lingvistické terminologie v 17 učebnicích češtiny pro cizince. Ve výsledku je patrná značná nekonzistentnost v užívání českých a mezinárodních termínů, a to i v rámci jedné učebnice.

Další oblastí výzkumu je typ textu, tzn. podíl psaného a mluveného představeného v učebnici. Máme na mysli zejména prezentaci různých jazykových variant, např. zastoupení spisovné/hovorové/obecné češtiny v učebnicích či v jednotlivých částech jedné učebnice. Pokud bychom měli k dispozici i morfologickou anotaci, mohl by se výzkum zaměřit i na další jevy spojené s výukou gramatiky.

Z didaktického hlediska je možno zkoumat typy cvičení podle tématu, jevu nebo referenční úrovně. Gouverner(ová) (2008) ve své pilotní studii objevila, že typy cvičení se velmi liší dle úrovní, a také poukázala na nedostatek pozorovacích aktivit, které podle výzkumu v oblasti osvojování druhého jazyka hrají velmi důležitou roli (tzv. povšimnutí). Poté je možné navrhnout zlepšení díky výsledkům současného výzkumu osvojování druhého jazyka i za pomoci současných korpusů rodilých i nerodilých mluvčích, tj. národních korpusů nebo i korpusů žákovských, které se v současné době budují i pro češtinu jako cizí jazyk.

Tento typ korpusu nám otevírá nové možnosti výzkumu učebnicového jazyka i didaktických metod. Je však nutné mít na paměti, že učebnicový korpus je i přes svoje výhody velmi limitovaný tím, že učebnice redukuje pouze na text. Nelze zahrnout interakci ve třídě, která je nedílnou součástí výuky jazyka. Učebnicový korpus také nabízí komparaci s autentickým jazykem národních korpusů, je však nutné vzít v potaz, že přestože studenti mohou těžit z autentického jazykového inputu, adaptované či vymyšlené texty jsou také nedílnou součástí učebnic, zvláště pro nižší pokročilosti. I přesto se však domníváme, že jeho výhody nad těmito limity převažují.

64

4.4 Shrnutí

Tato kapitola prezentovala korpusy, jež jsou budované s pedagogickým účelem. Řadí se k nim specifická oblast žákovských korpusů, které tvoří texty či nahrávky studentů cílového jazyka. Jako pedagogické korpusy se často označují dva typy korpusů: 1. malé korpusy textů na pedagogicky relevantní témata a 2. korpusy z učebnic. Vzhledem k novému pojetí pedagogického korpusu (viz Braun(ová), 2005, 2007) a pro odlišení nazýváme korpus z učebnic zásadně jako učebnicový, ne pedagogický, jak jej označuje Willis nebo Hunston(ová) (2002, s. 16). Každý z těchto typů korpusů má jiný účel. Žákovské korpusy zachycují tzv. mezijazyk, tj. jazyk, který studenti opravdu používají, a chybová anotace pomáhá získat empirická data o jejich chybách, např. nadužívání nebo podužívání nějakého slova. Takto lze mezijazyk porovnávat s jazykem rodilých mluvčích, zkoumat jazykový transfer a připravovat výukové materiály na míru dané cílové skupině (např. dle mateřského jazyka či cíle studia). Kromě velkých žákovských korpusů budovaných v rámci projektů (CzeSL, Merlin) mají potenciál hlavně tzv. DIY korpusy, které si každý učitel může vytvořit z textů studentů ve své třídě a cíleně tak zlepšovat jejich vyjadřování. Pedagogické korpusy vycházejí z toho, že student by měl být seznámen s autentickým jazykem. Texty v korpusech obecného jazyka však jen těžko dokáže pochopit, neboť pocházejí z různých oblastí a obsahují těžkou slovní zásobu. Pedagogický korpus proto zahrnuje texty či videa na témata, která jsou pro studenty užitečná, a slouží buď k přímému využití studenty (mohou číst celé texty, poslouchat a dívat se na video, číst konkordance) či učiteli pro tvorbu tematických cvičení. Učebnicové korpusy umožňují výzkum jazyka, se kterým se student setkává při výuce. Při komparaci s korpusem obecného jazyka lze vyhodnotit, čím se učebnice odchylují od přirozeně znějícího jazyka a typických užití, což může vést ke zlepšení výukových materiálů za účelem úspěšné komunikace v současném světě.

65

5 Korpus a metody výuky jazyků

V této kapitole představíme komunikační přístup, který je v současné výuce jazyků centrální. Nejedná se však o metodu, je to spíše zastřešující pojem poukazující na to, že výuka má být zaměřena na zprostředkování komunikačních dovedností. Komunikační přístup může zahrnovat různé metody dle výukových cílů nebo cílové skupiny. V následující kapitole proto představíme některé další metody, které souvisí s využitím korpusů nebo korpusových dat ve výuce.

5.1 Současný komunikační přístup ve výuce jazyků

Využívání korpusů ve výuce souvisí se současným obratem směrem ke studentovi a jeho potřebám a s orientací na více induktivní výuku. Od sedmdesátých let 20. století, kdy nastal tzv. komunikačně-pragmatický obrat ve výuce jazyků, se ohnisko výuky přesouvá od systému jazyka k fungování řeči (Hrdlička, 2010). Pro tento přístup se vžil název komunikační metoda. Přikláníme se však k termínu komunikační přístup (Valková, 2014, s. 14), neboť se nejedná o metodu v klasickém slova smyslu, ale spíše o zastřešující pojem, který může zahrnovat různé metody60.

Hlavním cílem komunikačního přístupu je úspěšná komunikace. Jazyk zde není jen sadou fonologických, gramatických a lexikálních pouček určených k zapamatování, ale živým organismem. Již se neučíme něco proto, že to tady je, ale proto, že nám to bude užitečné při komunikaci v reálném životě (Nunan, 2004, s. 6–10). Gramatika se tak prezentuje prostřednictvím nejrůznějších témat odrážejících reálný život, s čímž souvisí i zaměření na cílovou skupinu: studenty a jejich jazykové potřeby. Současný komunikační přístup se vyznačuje orientací na studenta, jeho potřeby a požadavky, učitel ustupuje do pozadí (Škvorová, 1992). Neznamená to však, ani že by se vyučovalo pouze to, co by student chtěl, ani ztrátu funkce učitele ve výuce. Učitel se z dominantní role přesouvá do role organizátora, poradce a taky toho, kdo motivuje.

60 Anglicky Communicative Language Teaching 66

Vznik komunikačního přístupu souvisí s rozšířenou potřebou mezinárodní komunikace v rámci evropského společenství a tvorbou společného sylabu. V roce 1980 vydal Jan van Ek a L. G. Alexander Threshold English Level, popis prahové úrovně angličtiny (Richards a Rodgers, 2001, s. 163). Sylabus tak přestal být seznamem gramatických jevů, ale přednost získal obsah, tj. témata a komunikační situace. Toto převládající zaměření vyústilo ve vydání dokumentu Rady Evropy Common European Framework of Reference for Languages: Learning, Teaching, Assessment (2001), který definuje šest jazykových úrovní a popisuje, jaké komunikační situace by měl student na jednotlivých úrovních úspěšně zvládnout. Český překlad Společný evropský referenční rámec: Jak se učíme jazykům, jak je vyučujeme a jak je hodnotíme vyšel roku 2001 a několik let poté také popisy úrovní A1–B2 pro češtinu.61 Z obecného popisu Rámce v současné době vychází jak certifikované zkoušky, tak i moderní výukové učebnice češtiny pro cizince.

Přesun od formy k obsahu a rozvoj komunikačního přístupu také úzce souvisí se současným lingvistickým výzkumem. Sice již dříve v historii existovaly snahy o kontextualizaci jazykové výuky, např. obrazová učebnice Orbis sensualium pictus od Komenského (Valková, 2014, s. 16), skutečné změny však přineslo až dvacáté století. Nejdříve byly snahy omezit překládání a orientovat se na mluvený jazyk (parole) a rozvinula se tak přímá metoda, jež nevyužívá zprostředkující jazyk. Pozdější audioorální metoda, rozšířená převážně v USA v 50. letech, se soustředila především na drilové opakování a automatizaci. Teoreticky vycházela ze strukturální lingvistiky a též z psychologického směru behaviorismu, který považoval jazyk za zvyk (Richards a Rodgers, 1986, s. 49). Podobně jako situační metoda používaná ve stejné době ve Velké Británii, narazila na své limity tam, kde se student potřeboval přizpůsobit nové komunikační situaci a nestačila mu již řada naučených frází.

Velký vliv na komunikačně-pragmatický obrat měl americký lingvista Noam Chomsky, který kritizoval korpusovou lingvistiku. V roce 1957 vydává svoje stěžejní dílo Syntaktické struktury, kde zdůrazňuje právě jedinečnost a kreativitu jazyka, díky kterým lze vytvářet nekonečné množství vět (ibid., s. 64). Chomsky zavádí pojmy kompetence a performance, jejichž distinkcí navazuje na Saussurovu langue a parole (jazyk a řeč). Kompetence však pro něj znamená vrozenou schopnost rodilého mluvčího

61 Viz http://www.msmt.cz/mezinarodni-vztahy/spolecny-evropsky-referencni-ramec-pro-jazyky 67 vytvářet na základě pravidel nové věty (ESČ, s. 218). Chomského pojem kompetence rozšířili lingvisté Del Hymes a později také Jan van Ek při definici tzv. komunikační kompetence. Pro úspěšnou komunikaci nelze pouze produkovat správné věty, ale také je správně zasadit do kontextu situačního i kulturního (Hrdlička, 2009, s. 53–55). Komunikační kompetence tedy zahrnuje také např. složku sociokulturní, společenskou nebo strategickou a jazyková složka je pouze jednou z částí budování celkové kompetence.

Widdowson (1990, s. 117) v souvislosti s komunikačním přístupem využívá distinkce mezi cílem a procesem (medium vs. mediation, sémantika jazykové struktury vs. její pragmatické užití), kde v prvním je důraz na strukturu, zatímco v druhém přístupu na proces osvojování, komunikaci v průběhu, jež usnadní porozumění nebo ve výukovém prostředí splnění úkolu. V prvním případě je výuka založená na textu, učitel je zdrojem informací a chyba je nežádoucí, zatímco v případě zaměřeném na proces se využívají úkoly, podněcuje se objevování (discovery learning) a chyby jsou přirozenou součástí procesu učení. Namísto praktikování jednoho nebo druhého jako absolutní cesty však vidí tyto přístupy jako komplementární, to znamená, že jeden bez druhého nemůže existovat (ibid., s. 123). Podobně v českém prostředí Hrdlička (2009, s. 55) zdůrazňuje, že jeden z hlavních principů komunikačního přístupu je komplexnost, tj. výuka všech čtyř základních řečových dovedností (čtení, psaní, mluvení a poslechu) a vyvážené rozložení složky jazykové a mimojazykové.

5.1.1 Korpus a komunikační přístup Mezi hlavní zásady komunikačního přístupu patří upřednostňování obsahu před formou. S tímto základním principem souvisí však také role učitele a studenta ve výuce, tvorba sylabu i proces výuky. Následující charakteristiky ukazují, že metody využívání korpusu ve výuce lze zařadit pod komunikační přístup.

1. Kontextualizace

Podstatnou charakteristikou komunikačního přístupu je důležitost významu a kontextualizace (Richards s Rodgers, 2001, s. 156–158). Student se učí jazykové jevy v kontextu, tj. v rámci tématu či komunikační situace, ne izolovaně. Vyhledávání

68 kontextu slov a autentických slovních spojení je zároveň jednou z hlavních předností práce s jazykovým korpusem.

2. Různé metody výuky

Komunikační přístup není metoda výuky s jasnými postupy, ale zaměření na schopnost komunikovat v cílovém jazyce. Formy i způsoby výuky mohou být různé v závislosti na cílové skupině, stylu učení apod. Využitím různých vyučovacích aktivit, nejčastěji zaměřených na splnění úkolu s nutností komunikace v cílovém jazyce, otevírá učitelům nové možnosti. Práce s korpusem se hodí pro procvičování slovní zásoby, čtení nebo i úkoly ve skupině. Lze tak oživit výuku, aniž bychom měnili cíl a zaměřovali se výlučně na formu.

3. Sylabus

V komunikačním přístupu je sylabus kurzu orientován dle obsahu, nikoli gramatických jevů. Obsah sylabu je vytvářen tak, aby splňoval komunikační kompetenci dané situace (Widdowson, 1990, s. 130). Při tvorbě sylabu a výukových materiálů je jazykový korpus užitečným zdrojem informací o současném jazyce. Lze využít údaje o frekvenci, ale také častých slovních spojení (kolokací), což souvisí s již zmíněnou kontextualizací.

4. Role učitele a studenta

Při přímé práci studentů s korpusem není učitel autoritou a odborníkem, který podává informace o cílovém jazyce, ale zdrojem dat je jazykový korpus. Učitel, podobně jako v komunikačním přístupu, ustupuje z centrální pozice do role zprostředkující osoby, která má usnadňovat učení, organizovat práci ve třídě a motivovat žáky.

5.2 Další současné metody

5.2.1 Úkolová metoda (Task-based language teaching – TBLT) Úkolová metoda podobně jako komunikační přístup zdůrazňuje důležitost komunikace, zaměřuje se však více do hloubky na proces výuky, tj. konkrétně na úkol (task). Díky využití autentické situace a interakce studentů mezi sebou se studenti zaměřují nejen na

69 jazyk, ale i na proces osvojování jazyka. Vyučování ve třídě je tak navázáno na reálnou komunikaci mimo třídu (Nunan, 2004, s. 1). Úkol odlišuje od gramatických cvičení Nunan (ibid., s. 4), definuje jej jako práci ve třídě, která zahrnuje komunikaci, interakci a využití různých jazykových prostředků za účelem vyjádření významu, tj. splnění komunikačního cíle v rámci konkrétní situace. Podle Valkové (2014, s. 45) zaujímá úkolové učení centrální techniku komunikačního přístupu. Během úkolu se totiž studenti soustředí na komunikaci v cílovém jazyce, ne však na studium tohoto jazyka jako systému. Mezi hlavní znaky úkolu patří: 1. účelné využití jazyka, které splňuje cíle dané komunikační situace, 2. smysluplný cíl, tj. dá se prakticky využít v reálném životě, 3. pragmatické cíle – využívání jazykových prostředků s obsahovým základem a 4. zapojení kognitivních procesů používaných při výběru prostředků (ibid., s. 46).

Za úkol lze považovat i DDL (data-driven learning) aktivity (Gabrielatos, 2005), při kterých studenti komunikují mezi sebou, využívají dosavadní znalosti jazyka jak pro interakci, tak pro pozorování korpusových dat. Podobně jako v TBLT lze postupovat ve fázích, tj. diskuze před úkolem, úkol, prezentace a diskuze po úkolu (jednotlivé fáze úkolu: pre-task, task, planing, report, analysis, practise). Nejedná se přímo o komunikační situaci, kterou využijí mimo třídu, objevené lexikální vzorce však také mohou používat v reálné komunikaci nebo mohou být navázány na právě probírané téma či komunikační cíle.

5.2.2 Computer-assisted language learning (CALL)62 Učení se jazyku za pomoci počítače (dále CALL) se objevilo poprvé již ve čtyřicátých letech, opravdový rozmach zaznamenalo však až v souvislosti s příchodem osobního počítače v osmdesátých letech, kdy se CALL nejen rozšířil o nové technologie, ale také přijal komunikační přístup. Přímo zlatý věk však nastal až v devadesátých letech se zavedením internetu (Davies, 2002).

Za tradiční případ CALL se považuje interakce studenta s počítačem. Počítač prezentuje otázku a vyžaduje studentovu odpověď (Last,1997). Podle Barnbrooka (1998, s. 139) je tato komunikace také nejslabší částí této metody. Je nutné dát počítači takové informace, aby dokázal poznat studentovu chybu, aby odlišil správnou a špatnou odpověď. Je tedy potřeba, aby počítač znal alternativní odpovědi nebo nepovažoval

62 Učení se s pomocí počítače, zde nepřekládáme. 70 např. překlep za chybu. Výhodu lze naopak spatřovat v možnosti opakování učiva bez zdržování ostatních (Last, 1997, s. 477).

Davies (ibid.) odlišuje tradiční CALL a současné přístupy, kam zahrnuje data- driven learning (DDL), používání multimédií a webu. Podle Daviese (ibid.) se tradiční CALL orientuje na učitele, neboť tím se stává počítač, který zná správnou odpověď, zatímco v data-driven learning jde spíše o výzkumný přístup zaměřený na studenta (více o DDL viz kap. 7). Multimediální CALL zahrnuje využívání zvuku a videa a souvisí s vývojem automatického rozpoznávání řeči (Automatic Speach Recognision – ASR)- Např. od doby, kdy je ASR zabudován do Google Překladače, využívají ho studenti dokonce přímo na lekci, což jim zrychlí vyhledání překladu, neboť nemusí slovo psát. Obrovský potenciál má však web, a to z důvodu své rychlosti a také interaktivitě.

Díky rozšíření internetu a v poslední době také mobilních aplikací v chytrých telefonech se tak CALL dostává doslova ke každému. Pomineme-li korektory pravopisu (spell-checkery) a elektronické slovníky, zaznamenáme také obrovské rozšíření e- learningu a strojového překladu. Mezi mobilními aplikacemi pro výuku jazyků jsou velmi zajímavé Memrise a Duolingo63. Memrise procvičuje nejfrekventovanější slova jednotlivě, zatímco je bližší korpusovému přístupu a prezentuje slova v kontextu. Přestože se často jedná o velmi nepřirozené věty, aplikace je založena na překladu vět od samého začátku, nenajdeme tam procvičování jednotlivých slov ani vysvětlení pravidel. Uživatel tak získává povědomí o pravidlech a užití jednotek až díky pozorování vět.

Velmi přínosné jsou programy, které umožňují tzv. DIY (do it yourself) cvičení. Může se jednat o programy na vytváření křížovek, osmisměrek, puzzle ad. Existuje jich nepřeberné množství, zmíníme jako příklad Crosswordlab.64 Nejznámější z těchto programů, Hot Potatoes,65 nabízí kromě křížovek také klasické otázky s výběrem několika variant (quiz), spojování (match), doplňování (cloze) nebo mix, který spojuje více těchto možností. Cvičení mohou sloužit jak pro e-learning, tak i jako klasické cvičení na handoutu. Druhou možností jsou DIY programy přímo pro studenty, kteří si do nich vloží slovní zásobu, kterou si potřebují procvičit, např. .66

63 Memrise: https://www.memrise.com/, Duolingo: https://cs.duolingo.com/ 64 Crosswordlabs: https://crosswordlabs.com/ 65 Hot Potatoes: https://hotpot.uvic.ca/ 66 Quizlet: https://quizlet.com/ 71

Pro češtinu v poslední době vzniká stále více on-line programů.67 Jeden z největších projektů je Mluvte česky Masarykovy univerzity68, kde mohou studenti najít e-learningový kurz češtiny úrovně A1 a A2, speciální kurz zaměřený na češtinu v lékařství a seznam gramatických pojmů. Centrum pro integraci cizinců v Praze vytvořilo e-learning s videy a poslechovými cvičeními na téma Čeština do práce a Čeština do školy69, které se zaměřují na praktickou komunikaci v práci a ve škole. Neil Bermel na Univerzitě v Birminghamu ve spolupráci s Ilonou Starý Kořánovou z Karlovy univerzity vydali učebnici a CD Interaktivní čeština úrovně A2 (Bermel a Kořánová, 2012), která kombinuje videa s prací s klasickou učebnicí. Její nový díl na úrovni B1 již bude pouze ve formě e-learningu. Americký lingvista Christian Hilchey vytváří vlastní on-line výukový program na Univerzitě v Texasu s názvem Reality Czech70, který bude zahrnovat jak vysvětlení gramatiky a cvičení, tak i videa s rozhovory s rodilými mluvčími z České republiky, aby se studenti studující v Americe dostali do styku s autentickým jazykem. V Americe vznikla také mobilní aplikace Suzanny Halsey(ové)Ten Ta To, ve které je možné procvičovat rod 4000 českých slov.71

Existuje také profesionální asociace, která se zabývá využitím počítačů ve výuce (Davies, 2002), např. EUROCALL.EUROCALL pořádá pravidelné konference a vydává časopis ReCALL, ve kterém lze najít mnoho příspěvků i o využití korpusů ve výuce.

5.2.3 Lexikální přístup (Lexical approach) Výukové metody obvykle vychází z jazykového výzkumu, který ovlivňuje jejich cíle. Sylabus i praxe ve třídě souvisí se záměry tohoto výzkumu. Lexikální přístup (dále LP) ve výuce jazyků je spojen s corpus-driven přístupem, kde je centrální lexikum a význam oproti gramatickým strukturám, konkrétně však vícečetné lexikální jednotky (chunks). Tyto jednotky jsou pak vyučovány jako samostatné, nevyučují se tedy jednotlivá slova, ale vždy společně s jejich kolokacemi nebo ve formě vícečetných ustálených frází.

67Využití technologií ve výuce češtiny shrnuje Hanušková (2016). 68 Mluvte česky: http://mluvtecesky.net/ 69 Čeština do práce a do školy: http://www.kurzycestinyprocizince.cz/ 70 Reality Czech: https://realityczech.org/ Nejedná se přímo o korpus, ale projekt videí s rodilými mluvčími je velmi blízký pojetí malého pedagogického korpusu Braun(ové) (viz kap. 4.2.7). 71 Aplikace Ten Ta To: https://play.google.com/store/apps/details?id=com.lubosmikusiak.articuli.tentato&hl=cs 72

Může jít jak o typický kontext, tak i o neměnné fráze (Richards a Rodgers, 2001, s. 215).

Lewis (1996) považuje za jedny z hlavních principů lexikálního přístupu tyto:

1. Jazyk se skládá z gramatikalizovaného lexika, ne lexikalizované gramatiky. 2. Dichotomie gramatika vs. slovní zásoba neplatí; velká část jazyka se skládá z víceslovných svazků. 3. Ústředním prvkem jazyka je zvyšování studentova povědomí o jazykových svazcích a rozvíjení jeho schopnosti správně utvářet víceslovné svazky.72

Pokud se studenti učí gramatická pravidla a lexikum, nejsou tak připraveni na komunikaci. Studenti nepotřebují vědět, co je v jazyce možné, ale co používat v konkrétní komunikační situaci. Podobně jako komunikační přístup je lexikální přístup v rozporu s tradičními nepřímými metodami, kde se vyučují gramatické struktury a teprve po jejich osvojení má student najednou začít sám komunikovat (Valková, 2014). Nepomůže mu však ani důraz na slovo jako samostatnou jednotku, protože pak nedokáže dát slova správně do kontextu. Lexikální přístup se soustředí na pozorování autentického textu a také produkci, která se jím inspiruje. Typické aktivity jsou proto: objevování lexikálních vzorců (patterns) v textu a převyprávění, ve kterém student používá podobné lexikální jednotky (Richards a Rodgers, 2001). Zdůrazňují se také sociolingvistické kompetence a proces učení včetně chyby se považuje za pozitivní, podobně jako v komunikačním přístupu. Od toho se lexikální přístup liší svým pojetím slova v kontextu a zvýšenou pozorností na receptivní dovednost (čtení a poslech), tj. všímání si lexikálních svazků (chunks).

Podle Lewise (1996, s. 89) je význam důležitější než forma. Jazyk je totiž sociální a výběr struktury záleží na kontextu. Existuje rozdíl mezi tím, co lze říct a co v dané komunikační situaci říct můžeme. Výuka jazyka by se tak neměla soustředit na struktury, které je možné užít a jsou gramaticky správné, ale na ty, které rodilí mluvčí opravdu používají. Role autentického inputu je tedy v lexikálním přístupu klíčová. Slova by se dle Lewise měla vyučovat i s kontextem, tj. v rámci témat nebo sémantických skupin. Obr. 13 ukazuje příklad cvičení, které využívá kolokace a třídí je podle významu (ibid., s. 126). Rizikem tohoto přístupu může být přílišná role lexika,

72“1. Language consists of gramaticatilzed lexis, not lexicalized grammar. 2. The grammar/vocabulary dichotomy is invalid; much language consists of multi-word ´chunks´. 3. A central element of language is raising students´awareness of, and developing their ability to ´chunk´ language´successfully.“ 73 kdy si studenti pouze memorují fráze. Přínosem však je naopak výuka slov v kontextu a tak, jak je rodilí mluvčí opravdu používají.

Obrázek 13 Příklad cvičení lexikálního přístupu (Lewis, 1996, s. 126)

Přestože se lexikální přístup soustředí spíše na tvorbu sylabu a materiálů dle korpusových dat (jedná se tedy o nepřímé využití korpusů), s DDL metodou má společnou změnu rolí učitele a studenta. Učitel má několik rolí: jako rodilý mluvčí demonstruje ve své řeči použití lexikálních jednotek, organizuje třídu a pomáhá studentům, kteří mají aktivnější roli, analyzují data z textu nebo poslechu a vytváří si své vlastní generalizace. Učitelova asistence je důležitá, výukové prostředí se však orientuje na studenta. Podobně jako rodilý mluvčí je student obklopen velkým množstvím autentického jazyka, i zde si student osvojuje strategie, jak se učit recepcí (nejen čtením, ale i poslechem) a být si vědom kolokací nebo vícečetných lexikálních jednotek. Student se tak stává jazykovědným výzkumníkem (Richards a Rodgers, s. 224). Při svém osvojování a pochopení jazyka využívá tzv. povšimnutí/noticing (viz kap. 6.2).

Podle Thomase (2015, s. 18) zdůrazňuje lexikální přístup podobně jako data-driven learning induktivní proces výuky, protože jejich proces je podobný a vymezuje se proti klasickému PPP (prezentování – procvičování – produkce): identifikace – klasifikace – generalizace (DDL) a pozorování – hypotéza – experiment (LP). Thomas se domnívá, že tyto dvě metody by byly daleko více rozšířeny, pokud by se objevily dnes, v době velkého rozvoje a dostupnosti korpusů, než na začátku devadesátých let. Díky důrazu na obsah oproti formě, autentický jazyk a induktivní přístup, který zdůrazňuje zapojení a interakci studentů, považujeme lexikální přístup za metodu, která není v rozporu se současným komunikačním přístupem.

74

5.3 Shrnutí

Tato kapitola se věnuje v současnosti převládajícímu přístupu ve výuce jazyků, který představuje komunikační přístup (CLT) a zároveň ukazuje styčné body CLT a korpusové lingvistiky. Komunikační přístup vznikl v souvislosti s komunikačně- pragmatickým obratem ve výuce a tvorbou Společného evropského referenčního rámce. Není to tedy metoda výuky, ale spíše zastřešující pojem a v rámci něj lze uplatňovat různé vyučovací metody či techniky. Důležitými prvky jsou: induktivní přístup a obsahová orientace výuky. Student se učí s cílem komunikovat v dané situaci, forma tedy již není na prvním místě. Dalším rysem je také vyváženost řečových dovedností a zacílení na konkrétní skupinu studentů a jejich potřeby. Ukazujeme, že využívání korpusu ve výuce lze zařadit pod CLT, a to díky těmto oblastem: 1. kontextualizace – korpus ukazuje typické kontexty slov, což souvisí s obsahovým vyučováním, 2. různé metody – v rámci CLT můžeme využívat nejrůznější metody, kam patří i přímé využívání korpusů (metoda data-driven, DDL), 3. sylabus – korpus poskytuje frekvenční data pro výběr slovní zásoby nebo posloupnosti gramatických jevů a 4. role učitele a studenta – při přímém využívání korpusů učitel ustupuje do pozadí a student sám objevuje užití jazyka. Dále stručně prezentujeme současné metody ve výuce a jejich podobnosti s korpusovými metodami. Úkolová metoda (TBLT) dává opět autonomii studentům, kteří musí splnit nějaký úkol a prezentovat výsledky (podobně jako v DDL). Metoda učení za pomoci počítače (CALL) ukazuje, jak v současné době roste počet on-line kurzů, e-learningů a výukových aplikací. Z toho lze usuzovat, že přímé využívání korpusů již není nic technicky náročného, co by budilo obavy. Lexikální přístup (LA) přímo vychází z korpusových metod a jeho cílem je vyučovat slova zároveň s kontextem (kolokace) nebo slovní svazky (bundles, chunks), ne gramatiku a lexikum zvlášť. Využívání korpusů, ať již přímé nebo nepřímé, je tedy v souladu se současnými metodami a přístupy ve výuce jazyků.

75

6 Korpus a teorie osvojování druhého jazyka (SLA)

Vzhledem k potřebě komunikovat v současném světě v různých jazycích vznikla v dvacátém století nová disciplína na pomezí lingvistiky a psychologie – osvojování druhého jazyka (second language acquisition – SLA). Tato disciplína zkoumá, jakým způsobem si dospělý člověk osvojuje jazyk. Mluví se tu o druhém jazyce, neboť se jedná jak o učení v kurzu (cizí jazyk), tak i o osvojování pobytem v cizí zemi (druhý jazyk) (Ellis, 2008, s. 3). S korpusovou lingvistikou souvisí např. výzkum mezijazyka studentů, který díky budování žákovských korpusů získává množství empirických dat (viz. kap. 7.3.3). Jiná část zájmu SLA se týká inputu, tzn. jazyka, kterému jsou studenti vystaveni. SLA se zabývá tím, jakou formu inputu by měli studenti dostávat, aby jim to usnadnilo učení (Ellis, 2008, s. 5). Autentickým vs. simplifikovaným jazykem ve výuce se budeme zabývat v kapitole o nepřímém využití korpusů (8.5). Zde bychom chtěli věnovat pozornost hypotéze povšimnutí (noticing nebo noticing the gap), která bývá často zmiňována v souvislosti s využíváním korpusů ve výuce, a vyučovací technice, která tuto hypotézu využívá – učení se objevováním (discovery learning).

6.1 Povšimnutí (noticing)

Podle Ahn(ové) je povšimnutí dnes vnímáno jako jeden z hlavních konstruktů SLA (2014, s. 56) (Podobně Gouverner(ová) a Meunier(ová), 2009, s. 195). S hypotézou povšimnutí přišel první Schmidt (1990), který tvrdí, že jazykové učení je vědomé a tzv. povšimnutí znamená proces, který mění input v příjem (ibid., s. 138). Podle něj je užitečné u dospělých studentů budovat povědomí o formální stránce jazyka (tzv. awareness/cosciousness). Během povšimnutí nových jazykových struktur může student tento input porovnat se svým mezijazykem (noticing the gap) a díky paměti pak vyprodukovat output (Cross, 2002). Otázkou tedy je, zda je osvojování implicitní nebo explicitní proces. Zatímco na teorii osvojování prvního jazyka měl podstatný vliv Chomského koncept univerzální gramatiky, tj. nevědomé znalosti jazyka, není jasné,

76 zda dospělí studenti mají ještě k univerzální gramatice přístup (Schmidt, 1993; Ritchie a Bhatia, 2009, s. 49). Vzhledem k tomu, že povšimnutí je vnitřní proces, je těžké jej empiricky testovat a měřit. Zatím existuje velmi málo empirických studií o povšimnutí, některé však ukazují, jako např. Alanen, že studenti, kteří měli nové jevy jen zvýrazněné, se je naučili lépe než ti, kteří dostali explicitní popis (Cross, 2002). Schmidt (1990) analyzoval svou akvizici brazilské portugalštiny během pětiměsíčního pobytu v Brazílii. Psal si do diáře, čeho si povšimnul, tj. co si on myslel, že se naučil, a porovnával to s tím, co se opravdu v kurzu učil. Také si jednou za měsíc nahrával své interakce s rodilými mluvčími, aby mohl srovnat i to, co se opravdu naučil. Objevil velkou korespondenci inputu, jehož si povšimnul a zapsal do diáře, se svým ouputem a svoje výsledky považuje za důkazy toho, že povšimnutí souvisí s produkcí (ibid., s. 141). Tvrdí tedy, že povšimnutí a vědomé (tj. explicitní) učení u dospělých usnadňuje učení jazyka. Podle Gabrielatose (2005) je hypotéza povšimnutí ve shodě s využíváním korpusů. Využíváním korpusových dat přineseme prezentaci dat, kde si student všímá významů nebo pravidelností. Valková (2014, s. 43) považuje povšimnutí za jednu z klasických komponent komunikačního přístupu: student si všímá jazykových prostředků, poté je utřídí a následně konsoliduje (noticing – assembling – consolidation)73, jde tedy o vědomé zaznamenání nového jevu. Tento postup koresponduje s procesem, kterým student prochází u aktivity v metodě data-driven learning: identifikace – klasifikace – generalizace (1991).

6.2 Učení se objevováním (discovery learning)

Povšimnutí souvisí s tím, jakému inputu by měl být student vystaven. Hlavní otázkou učitelské praxe v tomto směru tedy bude, jaké instrukce při vysvětlování nových jevů by měli studenti dostat. Scrivener (2005 s. 272) odlišuje tři druhy vystavení novému jazykovému jevu: vysvětlení učitelem, řízené objevování a neřízené objevování. Využívání korpusů, především metoda data-driven learning, patří mezi řízené

73 Viz také Scrivener (2011). 77 objevování, neboť je při ní nutné učitelovo vedení (Thomas, 2015, s. 17; Bernardini, 2002). Pod řízené objevování bychom zařadili také úkolovou metodu (task-based language teaching) (viz kap. 5.2.1). Učení se objevováním poprvé nastínil psycholog Jerome Bruner (1999). Podle něj objevování podněcuje studenty k tomu, aby aktivně participovali na učení (Bruner, 1999, s. 21). Jedná se o induktivní proces, během něhož student dělá experiment a vymýšlí řešení. Student si tak konstruuje svou vlastní znalost a učitel mu nedává informace, ale spíše vytváří prostředí k objevování a usnadňuje jeho proces. Podle Bernardini(ové) (2000, s. 222) se technika objevování řadí mezi učení, které se orientuje na proces (Widdowsonova mediace, viz kap. 5.1). Tento typ učení také využívají přístupy, které zařazují aktivity spojené s řešením úkolů. Vyžaduje se zde studentova angažovanost, jež mu pomáhá vytvořit si vlastní strategie, jak úkol vyřešit.

Bernardini(ová) (2000) navrhuje typ řízeného objevování a nazývá jej „serendipity”, tj. šťastná náhoda. V roce 1997 udělala experiment na semináři ,Využití Britského národního korpusu jako zdroj výuky a výzkumu´ pro italské studenty překladatelství angličtiny na univerzitě v Bologni. Studenti dostali za úkol vyhledávat v korpusu náhodná data a zapisovat si, co objevili. Studenti se spontánně soustředili na význam slova. Sami si všimli kolokací a sémantické prozodie, typů textů a pozice a funkce jednotek v textu. Problém tkvěl ovšem v tom, že studenti byli schopni sémantickou prozodii najít, nebyli ovšem schopni podat její adekvátní vysvětlení. Také si nevšímali variant v pravopisu a gramatických jevů a ani nesledovali jejich frekvenci. Bernardini(ová) proto navrhuje náhodné učení podrobit řízení ze strany učitele, který dá předem studentům seznam toho, čeho si mají při hledání v korpusu všímat. Např. možných synonym, antonym, pravopisných variant, kolokací, sémantických preferencí a sémantické prozodie, frází obvyklých v daném typu textu apod. Bernardini(ová) zdůrazňuje velmi pozitivní zpětnou vazbu studentů a považuje přímou práci s korpusem za aktivitu, kdy student pracuje s textem, komunikuje s dalšími studenty a zároveň řeší problém. Tento typ aktivity kombinuje zaměření na formu i na význam a studenti si při něm vytvářejí vlastní výukové strategie. Na druhé straně Bernardini(ová) (2000, s. 230) přes značně pozitivní zpětnou vazbu zaznamenala u studentů během tohoto experimentu také pocity frustrace z množství dat. Proto později zdůrazňuje nutnost řízeného objevování a učitelovo vedení během aktivity.

78

Aktivitám, které zvyšují povědomí (consciousness raising – C-R) o jazykových jevech, se věnuje Willis a Willis(ová) (1996)74. Dle nich jsou to takové aktivity, které vyzývají studenta k vědomé snaze hledání pravidelností a vytváření závěrů, což koresponduje s postupem v lexikálním přístupu (Willis a Willis(ová), 19996, s. 64). Navrhují nejdříve poskytnout studentům data v podobě textu nebo sady modelových příkladů. Následně shrnují typy C-R aktivit a ukazují je na příkladech. Mezi ně patří např.: 1. identifikace – studenti hledají jazykové vzorce, 2. klasifikace – třídění dat, 3. budování/testování hypotézy – vytvořená hypotéza se testuje na více datech, 4. mezijazykový průzkum – porovnávání vzorců v angličtině a mateřském jazyce, 5. rekonstrukce – studenti vzpomínají na text a jeho hlavní znaky. Jako C-R aktivitu označují i trénink práce studentů s gramatikami a slovníky. Považujeme to za velmi důležité, neboť není vždy samozřejmost, že studenti tyto příručky znají nebo se v nich umí orientovat. Willis a Willis(ová) tyto aktivity prezentují na textech, stejné typy aktivit nebo otázky však lze použít i při přímé práci s korpusovými daty (na počítači nebo na papíře)75. Typická otázka k textu je např.: „Co znamená would ve druhé větě?“ (ibid., s. 71). Student tak přemýšlí o různých významech slova. Pod textem pak následuje několik modelových vět a student má vybrat, ve kterých would vyjadřuje kondicionál, minulý čas od will nebo used to. Druhy aktivit, které podněcují k povšimnutí formální struktury, a to včetně využívání různých příruček, zvyšují studentovu autonomii při učení a tím i lepší porozumění jazyku.

Ve výuce češtiny využívají povšimnutí některé současné učebnice, např. Český den (Matula, 2007) nebo učebnice Lídy Holé. Čeština Expres (Bořilová a Holá, 2010) zahrnuje do svých aktivit postupy, které popsala Valková (viz výše). Ve vstupním materiálu (obvykle dialogu) se vyskytují nové gramatické jevy, které má student najít a zařadit je do tabulky. Příklady nových jevů tedy třídí dle rodů (obr. 14) a následovat by měla konsolidace jevu a jeho procvičování.

74 Stejní autoři také napsali učebnici na základě korpusových dat (Willis a Willis(ová), 1989). 75 K typům cvičení z korpusových dat viz kap. 7.4. 79

Obrázek 14 Gramatická tabulka v učebnici Čeština expres A1/1 (Bořilová a Holá, 2010)

Méně řízené objevování zahrnuje do svých učebnic Česky, prosím Cvejnová (2008, 2011, 2012) jejíž koncepci prezentace gramatiky považujeme za velmi inovativní.76 Cvejnová neprezentuje explicitní pravidla, neukazuje tabulku, ale modelové příklady nebo věty (obr. 15). Student si tedy musí pravidlo zkonstruovat sám, pochopit je na základě příkladů. Vzhledem k tomuto faktu nejsou tyto učebnice vhodné pro samostudium, neboť vyžadují vedení učitelem. Učebnice také vyžaduje učitele, který má vhled do systému jazyka, neboť musí vést studenty při vytváření pravidel.

Objevování tedy zaktivizuje studenta, zvyšuje jeho autonomii i pochopení jazyka. Proces objevování se může objevit jak při konstruování gramatického pravidla v učebnici, tak při tzv. úkolové metodě, čtení textu i při přímém využívání korpusů (DDL), při kterém student pozoruje jazyková data a následně zobecní pravidlo, např. typické užití slova v kontextu a jeho významy.

76 Za zamyšlení nad tímto konceptem učebnice a výuky gramatiky děkuji Mgr. Petře Honzákové (ústní rozhovor), která má s učebnicemi Cvejnové praktické zkušenosti, a to včetně ještě nevydaného třetího dílu, jenž testovala v kurzu na ÚJOP UK v roce 2016. 80

Obrázek 15 Gramatická tabulka v učebnici Česky, prosím II (Cvejnová, 2012)

6.3 Shrnutí

V této kapitole se věnujeme souvislostem mezi využíváním korpusu ve výuce a současným výzkumem osvojování druhého jazyka. Zaměřujeme se hlavně na tzv. hypotézu povšimnutí (Schmidt, 1993), která říká, že student by si měl budovat povědomí o formální stránce jazyka. Jedná se o explicitní učení, neboť není jisté, zda má dospělý člověk ještě přístup k nevědomé části univerzální gramatiky. Jevy, kterých si student všimne, si lépe pamatuje a používá je. Povšimnutí je také jednou z hlavních komponent komunikačního přístupu při konstruování pravidla (povšimnutí – utřídění – konsolidace). Tento postup koresponduje s fázemi při přímém využívání korpusů (identifikace – klasifikace – generalizace). S teorií povšimnutí úzce souvisí technika učení se objevováním (discovery learning), neboť student potřebuje dostatečnou dávku autonomie k tomu, aby si sám všímal a uvědomoval, jak funguje jazyk. Při objevování učitel spíše facilituje proces učení, popř. organizuje aktivity v případě více řízeného

81 objevování. Bernardini(ová) (2000) označuje řízené objevování jako šťastnou náhodu (serendipity), při které studenti sami náhodně vyhledávají v korpusu, vědí však, jakých jazykových rovin si mají všímat. Výzkumy osvojování druhého jazyka vyzdvihují důležitost povšimnutí při výuce jazyků. Kromě zapojení pozorovacích aktivit v učebnicích lze povšimnutí a objevování uplatňovat také při využívání korpusů ve výuce (metoda data-driven learning – DDL).

82

7 Přímé využití korpusů ve výuce

Pro přímé využívání korpusu ve výuce se využívá název data-driven learning (DDL) (Johns, 1991). O této metodě jsme již publikovali několik článků (Vališová, 2011, 2012a, 2012b, 2016a, 2016b; Vališová a Osolsobě, 2012), tato kapitola proto bude jejich rozšířením. Experimenty s data-driven metodou ve výuce češtiny jsme také prezentovali na konferencích českých i mezinárodních (20 let didaktiky cizích jazyků na Technické univerzitě v Liberci v roce 2010, Korpusová lingvistika Praha 2011 a Čeština – cílový jazyk a korpusy opět v Liberci v roce 2012, 9th Teaching and Language Corpora Conference (TaLC9) v Brně v roce 2010 a na 4th International Conference on Corpus Linguistics (CILC2012) v Jaénu ve Španělsku v roce 2012, typologii cvičení na základě korpusu na VIII. mezinárodním sympoziu o češtině jako cizím jazyku na filozofické fakultě v Praze 2016).

7.1 Metoda Data-driven Learning (DDL)

Podobně jako při corpus-driven výzkumu jsou i zde jazyková data hlavním zdrojem informací a jsou na prvním místě. Student při těchto cvičeních sám pozoruje data a vyhledává opakující se vzorce užití či pravidla. Jako první začal s korpusovými aktivitami přímo ve výuce Tim Johns v 80. letech ve svých lekcích angličtiny pro zahraniční studenty na univerzitě v Birminghamu. Jeho cílem je, aby se student choval podobně jako korpusový lingvista, tzn., aby dělal vlastní jazykový výzkum, a proto ho nazývá také objevitelem či jazykovým detektivem (Römer(ová) (2008, s. 118). „Každý student bude Sherlockem Holmesem!“77 (Johns, 2002, s. 108) je známé motto DDL. Tato metoda je tedy procesem, ve kterém se zvyšuje studentova autonomie (O´Keeffe(ová), 2007). Učitel se z odborné autority přesouvá do role zprostředkovatele, který usnadňuje studentovi cestu k induktivnímu procesu, při němž si on sám buduje povědomí o lexiku a gramatice (Johns, 1994).

77 “Every student a Sherlock Holmes!“ 83

Podstatou DDL je možnost zobrazení klíčového slova v kontextu (KWIC), což vyžaduje vertikální čtení (obr. 16). Vyhledané slovo se nachází uprostřed konkordančních řádků, tj. všech vět, ve kterých se slovo v korpusu vyskytlo, a je možné zkoumat levý a pravý kontext slova (Johns, 1991; Boulton, 2009c, 2009d). Pokud se student soustředí pouze na nejbližší kontext slova, může odhalit tzv. vzorce (patterns) v užití slova, např. nejčastější předložku, pád, se kterým se pojí sloveso, nebo typické slovní spojení či frázi. Vzhledem k tomu, že jazykové korpusy shromažďují obrovské množství dat (např. 100 mil slov), lze odhalit nejčastější použití slova v textu nebo řeči. Gabrielatos (2005) poukazuje na to, že takový způsob uvědomování si struktury (awareness-raising) nemusí být nutně spojován s korpusovými daty, ale dá se využívat i při čtení krátkého textu. V procesu čtení studenti také odhadují významy slova podle kontextu a všímají si struktur, které jsou pro ně nové. Ukazuje však na příkladech (ibid.), že výhodou korpusu oproti textu je fakt, že obsahuje velké množství různých vzorců užití a struktur. Pokud bychom toho samého chtěli dosáhnout v textu, musel by to být uměle vytvořený text s didaktickým účelem a zákonitě by potom zněl nepřirozeně.

Obrázek 16 Klíčové slovo v kontextu (Key Word In Context – KWIC)

Ve svém dnes již klasickém a hojně citovaném článku Johns (1991, s. 2–3) shrnuje základní charakteristiky DDL: 1. induktivní přístup k výuce, 2. role učitele a studenta a 3. role gramatiky ve výuce. Induktivním přístupem rozumí postup, který vede od pozorování korpusových dat přes objevení pravidelností, které lze zobecnit k formulaci gramatických pravidel nebo odhalení lexikálních vzorců: „Identify – Classify – Generalize“ (ibid., s. 4). Student pozoruje korpusová data a na základě kontextu odhalí, jak se slovo používá v běžném úzu, popř. čím se liší od jiného slova. Učitel mu neříká předem, co má najít, ale diskutuje s ním o zjištěních opřených o 84 korpus. Tento obrat od deduktivní výuky směrem k induktivní zahrnuje celou řadu změn týkajících se role studenta a učitele. Deduktivní přístup je typický pro gramaticko- překladovou metodu, ve smyslu představení pravidla a následného procvičování. V induktivní výuce už učitel není odborník, ale organizátor a partner studenta. Student se naopak neučí o jazyce, ale učí se, jak se učit, a to díky cvičením, která vyžadují pozorování a interpretaci konkrétního užití jazyka (Bernardini, 2009). Učitel je při těchto aktivitách klíčový (Bernardini, 2001; Boulton 2009d; Vališová a Osolsobě, 2012), neboť studenta navádí, radí mu, jak se má vyznat ve velkém množství dat a jak je má třídit.

Posledním zmíněným bodem je role gramatiky ve výuce. Autoři gramatik jsou často odkázáni na svou vlastní intuici (Tognini-Bonelli, 2001; Vališová a Osolsobě, 2012, s. 191), zatímco korpusová data prezentují důkazy, jak dokládají výzkumy korpusových lingvistů. Johns (1991) na příkladu rozdílu slov convince a persuade demonstruje, že generalizace studentů byla dokonce lepší než učitele. U příkladu modálního slovesa should objevil spolu se studenty mnohem více významů, než se v učebnicích nebo mluvnicích běžně uvádí. Podstatný je také fakt, že korpusová data ukazují jazyk takový, jaký je: nějaké užití je typické nebo frekventované a někde je pouhá tendence. Relativizuje se tedy striktní rozdělení na pravidla a výjimky (Boulton, 2009c). Také Hadley (2002, s. 107) tvrdí, že při DDL aktivitách studenti vidí gramatiku jako flexibilní systém, jehož součásti jsou opakující se vzorce, které jsou vzájemně propojené, ne jako pouhou sestavu pravidel. Podstatné je též propojení gramatiky s lexikem. Podle Tognini-Bonelli(ové) (2001, s. 19) se v příslušném užití jazyka realizuje lexikální vzorec, gramatická struktura a pragmatický záměr, neboť význam slova je spojený s jeho kontextem (tzv. rozšířené jednotky významu – extended units of meaning).

DDL aktivity dělíme na „tvrdé“ (hard DDL nebo také hands-on), tj. způsob, kdy mají studenti přístup k počítačům a využívají korpusových nástrojů, a „měkké“ (soft DDL nebo hands-off) (Gabrielatos, 2005; Huston, 2010; Römer(ová), 2008), kdy studenti pracují s korpusovými daty na handoutu, který učitel na výuku vytiskne. Mohou to být surové neupravované konkordance, stejně jako vybrané nebo nějak upravené konkordance. Vytištěním konkordancí a spojením korpusových aktivit tematicky se sylabem kurzu je možné vyhnout se technickým obtížím a zároveň

85 motivovat studenty, kteří vidí praktický cíl práce s korpusem – obohacování vlastní slovní zásoby o reálný jazykový úzus.

7.1.1 Kritické hodnocení DDL Od dob Tima Johnse mnoho korpusových lingvistů / učitelů přijalo DDL nadšeně, ale zároveň kriticky. Především poukazují na nedostatky ve dvou oblastech, a to 1) limity z hlediska korpusové lingvistiky a 2) limity z hlediska metody.

V rámci první oblasti se nejvíce hovoří o dekontextualizaci textů v korpusu (Flowerdew, 2009, s. 402–403; Gabrielatos, 2005). Korpusová data, jakkoli rozsáhlá, jsou totiž pouhým vzorkem jazyka a nikdy nemohou zachytit jazyk v celé jeho šíři, stejně jako jsou konkordanční řádky odtrženy od žánru a komunikačního sdělení původního textu. Gabrielatos (ibid.)dokonce mluví o uctívání korpusu a varuje před přílišným spoléháním se na korpusová data. Podobně jako jazyková intuice rodilého mluvčího, ani korpusové důkazy nejsou jediným spásným řešením.

Přímé využití korpusu ve výuce také velmi závisí na vývoji korpusových nástrojů. V současnosti se objevuje stále více vyhledávačů, které jsou on-line, bez registrace a uživatelsky přátelské, což usnadňuje přístup ke korpusovým datům jak učitelům, tak studentům. Přesto však využívání korpusů není denním chlebem učitelů jazyků. Důvody jsou nejen technického rázu, např. nedostatek počítačů, připojení k internetu, ale souvisí i s nedostatečnou znalostí učitelů, jak pracovat s korpusem a k čemu může být užitečný. Neméně závažné je taky to, že učitelé mají málo času na vytváření vlastních materiálů a často jsou svázáni se sylabem kurzu, kde není možné přidávat nic navíc, nebo na to není dostatek prostoru. Vytváření DDL aktivit i jejich průběh spotřebovává mnoho času a navíc v některých kurzech není zaměření na formu žádoucí ani populární (Meunier, 2002, s. 137).

Co se týče metody, bývá zdůrazňováno, že DDL se nehodí pro všechny studenty (Gabrielatos, 2005; Römer(ová), 2008; Boulton, 2009a). Některým totiž nemusí induktivní přístup vyhovovat. Záleží tedy nejen na jejich jazykové pokročilosti, ale i učebním stylu. Sám Johns píše, že DDL aktivity se hodí pouze pro „studenty tak inteligentní, vzdělané a velmi motivované, jako jsou ti naši na Univerzitě v Birminghamu“78 (1991, s. 12). DDL totiž vyžaduje kreativní a otevřený přístup studentů. Leech odlišuje tzv. divergentní učení, kam patří i DDL, ve kterém mají

78 .“students as intellingent, sophisticated, and well-motivated as ours at Birmingahm University“ 86 studenti stejná data a stejné otázky, ale mohou dojít k rozdílným závěrům, na rozdíl od tzv. učení konvergentního, při kterém existuje pouze jedna správná odpověď (Johns tyto dva způsoby nazývá procesem a produktem). Je tedy vždy nutné posuzovat vhodnost použití DDL individuálně.

Pokud jde o učební styl a motivaci studentů, Bernardiniová (2004, s. 23) poukazuje na to, že Johns a další propagátoři DDL usuzují, že studenta a učitele pojí stejný zájem – dělat jazykový výzkum a učit se svými objevy (tzv. discovery learning, viz kap. 6.1). Bernardini(ová) proto nazývá studenta objevitelem nebo cestovatelem, protože studentovi je zde dána velká svoboda a atmosféra třídy nebývá autoritářská (2004, s. 28). Zaměření na studenta je sice podstatou komunikačního přístupu i současné jazykové politiky EU, z tohoto důvodu bychom však neměli zapomínat na různé styly učení, které mohou studentům vyhovovat. Boulton (2009a) udělal dotazník mezi studenty týkající se stylu učení a DDL aktivity zde byly označeny jako spíše vizuální než verbální a vyžadující dobrou paměť a týmovou práci spíše než abstrakci a kreativitu. Podobné výzkumy by mohly velmi pomoci v adaptaci DDL aktivit na různé styly učení nebo různá kulturní prostředí, protože záměrem korpusových aktivit není nutit studenty do něčeho, co jim není vlastní, ale obohacovat jejich slovní zásobu a povědomí o gramatice prostřednictvím reálného jazyka z korpusových dokladů – stále je tedy podstatné mít na paměti, že korpus je jenom prostředkem, pouhým informátorem o jazyce.

Důležitou otázkou je, zda je možné tuto metodu použít též pro nižší pokročilosti, neboť většinou se argumentuje tím, že práce s korpusem je vhodná pouze pro vysoce pokročilé studenty (Johns, 1991). Důvody jsou jasné, začátečníci mají ještě malou slovní zásobu a v korpusu se vyskytuje velké množství málo frekventované nebo substandardní slovní zásoby. Objevují se však i studie, které dokazují, že práce s korpusem (i přímá) může být velmi užitečná a přiměřeně obtížná i pro nižší pokročilosti (Boulton, 2009d; Vališová a Osolsobě, 2012). Boulton (2009d) zdůrazňuje, že pro začátečníky je DDL naopak vhodná, neboť celým konkordancím nerozumí, a proto pozorují pouze nejbližší kontext klíčového slova.

Jak tedy vyřešit zmíněné překážky? Technický problém odstraní aktivity využívající korpusová data, která učitel vytiskne na handoutu, popř. je ještě předem upraví. Povědomí učitelů o možnostech korpusu lze změnit pouze organizováním

87 workshopů nebo proměnou sylabu učitelských oborů. Korpusová lingvistika je totiž často na univerzitách jen výběrovým předmětem, a proto se mu studenti mohou lehce vyhnout. Na základě různých dotazníků bylo několika výzkumníky (Boulton, 2009c; Römer, 2009) zjištěno, že většina učitelů jazyků korpus nepoužívá, nebo jej dokonce ani nezná. Strach z techniky, ať již u studentů či učitelů, by mohlo pomoci změnit přátelštější uživatelské rozhraní i jednodušší obsluha korpusových vyhledávačů. Je proto užitečná spolupráce učitelů s korpusovými lingvisty a vývojáři korpusových nástrojů. Na základě této spolupráce vznikla např. zjednodušená verze nástroje Sketch Engine: SKELL (Sketch Engine for Language Learning)79, která má pouze základní funkce a může ji používat kdokoli na internetu.

7.1.2 DDL ve výuce angličtiny Za posledních dvacet let se sice DDL nestala běžnou součástí výuky, ale mnoho korpusových lingvistů dělalo experimenty se svými studenty a došli k závěrům, že práce s korpusem může obohatit výuku, studenty baví a má potenciál do budoucna. Každé dva roky se také koná mezinárodní konference zaměřená na využití korpusu ve výuce – Teaching and Language Corpora (TaLC)80. Problémem však je, že většina experimentů se nachází v univerzitním prostředí, kde učitelé nejsou tolik svázáni sylabem, a experimentátoři jsou zároveň korpusoví výzkumníci. Proto by bylo užitečné zaměřit se na úkoly, které např. vychází z témat učebnice a rozšiřují uvedenou slovní zásobu, jak uvádí Frankenberg-Garcia(ová) (2012). Také je podstatné upravit korpusová cvičení podle místního kulturního kontextu, neboť v některých kulturách je učitel autorita, jež stojí hierarchicky výše než studenti a nemá dovoleno nevědět (Boulton, 2009c). Nemůžeme tedy chtít úplnou změnu postojů.

Kromě článků Tima Johnse (1991, 1994, 1997, 2002) a učebnice Tribble a Jonese (1991), kterým se budeme věnovat podrobněji v kapitole 7.2, uvedeme některé zajímavé studie, které byly provedeny v oblasti výuky angličtiny. Boulton se soustavně věnuje DDL ve výuce a publikoval mnoho zajímavých výsledků svých experimentů. Např. v roce 2009 (Boulton, 2009d) zjistil, že méně pokročilí studenti měli vyšší výsledky v DDL aktivitách než více pokročilí nebo že v přímých aktivitách studenti

79 https://www.sketchengine.co.uk/skell/ 80 První ročník a se konal roku 1994 v anglickém Lancasteru a zatím poslední v roce 2016 v německém Giessenu. 88 odpovídali lépe než v nepřímých (2012). Frankenberg-García(ová) se věnuje převážně školením učitelů a v roce 2012 prezentovala podnětné příklady DDL aktivit, které navazují na obsah učebnice a procvičují jak gramatiku, tak slovní zásobu. Uvedla konkrétní příklady aktivit, jež byly doplňkem při výuce všech základních řečových dovedností. Braun(ová) (2005) se zabývá tím, jak využít speciální pedagogický korpus ve výuce a také, jak zapojit DDL do výuky na středních školách (2007). Granath(ová) (2004) se věnuje výuce syntaxe angličtiny a Bernardini(ová) (2004) výuce překladu. Studia zaměřující se na výuku angličtiny se většinou týkají kolokací a výuky lexika, proto nás zaujaly i studie Hadleyho (2002) aEstling(ové) Vannestål(ové) a Lindquista (2007) zaměřené na výuku anglické gramatiky. Téměř všechny studie se také věnují výuce na vysoké škole, z tohoto důvodu vnímáme jako velmi podnětnou studii zaměřenou na přímou práci s korpusem u předškolních dětí (Thompson a Sealey, 2007), kteří experimentovali s výukou slovních druhů (word class) pomocí BNC, a to tak, že jednotlivé slovní druhy byly označeny různými barvami. Děti tak nemuseli znát žádnou terminologii, a přesto se učili něco nového o jazyce. A nakonec je nutné zmínit projekt londýnské univerzity Englicious81, v rámci kterého byla vytvořena webová stránka zaměřená na výuku anglické gramatiky na britských středních školách. Tento portál využívá jak národních, tak i vlastních specializovaných korpusů, a zde zahrnuté aktivity jsou vhodné i pro interaktivní tabule nebo tablety.

Z českého prostředí zmiňme Thomase (např. 2006), který se DDL aktivitám ve výuce angličtiny na Masarykově univerzitě v Brně věnuje již řadu let (v roce 2010 v Brně zorganizoval 9. konferenci TaLC). V roce 2015 vydal publikaci Discovering English with Sketch Engine, která zahrnuje manuál práce s tímto nástrojem a zároveň typické otázky, na které můžeme v korpusu hledat odpověď. Tato cvičebnice je zaměřená na konkrétní nástroj, ukazuje však celou šíři aktivit, včetně budování vlastního korpusu. Podobné publikace existují pro češtinu, např. příručka Jak využívat Český národní korpus nebo cvičebnice Kláry Osolsobě (2014) určená pro výuku české morfologie na korpusových datech, jedná se však o výuku rodilých mluvčích. Ze studií zaměřených na češtinu jako cizí jazyk uvádíme informativní úvod kolektivu ÚČNK (2005), studie Vališové (2011, 2012a, 2012b) a Vališové a Osolsobě (2012). Podrobněji se jimi budeme zabývat v kapitole 7.3.

81 Stránku http://englicious.org/ buduje tým z University College London. 89

7.1.3 DDL a specializované korpusy Doposud jsme mluvili o přímém využití obecných korpusů ve výuce. Reprezentativní korpusy nabízí příklady typického užití slov, specializované korpusy však mohou být výhodou při výuce jazyka se specifickými účely (např. k výuce terminologie pro určitý obor). Mezi specializované korpusy patří korpusy zaměřené na konkrétní typy textů nebo žánr, např. korpus publicistických textů (pro češtinu řada synchronních korpusů PUB), ale také korpusy žákovské nebo korpusy vzniklé přímo s pedagogickým účelem (podrobněji o specializovaných korpusech relevantních pro jazykovou výuku viz kapitola 4). Řadili bychom sem i korpusy paralelní, kde lze hledat výstižné ekvivalenty jednotek v mateřském jazyce.

Specializované korpusy jsou užitečné při učení jazykových výrazů typických pro příslušnou oblast zájmu (Römer, 2008, s. 120). Lze je využít i v rámci výuky obecného jazyka, např. mluvené korpusy pro výuku konverzace (ibid., s. 121). Jako ideální se jeví využít malé specializované korpusy z textů cílového oboru, který např. student navštěvuje, aby si uvědomil typické struktury a zlepšil se ve čtení i psaní v cizím jazyce.

Paralelní korpusy mohou nejen sloužit ke školení budoucích překladatelů (Hunston(ová), 2002; Römer(ová), 2008), ale lze je využít i při výuce studentů cizího jazyka s různými mateřskými jazyky. Hledání v korpusu je podobný proces jako osobní konzultace s rodilým mluvčím (Johns, 2002). Pokud mluvíme o slově v kontextu a významu lexikální jednotky, je velice důležité vidět paralelní konkordance, mezi nimižstudent nachází možné ekvivalenty hledaného výrazu ve své mateřštině. Uvědomuje si, jak se příslušný jazykový výraz zapojuje do kontextu a které kontexty jsou časté, vidí, že jazyky jsou živé, fungují různě a často neexistují ekvivalenty typu „slovo za slovo“ (ibid., s. 114). Johns (ibid.) také popisuje svoje experimenty s recipročními aktivitami, ve kterých vzájemně spolupracovali studenti jako v tandemu, tj. mluvčí jazyka A se učí jazyk B a mluvčí jazyka B se učí jazyk A, v tomto případě konkrétně francouzští studenti studující angličtinu a britští studenti studující francouzštinu. Handouty zahrnovaly aktivity, které byly vytvořeny tak, že některé byly těžší pro anglickou stranu a některé pro tu francouzskou, studenti si tak museli pomáhat a jejich zpětná vazba byla celkově pozitivní. Instrukce zněly např. Kolik různých překladů lze najít v těchto citacích? nebo Porovnejte tyto citace. Co toto srovnání říká? Otázky byly tedy opět otevřené s příležitostí objevit nové aspekty obou jazyků.

90

Paralelní korpusy je však možné využít také v klasické třídě, kde jsou všichni studenti stejného mateřského jazyka.82

Využívání žákovských korpusů (ŽK) ve výuce je poněkud kontroverzní téma. Mají studenti kromě dobrých příkladů poznat také ty špatné? Podle Johnse (2002) je i špatný příklad prospěšný, neboť na konkordancích lze demonstrovat časté chyby rodilých mluvčích daného mateřského jazyka. Granger(ová) (ibid.) poukazuje na to, že přímé aktivity s ŽK jsou teprve v začátcích a je potřeba je více testovat. Existuje pouze několik pokusů se zapojením žákovských korpusů do výuky (Granger(ová) a Tribble, 1998; Nesselhauf(ová), 2004, s. 139; Šebesta a Škodová, 2012, s. 131). Všechny dosavadní experimenty využívají vedle sebe autentická a studentská data, tj. obecný a žákovský korpus. Podle Meunier(ové) (ibid., s. 134) je velice užitečné, pokud studenti vidí vedle sebe svůj mezijazyk a cílový jazyk, uvědomí si tak mezeru mezi svojí produkcí a autentickým jazykem (tzv. noticing the gap). Podstatné je, aby měli přístup nejen k vlastním chybám nebo nepřesnostem, ale také k tomu, co je správné a vhodné. Objevování těchto mezer může být pro studenty velmi motivující a ve třídě tak přirozeně vzniká prostředí, v němž se rodí aktivity, které zahrnují interakci a řešení problému. Při těchto aktivitách student sám objevuje a vysvětluje chybu namísto toho, aby mu bylo poněkolikáté řečeno, co dělá špatně. Tak se vytváří příležitost pro metajazykovou reflexi, která pomáhá při osvojení jazyka (Seidlhofer(ová), 2002). Z dosavadních experimentů je ovšem zřejmé, že budou úspěšnější u vysoce pokročilých, neboť DDL aktivity mohou způsobit frustraci, když si student uvědomí veškerou složitost fungování živého jazyka a následkem tohoto poznání ztrácí sebevědomí a přestává komunikovat. Studenti by již tedy měli mít pevné jazykové základy (Meunier, 2002, s. 135).

Při využívání žákovských korpusů ve výuce je velmi podstatné: 1. aby si studenti byli vědomi, že se jedná o negativní příklady, 2. aby současně s negativním „inputem“ byl dodán i ten pozitivní v podobě dat rodilých mluvčích a 3. aby na toto cvičení navazovaly aktivity, které budou procvičovat správné struktury. Jinak totiž hrozí, že si studenti místo vhodných příkladů zapamatují chyby (Nesselhauf(ová), 2002, s. 140). Existují klasické otevřené DDL aktivity, kde studenti dostanou konkordance ze žákovského i obecného korpusu a mají sami přijít na rozdíly, přičemž mohou za tímto

82 Vzhledem k tomu, že čeština je malý jazyk, nastává tato situace zřídka. Svoje opodstatnění by to mělo především pro výuku v zahraničí, kde budou homogenní třídy a potřeba autentického inputu. 91

účelem obdržet návodné otázky. Druhou možností je dodat studentům nejdříve data z korpusu rodilých mluvčích a až poté z žákovských korpusů, obzvláště v případě, kdy je správná struktura studentům známá, ale nejsou si vědomi své chybné produkce (typickým příkladem je tzv. podužívání jevu). Učitel by si měl být vědom toho, že je nutné vybrat konkordanční řádky tak, aby byly vidět rozdíly, popř. řádky upravit na celé věty, pokud studenti nejsou zvyklí pracovat s konkordancemi. Tato příprava tedy klade na učitele vysoké nároky (Nesselhauf(ová), 2002).

Granger(ová) (2002, s. 26) navrhuje využít data z žákovských korpusů hlavně se zaměřením na formu. Může být užitečné, pokud studenti vidí vedle sebe např. frekvenci nějakého slova v ŽK a obecném korpusu nebo konkordance se slovy podobného významu. Studenti si tak uvědomí své nadužívání či podužívání daného slova, např. frekvence užívaní členů nebo obecných slov oproti specifickým podobného významu (important vs. critical, crucial, major, serious apod.) (Nesselfaulf(ová), 2002, s. 142). Nesselhauf(ová) (ibid.) kromě výběru slovní zásoby považuje za nejvhodnější všímat si slovních spojení, např. prepozic, kontextů slovesa či spojení adjektiva se substantivem. Chybové značkování, které je primárně určeno odborníkům, viz kap. 4.1, může ovšem vyhledávání gramatických jevů v žákovském korpusu žákům spíše znesnadnit, a je tudíž pro práci ve třídě méně vhodné.

Chceme-li pracovat ve třídě s žákovskými korpusy metodou DDL, můžeme uvažovat o dvou typech žákovských dat. Zaprvé to jsou již existující žákovské korpusy, popř. subkorpusy, které mohou být specializované jak tematicky, tak i na mluvčí konkrétního mateřského jazyka nebo na jazykovou úroveň. Druhá možnost je vytvoření vlastního korpusu přímo z textů studentů ve třídě. Ti pak mohou pozorovat vlastní chyby (anonymizace chyb může být ku prospěchu). Takový korpus bude více vyhovovat konkrétním potřebám studentů (ibid., Seidlhofer(ová), 2002). Seidlhofer(ová) dala studentům za úkol napsat resumé stejného článku, vytvořila anonymní korpus a díky nástroji Wordsmith Tools extrahovala klíčová slova, která pak studenti pozorovali v kontextu. Výhodu vidí ve využití „domácího“ korpusu, který nabízí lepší doklady, nežli dekontextualizované příklady z neznámých textů v obecných korpusech. Studenti jsou tudíž lépe motivováni.83

83 Jsme si vědomi potenciálu specializovaných korpusů z textů studentů jedné třídy nebo studentů zaměřených na určitý obor nebo cíl. Např. v Centru pro integraci cizinců v Praze od roku 2014 vyučuji Přípravný kurz češtiny ke zkoušce B1 k udělení občanství, kde se studenti učí psát specifické útvary 92

7.2 DDL a typy cvičení

Základní premisa zakladatele této metody Tima Johnse zní: „Výzkum je příliš závažný na to, aby byl ponechán na výzkumnících“84 (Johns, 1991). To znamená, že student jazyka vlastně taky dělá jazykový výzkum, stejně jako lingvisté – objevuje pravidla a vzorce jazykového užití. Johns navrhuje, aby studenti byli vedeni k objevům, podobně jako když lingvisté zjišťují o svém mateřském jazyce fakta, kterých si předtím nevšimli.

Tzv. tvrdá varianta Data-driven learning se orientuje na interakci studentů s korpusem. Leech (1997, s. 10–11) poukazuje na 4 výhody počítače: 1. automatické a rychlé vyhledávání a třídění, 2. zvýšená motivace studentů při těchto aktivitách, 3. otevřený přístup k datům, 4. adaptace programu podle studentových potřeb. Jak již bylo zmíněno výše, raději než striktní rozdělení na tvrdé a měkké aktivity, bychom viděli jakousi škálu, neboť i na papíře lze pracovat se surovými korpusovými daty, pouze jich máme omezené množství. Škálu aktivit od tvrdých přes měkké až po nepřímé využití korpusů vidíme takto: surová data na počítači, surová data na papíře (konkordance), vybrané konkordance na papíře, konkordance upravené na celé věty, věty z korpusu upraveny do klasického cvičení (poslední varianta bude spíše corpus-based). Jako tvrdé aktivity bychom tedy nazvali ty, které využívají surová korpusová data, jež jsou náhodným vzorkem. Rozhodující však není, zda jsou tato data zpracovávána na počítači či na papíře.

7.2.1 DDL instrukce Podstatná je také učitelova otázka. Johns (1994) zdůrazňuje, že instrukce by měla být otevřená. Učitel by se měl na chvíli zbavit své role experta a měl by být spíše pasivní, protože potom je zde vždy možnost, že studenti objeví něco, čeho si učitel nevšiml nebo co by nečekal. Podobně by měl postupovat při výběru dat, která by dle Johnse měla být vždy náhodným vzorkem (1994, s. 298), a to i přesto, že vybíráme např. pouze 5 konkordančních řádků. Pokud bychom pouze vybrali příklady podle

přímo podle požadavků zkoušky. Společné vysvětlení častých chyb v psaní je pro ně vždy podnětné a motivující, proto jsem se rozhodla od roku 2015 sbírat jejich texty a využít je pro tvorbu aktivit zaměřených speciálně na tuto cílovou skupinu – většinou se jedná o studenty, kteří nechodili do kurzů, umí mluvit, ale psaní jim dělá velké problem (lze také vytvořit malý specializovaný korpus). 84“Research is too serious to be left to the researchers.“ 93 klasických kritérií v učebnicích nebo gramatikách, korpusová data by nám nemohla nic nového nabídnout.

Jako téma DDL aktivit, které je nejvíce efektivní, vidí Johns (2002, s. 109) takové, jež propojuje lexikum s gramatikou, např. použití předložek. Podle Tomase se DDL aktivity nejvíce hodí pro vyhledávání 1. nejčastějších kolokací a v souvislosti s tím lexikální prózodie, 2. polysémie (hledání a porozumění různým významům slova podle kontextu), 3. koligací, tj, gramatického kontextu, např. spojení slovesa s přeložkou a 4. kombinací předešlých témat. Hunston(ová) (2002, s. 172) navrhuje práci se surovými daty pouze pro vysoce pokročilé a ukazuje dva typy příkladů: 1. učitel nesouhlasí s použitím slova a studenti hledají v korpusu jeho kontexty a navrhují, v jakém kontextu klíčové slovo nejlépe v dané větě použít, 2. studenti kontrolují pravidla prezentovaná v učebnici a vyhledáváním a pozorováním kontextu zjišťují, zda je pravidlo platné (např. v učebnici se vyskytovalo slovní spojení there is any a there is no jako synonymní, zatímco korpus ukázal, že there is any se vyskytuje často na konci věty jako reference k předešlému a there is no je často následováno abstraktními slovy). Hunston však varuje, že surová data studentovi nepodají informaci o tom, co je akceptováno jako standard, proto je asistence učitele nutná (ibid.). Revizi gramatických pravidel v učebnicích a mluvnicích navrhuje také Gabrielatos jako typickou aktivitu (2005).

V následujících kapitolách představíme aktivity Tima Johnse, učebnici Corcondancess in the Classrooom a aktivity Frankenberg-García(ové). V závěru (kap. 7.4) uvedeme typy DDL cvičení spolu s českými ukázkami.

7.2.2 Tim Johns: Data-driven learning Na konci osmdesátých let začal Tim Johns využívat ve výuce angličtiny přístup, který později popsal a označil jako Data-driven Learning (DDL) (Johns, 1991). V rámci tohoto přístupu se mění role učitele na informátora, který pouze poskytuje studentovi přístup k jazykovým datům (performance), ne pravidla ani generalizace. Na ty přichází student sám v závislosti na pozorování dat a pravidelností nebo vzorců (patterns), které najde. V DDL hraje důležitou roli vyhledávač (concordancer), který dokáže zobrazit hledané klíčové slovo uprostřed s pravým a levým kontextem (formát KWIC). Díky tomu lze snadno objevit častá slovní spojení (kolokace), opakující se vzorce (patterns)

94 a další pravidelnosti, jež je pak možné zobecnit. Podstatný je tedy ten fakt, že data hrají hlavní roli. Učitel hraje roli vedlejší, pouze pomáhá studentovi při výzkumu. Stejně tak hrají vedlejší roli i gramatiky, které vznikaly na základě jazykové intuice autorů. Johns (1991) poukazuje na to, že mnoho jevů, např. v anglické syntaxi, je v tradičních deskriptivních a pedagogických gramatikách opomíjeno. DDL však staví studenta do centra výuky a jeho schopnost abstrakce se stává významnou složkou v průběhu jazykové výuky.

Johns (1991) ukazuje na následujících příkladech, jak mohou výsledky práce studentů s korpusem obohatit pravidla z pedagogických gramatik.

1. Rozdíl mezi dvěma slovy (význam a kontext)

Prvním typem aktivity je vysvětlení významu slova. Základní otázka zní: Jak se od sebe liší slova convince a persuade? Studenti našli rozdíl rychle: 10 z 11 případů ukazovalo, že po convince následuje vedlejší věta, ale z 18 výskytů slova persuade bylo 14 následováno infinitivem a 4 vedlejší větou. Z toho vyplývá, že pokud jeden kontext převažuje, nemusí být ten druhý nemožný. V pedagogických gramatikách je uváděno, že persuade je nejčastěji spojováno s infinitivem. Studenti díky příkladům zjistili, že infinitiv odkazuje k aktivitě, zatímco vedlejší věta k obecné pravdě.

2. Varianty jednoho slova (význam a kontext)

V této aktivitě je výzkumná otázka: Jak se používá slovo should v angličtině? Není to „surové“ DDL (raw data), neboť Johns již předem vybral konkordance a roztřídil je na 6 kategorií. Studenti mají za úkol pozorováním zjistit, jak se od sebe kategorie liší a co vyjadřují. Kategorie zahrnují nejen povinnost, ale i radu, možnost, podmínku, důsledek a domněnku.

V článcích z roku 1994 a 2002 Johns popisuje, jakými různými způsoby upravit korpusová data na handoutu. Tyto handouty vytvářel na Birminghamské univerzitě pro otevřené lekce angličtiny, které se vždy soustředí na jedno téma, ať již lexikální nebo gramatické.85

85 Tyto lekce nazvané Open Lunchtime English jsem navštěvovala v roce 2011 v rámci své stáže na Univerzitě v Birminghamu a korpusová data na handoutech tam někteří učitelé využívají dodnes velmi často (především typ s pěti konkordantními řádky a doplňováním klíčového slova). Johnsův vliv je tam tedy stále vidět. 95

3. Výběr konkordancí Surová data poskytují tzv. otevřené úkoly, zatímco při výběru konkordancí již učitel studenty více vede. Na obr. 17 vidíme dvě skupiny konkordancí po 8 řádcích, kde studenti mají za úkol nejdříve zjistit, co mají první citace společného (podobný význam sloves v levém kontextu, pravý kontext těch prvních obsahuje should), poté, jak se odlišují od citací v druhém sloupci (should neobsahují). Závěr je takový, že u sloves v druhém sloupcije možné should vypustit, protože jeho význam je již zahrnut v přítomném slovese nebo substantivu. Nakonec se mohou studenti vzdálit od jazykových dat a tvořit svoje vlastní věty.

Obrázek 17 Tim Johns – DDL cvičení (výběr konkordancí)

4. Doplňte klíčové slovo Toto cvičení patří mezi typickou měkkou DDL aktivitu na handoutu a dodnes se využívá v otevřených lekcích pro zahraniční studenty na Univerzitě v Birminghamu. Jedná se o výběr 5 konkordancí pro každé klíčové slovo a na handoutu je tedy soubor několika krátkých kontextů po pěti řádcích a slova, která mají studenti do konkordancí přiřazovat (obr. 18). Johns uvádí (2002, s. 110), že se jedná o řádky vybrané tak, aby reprezentovaly rozložení v surových datech, ne dle učebnicových pravidel.

96

Obrázek 18 Tim Johns – DDL cvičení (doplňování)86

5. Konkordance jako osobní konzultace (Kibbitzers) Na základě osobních konzultací se studenty, kteří potřebovali zkontrolovat a vysvětlit ukázky svého akademického psaní, vytvářel Tim Johns handouty, tzv. kibbitzers87 (2002, s. 112). Tyto handouty vždy prezentovaly jednu větu nebo souvětí z původního textu a vedle navrhovanou změnu. Pod tím byla tato korekce vysvětlena díky přítomným konkordancím z obecného korpusu (obr. 19). Jedná se tedy o podobnou aktivitu jako při využívání žákovského korpusu – chyba ze studentského textu je konfrontována s autentickým jazykem. Johnsova cvičení se soustředila na: sémantickou preferenci, rozdíl dvou slov, výběr slovní zásoby (vysvětlení podle frekvence ve specializovaných korpusech), kolokace nebo konektory v textu.

86 Obrázek ukazuje pouze část cvičení. 87 Handouty jsou dostupné zde: http://lexically.net/TimJohns/ 97

Obrázek 19 Tim Johns – DDL cvičení (akademické psaní)

6. Tandemové učení Jak již bylo řečeno výše, Tim Johns vytvářel DDL aktivity na základě paralelního korpusu pro reciproční učení rodilých mluvčích společně s nerodilými, kteří si

98 navzájem pomáhali (obr. 20). Tato cvičení vždy ukazují vedle sebe překlady celých vět a dle Johnse (2002, s. 114) pomáhají vidět jazyky v kontrastu a uvědomit si, že fungují jinak. Na základě paralelních korpusů lze vytvářet i doplňovací cvičení, ve kterých student doplňuje slova do vět s pomocí překladu (obr. 21).

Obrázek 20 Tim Johns: DDL cvičení – otevřené (paralelní korpus)

Obrázek 21 Tim Johns: DDL cvičení – doplňování (paralelní korpus)

99

7.2.3 Tribble a Jones: Concordances in the classroom Učebnice Concordances in the Classroom vyšla v roce 1990 (Tribble a Jones), přesto již nabízí praktické příklady toho, co můžeme vyhledat v korpusu a také, jak můžeme konkordance využívat při jazykové výuce. V první části knihy se popisuje, jak vyhledávat v korpusu a číst kontext, jak vytvářet seznamy slov (wordlist). Ve čtvrté kapitole se sice popisují DDL cvičení, ale jde o hands-off aktivity, tzn. takové, kde učitel předem konkordanční řádky vybere, popř. vytřídí. Nejsou to tedy aktivity určené pro přímou práci studentů s korpusovým vyhledávačem. Zmiňuje také výhody korpusového přístupu ve výuce. Hlavní vlastností korpusových cvičení je jejich velká rozmanitost. Autoři zdůrazňují, že pokud bychom chtěli vytvořit stejné cvičení, ale s jiným korpusem, je možné, že dostaneme úplně jiný výsledek. Nebo budeme mít málo dat pro předchozí výsledek, ale přijdeme na něco jiného. Výhodami těchto aktivit jsou dvě základní věci: discovery learning a autentický jazyk. To, že se studenti setkávají s reálným jazykem, v nich vzbuzuje motivaci k učení. I tak však autoři doporučují před použitím cvičení s konkordancemi na papíře věnovat nějaký čas vysvětlení toho, co je to korpus, k čemu slouží a jak se využívá a popř. také studentům ukázat vyhledávání. Je totiž pravděpodobné, že KWIC formát studenty bude plést a nebudou mu rozumět, pokud se s ním dříve nesetkali.

Typy aktivit:

1. Hádání významu slova podle kontextu Tento druh aktivity pomáhá studentům naučit se odhadovat význam slova podle kontextu, což umožňuje číst texty s neznámou slovní zásobou a usnadňuje pochopení slov v textu. Problém může nastat v případě, kdy je kontext nedostačující. Doporučuje se nahradit klíčové slovo nesmyslným slovem a pak zkoušet, zda je možné podle kontextů slovo uhádnout. Vždy je nutné zkontrolovat kontext předem a ověřit, zda mu studenti dané jazykové úrovně budou rozumět. Kontext nemusí zahrnovat pouze kolokace, ale také součásti frází nebo metafor či gramatické jevy.

2. Gramatické jevy Jde o otázky týkající se např. valence sloves. Učebnice ukazuje cvičení na příkladech: spojení slovesa a předložky (interested in, depends on), rozdíl ve vazbě významově podobných sloves (said vs. told) Někdy se může stát, že konkordance nezobrazí

100 požadovaný nebo očekávaný gramatický jev, mohou se však objevit nečekané či překvapující informace.

3. Homonyma a synonyma Pokud vyhledáváme pouze kombinaci písmen bez dalších gramatických údajů, vyhledáme i homonyma. Studenti tedy mohou rozpoznat různé varianty jednoho slova (like) nebo podle kontextů odlišit dvě synonyma (above vs. over). Takovéto aktivity jsou vhodné spíše pro vysoce pokročilé studenty, neboť kontexty zahrnují málo frekventovanou slovní zásobu či idiomy. Na praktické ukázce je však poukázáno na to, že cvičení lze velmi jednoduše upravit pro nižší pokročilosti vymazáním konkordancí a ponecháním jen asi 5 až 6 řádků, ve kterých je viditelný typický kontext a věty jsou srozumitelné.

4. Skupinová práce Jak již bylo uvedeno výše, někdy je nutné vymazat množství konkordancí pro rychlejší a snadnější porozumění a orientaci. Bohužel tím ztrácíme velmi cenná autentická data o jazyce. Tuto situaci lze vyřešit skupinovou prací. Je možné konkordance rozdělit a každé skupině studentů dát jiné. Aktivita je ukázaná na slovesech want, see a look. Studenti mají za úkol nejdříve napsat seznam frázových sloves, podle kontextu napsat vysvětlení jejich významu a nakonec porovnat výsledky se slovníkem.

5. Doplňovací cvičení (gap-fill) Dosavadní ukázky pracovaly s klíčovým slovem. Při tomto cvičení se však klíčové slovo vymaže a student má za úkol je doplnit podle kontextu. Pokud cvičení využívá více slov, smícháme konkordance klíčových slov a student dosazuje slova do správných kontextů (ví, o která slova se jedná, pouze z nich vybírá).

6. Spojování (levého a pravého kontextu) Pokud odstraníme z konkordančních řádků pravý kontext a následně jej např. seřadíme podle abecedy (zamícháme jednotlivé řádky), mohou studenti spojovat levé a pravé kontexty klíčového slova.

101

7. Cvičení ze studentských textů V případě většího množství studentských prací můžeme vytvořit malý žákovský korpus, který pak lze využívat jako ukázku typických chyb. Studenti dostanou ve cvičení věty z žákovského korpusu a mají za úkol je přepsat za použití lepšího konektoru (vztažného zájmena).

7.2.4 Costas Gabrielatos – domácí úkol Gabrielatos (2005) prezentuje několi příkladů DDL aktivit zaměřených na lexikum, gramatiku a domácí úkol, který obsahuje více otázek, a proto na něj studenti budou mít doma více času. Cvičení doporučuje pro vysoce pokročilé.

1. Lexikum

Vzorky vět nebo texty z korpusu mohou pomoci studentům vytvořit si strategii čtení a naučit je odhadovat význam slov podle kontextu. Navrhuje cvičení s velkým počtem příkladů (20 vět), které nabízí množství různých kontextů. Studenti mají za úkol doplnit do všech kontextů jedno slovo a zamyslet se nad rozdílnými významy (obr. 22).

Obrázek 22 Costas Gabrielatos – DDL cvičení (lexikální)88

88 Obrázek ukazuje pouze část cvičení. 102

2. Gramatická pravidla

Podobně jako Hunston(ová) (2002) považuje Gabrielatos korpusové příklady za dobrou příležitost zrevidovat zjednodušená gramatická pravidla v učebnicích a uvědomit si, jak jazyk ve skutečnosti funguje. Příklady z korpusu jsou opět náhodně vybrány a je jich velké množství (20 vět), aby poskytovaly dostatek dat k prozkoumání (obr. 23).

Obrázek 23 Costas Gabrielatos – DDL cvičení (gramatické)89

3. Domácí úkol

Jako domácí úkol lze využít množství korpusových aktivit. Výhodou je to, že ušetřený čas, který by studenti jinak strávili nad konkordancemi lze věnovat zpětné vazbě a diskuzi. Obr. 24 ukazuje typické DDL cvičení (rozdíl ve významu dvou slov), které je možné obohatit dalšími otázkami, např.:Vidíte nějaké ustálené fráze? Porovnejte informace z korpusu se slovníkem.

89 Obrázek ukazuje pouze část cvičení. 103

Obrázek 24 Costas Gabrielatos – DDL cvičení (domácí úkol)90

7.2.5 Ana Frankenberg-García – Korpus jako doplněk učebnice Frankenberg-García(ová) (2012, s. 39) zdůrazňuje, že spíše než dělat ze studentů korpusové lingvisty a ukazovat vše, co učitel může dělat s korpusem, je důležité se ptát naopak: „What can a corpus do for a teacher?“ (ibid.). Navrhuje tedy změnu perspektivy. Na prvním místě učitel zjistí, jak vypadá třída, v níž vyučuje, a teprve poté hledá cestu efektivní práce s korpusem. Není také nutné učit se hned všechny funkce korpusových nástrojů a využívat počítačové učebny, stačí např. jeden počítač ve třídě, který bude všem k dispozici podobně jako jazykový slovník a začít s jednoduchým on- line vyhledáváním. Na příkladech ukazuje, jak korpus používat jako doplněk učebnice, a ne něco externího.

90 Obrázek ukazuje pouze část cvičení. 104

1. Neznámé slovo / fráze v učebnici

Studenti uvidí neznámé slovo v dialogu v učebnici. Jedná se o slovo aisle(česky ulička, chodba), které lze užít v různých kontextech a je možné, že v jiném jazyce bude mít více ekvivalentů. Frankenberg-García(ová) proto vyhledala klíčové slovo v korpusu, upravila konkordance tak, že příklady jsou celé věty (obr. 25), a otázky pro studenty zní: Udělejte seznam míst, kde může být aisle. Překládá se slovo aisle do portugalštiny vždy stejně?

Obrázek 25 Ana Frankenberg-García – DDL cvičení (neznámé slovo v učebnici)

V jiném cvičení ukazuje gramatický kontext. Ve stejném dialogu v učebnici studenti vidí slovní spojení it´s the first time. Frankenberg-García(ová) (ibid.) studentům prezentuje opět celé modelové věty z korpusu a ti mají za úkol najít slovesa, která tuto frázi následují a zjistit, co mají společného (všechna slovesa jsou v předpřítomném čase). V následujícím cvičení jsou podobné věty, ve kterých mají dát slovesa po frázi do předpřítomného času (obr. 26). V závěru se ptá, zda by v portugalštině použili stejný slovesný čas. Studenti si tak mohou sami všimnout vzorce užití, zobecnit pravidlo a zároveň je porovnat s mateřským jazykem.

105

Obrázek 26 Ana Frankenberg-García – DDL cvičení (fráze v učebnici)

2. Jazyková produkce – mluvení a psaní

Podobně jako při recepci, korpusová data mohou pomoci i při produkci, a to před, při i po aktivitě (ibid., s. 43). Kolokace mohou být součástí brainstormingu slovní zásoby pro jakékoli téma a využít je můžeme pro výuku konverzace i psaní, např. při konverzaci o dovolené přineseme studentům handout kolokacemi slova pláž (obr. 27). Během aktivity, např. psaní textu, lze využívat i paralelní korpusy pro vyhledání správného ekvivalentu, pokud monolingvní slovník nenabízí příklad pro kontext, který potřebujeme. Po aktivitě učitel vyhledal v paralelním korpusu slova, která studenti používali v nesprávném kontextu a tato aktivita studentům pomohla naučit se rozlišovat slova safety a security, která mají v portugalštině pouze jeden ekvivalent.

106

Obrázek 27 Ana Frankenberg-García – DDL cvičení (kolokace slova beach)

Frankenberg-García(ová) na těchto příkladech ukazuje, že ze studentů nemusíme dělat experty a v dnešní době rychlého vyhledávání je možné vytvořit handout šitý na míru přímo konkrétní třídě velice rychle. Tyto aktivity by však měly být prospěšné celé třídě a navazovat na učebnici. Vyhledávání přímo v korpusu dle ní více vyhovuje konkrétním otázkám jednotlivých studentů, kteří konzultují s korpusem místo se slovníkem nebo v případě, že se nemohou zeptat rodilého mluvčího.

7.3 DDL čeština jako cizí jazyk

Ačkoli se stále opakuje, že korpus ještě nenašel cestu do jazykových učeben a moje první experimenty s českým korpusem ve třídě narážely nejvíce na technické problémy, v současné době studenti využívají počítače a mobily pro výuku stále víc, a to dokonce i ve třídě. Nejčastěji jsou to on-line slovníky, Google Překladač nebo mobilní aplikace zaměřené na výuku jazyků a pokročilí studenti také Jazykovou příručku ÚČJ AV ČR. Využívání korpusu ve výuce již tedy není nic neobvyklého, technicky náročného a díky novým nástrojům ani pomalého. Stejně tak cvičení na handoutu, které vytváří sám učitel, může být hotové do několika minut.

O přímém využití korpusových dat ve výuce češtiny jako cizího jazyka jsme již publikovali několik článků. První z nich (Vališová a Osolsobě, 2012; Vališová, 2012a) se věnovali experimentům s korpusem ve výuce (tehdy ještě s nástrojem Bonito). V dalším článku jsme se soustředili na DDL aktivity „na papíře“ (Vališová, 2011) a shrnutí možností se současnými nástroji (Vališová, 2012b). V následujících kapitolách

107 shrneme tyto experimenty s DDL aktivitami ve třídě, přičemž pro jednotlivé úkoly ukážeme, jak lze pracovat s novými korpusovými nástroji (KonText, SyD a Sketch Engine a její on-line variantu SkeLL). Nástroj KonText jsme využívali v předchozí kapitole pro prezentaci typů cvičení. Zobrazuje konkordance s klíčovým slovem uprostřed nebo celé věty a je ho možné využít jak pro přímé vyhledávání, tak i pro tvorbu materiálů, které si učitel vytváří předem. Nástroj SyD bude spíše vhodný pro přímé vyhledávání, a to proto, že nezobrazuje konkordance, ale frekvenci a kolokace graficky. Nakonec nástroj Sketch Engine je vhodný spíše pro tvorbu cvičení. Je tomu tak i proto, že není dostupný zdarma, a na rozdíl od KonTextu má některé specifické funkce: Word Sketch, Tesaurus nebo speciální funkce pro vytvoření vlastního korpusu. Velký potenciál má však jeho zjednodušená a on-line přístupná varianta SkeLL, která v současné době existuje pouze pro angličtinu, další jazyky včetně češtiny jsou však v plánu.

7.3.1 Experimenty s DDL aktivitami ve výuce češtiny V letech 2010 až 2012 jsme provedli několik experimentů s korpusem ve třídě (Vališová a Osolsobě, 2012; Vališová, 2012a, s. 143), ve kterých vysvětlujeme, jak se může stát korpus doplňkem slovníku: aktivity obsahovaly otázky na rod a základní tvar slova. Využívali jsme nástroj Bonito, který fungoval jako klient-server, ale také webové rozhraní NoSketch Engine. Výhodou korpusových vyhledávačů při práci s otaggovanými korpusy vidíme v tom, že je možné zobrazit morfologickou značku a lemma. Student tak dostává rychle informaci o přiřazení k flektivnímu typu (lemma) a o gramatickém významu sledovaného tvaru, což mu následně usnadní i vyhledaní slova v klasickém dvoujazyčném slovníku., Tuto funkci informátora o základním tvaru, popř. dalších tvarech, však mnohem jednodušeji plní slovníková část Jazykové příručky91, kde se studentům zobrazí tabulka (obr. 28), ve které jsou všechny pádové formy včetně zaznamenání dublet. Někdy Příručka uvádí i příklady ve větách, které ovšem snáze využijí rodilí mluvčí. Svou funkci doplňku ke slovníku však plní dostatečně, neboť podává informace o rodu a všech tvarech slova.

91 Jazyková příručka: http://prirucka.ujc.cas.cz/ 108

Obrázek 28 Vyhledání slova kniha v Jazykové příručce ÚJČ AV ČR

Další cvičení v Bonitu se orientovala na frekvenci v psané a mluvené češtině a kolokace/koligace slov. Studenti92 trávili jednu vyučovací lekci (90 minut) v počítačové učebně a po krátkém představení korpusu a vysvětlení vyhledávání pracovali sami, popř. s učitelovou pomocí. Důležitá byla pozitivní zpětná vazba. Ipřes všechny technické problémy se kterými se setkali (instalace Bonita, připojení k internetu, česká klávesnice, náročnost vyhledávání), hodnotili studenti tato cvičení jako zajímavá a vyhledávání je bavilo (ibid., s. 147). Tyto experimenty jsme prezentovali na konferencích 9th Teaching and Language Corpora Conference (TaLC9) v Brně v roce 2010 a 20 let didaktiky cizích jazyků v Liberci v témže roce.

Následující experiment, který byl prezentován na konferenci Korpusová lingvistika Praha 2011, pracoval s DDL aktivitami na papíře, ale ve formě KWIC, která jsem vytvářela během stáže na Univerzitě v Birminghamu93 (Vališová, 2011, s. 317). Cvičení se testovala se studenty VUT v Brně a ÚJOPu v Plzni. V těchto aktivitách bylo předem vybráno (neupravených) 5 konkordančních řádků, klíčové slovo uprostřed chybělo a úkol byl doplnit slova podle kontextu (obr. 29). Poté studenti odpovídali na doplňující otázky vztahující se již ke konkrétním konkordančním řádkům. Tato cvičení byla pro studenty velice náročná. Hlavní překážkou byl nezvyklý formát kolokací (KWIC uprostřed). Nechápali, proč věty nejsou ukončené, a snažili se větám

92 Jednalo se o studenty různých úrovní z VUT v Brně, univerzity v Magdeburku a z firemních kurzů v Brně (Vališová, 2012, s. 146). 93 Za vedení při tvorbě těchto cvičení děkuji Dr. Paulu Thompsonovi z Centre for Corpus Research, Univerzity of Birmingham. 109 porozumět, místo aby se dívali jen na nejbližší kontext klíčového slova. Jako zpestření výuky je vnímali pouze vysoce pokročilí (Vališová, 2011).

A) Doplňte vhodné tvary slova a určete, jaký je to pád: cukr, cukru, cukrem, cukry, cukrů

1 ě dlouhém řetězci ( 6 - 12 C ) . Množství za den činí 300 - 400 g ( 5040 - 6720 kJ ) . 2 za sešitem formulemi benzolů , kyselin , a solí , které dosud neexistují , ale které 3 poklesu celkové spotřeby mléka . Spotřeba poklesla jen zcela nepatrně . Výrazně se zvý 4 o jeřábu je vyvolána nejen vyšším obsahem , ale také nižším obsahem tříslovin . Na pří 5 molekula glukózy , jednoho ze základních , se všemi svými atomy . Vpravo je táž molek

6 odila ji . Vzala větší hrníček , pytlík s a podšálek . Zdálo se , že Rex se ani nepohn 7 rušil slupku . 2 . Omyj maliny a posyp je . 3 . Na talíři rozmačkej pomerančovou dužin 8 líř a ozdob šlehačkou oslazenou práškovým . Nech v lednici , dokud nebudeš podávat . R 9 , " řekl Ray . " Ledový čaj , prosím , s a citronem , "objednala si a přehodila si no 10 , beránek ! Beránek do zlatova upečený , posypaný , že byl jako bílou vlnou porostlý

11 icí enzym rozkládající bílkoviny , tuky a , je umístěna podél větších cév v játrech či 12 nejúčinnější léky na sklerózu , obsahují , škroby , organické kyseliny , pektin , kar 13 vnořila do ní ruku . Vytáhla odtud čtyři . Srovnala je do řádky a hleděla na ně . Kaž 14 100g jedlého podílu ) ; většinou jsou to , což snadno poznáme na chuti . Jsme - li te 15 pro oba kávu a do svého šálku si dal tři . Potom objal šálek prsty , aby si je ohřál

16 , jasně že ne . Nedáš si kafe ? Smetanu , ? Bez ničeho . Přešel přes místnost k automa 17 Boothovou , aby urovnala šálky , mléko a na podnos . Když se čajník hřál u krbu a záv 18 Lois , nerada tě obtěžuju , ale došel nám . Horace zuřivě maluje a zrovna jsem mu nali 19 elímky s kuchyňskými potřebami . Práškový byl v hranaté krabici z tuhého papíru z tuhé 20 e spěchal jinam . Lockhart si do kávy dal a mléko a pečlivě zamíchal . " Vy si opravdu

21 , že vědění se musí podávat zaobalené do a že učitel má být kámoš . Je tady Fred Loom 22 guarana , surová koka a trochu hroznového . Všechny látky jsou běžně k dostání - - zál 23 vlastně došlo , přísahám . Zřejmě metoda a biče . Tvrdil mi , že u tebe dostávám jen 24 kávu ? " " Kávu , prosím . S mlékem , bez . " Karys se krátce usmála . " Držíte dietu 25 usední vilu . Svítila , jako kdyby byla z . Za špatně přiléhajícím zatemněním zářilo s

B) Dva řádky (6-10) jsou úryvky z receptu. Které? Jaká další slovesa můžeme použít při psaní receptu?

C) Jaký je rozdíl mezi podšálkem a podnosem (řádek č. 6 a 17)?

D) Vysvětlete, co znamená fráze „cukr a bič“. Jak se to řekne ve Vašem jazyce? Obrázek 29 DDL aktivity s klíčovým slovem uprostřed

Z tohoto důvodu jsme se dále rozhodli věnovat se cvičením, která podobně jako přímá práce s korpusem používají pozorování dat spíše než doplňování. Druhým aspektem změny byla úprava vět z korpusu na celou větu. Díky tomu slovo stále zůstává v přirozeném kontextu, ale již bez rušivé nebo nesrozumitelné slovní zásoby, která by odváděla pozornost od hlavního tématu (např. některá vlastní jména, slovní zásoba, jež je málo frekventovaná nebo se vztahuje k nějakému mimojazykovému kontextu apod.). Tento experiment jsme prezentovali pod názvem Autentický jazyk ve výuce češtiny jako cizího jazyka na konferenci Čeština – cílový jazyk a korpusy na Technické univerzitě v Liberci v roce 2012. Příspěvek však nebyl publikován, proto se mu zde věnujeme podrobněji.

Příklady jsme vyzkoušeli ve dvoutýdenním intenzivním kurzu se 3 studenty na úrovni B2 (Španěl, Japonec a Polka). Každý den dostali jedno slovo v různých kontextech a měli z kontextu odvodit jeho různé významy, např. dojít (obr. 30). Někdy se jednalo o více slov a měli na základě kontextu zjistit jejich významový rozdíl. Dalším

110 typem cvičení bylo uvedení několika sémanticky příbuzných slov s výčtem jejich nejčastějších kolokací, podle kterých měli studenti odlišit význam slov (např. krájet, řezat, kácet). Téma většinou vyplynulo z předešlé lekce – jednalo se o slova z učebnice nebo o slova, ke kterým jsme se dostali v diskuzi a jejichž použití nebylo studentům úplně jasné. Modelové věty jsme tentokrát příliš neupravovali (studenti byli na úrovni B2 a dobře rozuměli), spíše jsme vybírali srozumitelné úseky. Nechali jsme studenty věty přečíst a vysvětlit význam slov, např. došla mu trpělivost – nemá/ztratil trpělivost, došlo k neštěstí – stalo se neštěstí.

Nikdo není dokonalý a někdy dojde trpělivost i tolerantnějším rodičům. Po posledním nezdaru jim došla trpělivost. Když dojde k neštěstí, s tělem se nesmí hýbat. Je to vláda, která nechala k neštěstí dojít. Plány dojdou k naplnění za 50 let. Přiznali, že k naplnění došla ta nejméně pravděpodobná varianta. Přitom nesmí dojít k narušení povrchu záchranářského kruhu. Došlo k narušení autenticity prostředí. Když dojde na lámání chleba, udělám nějakou blbost. Podstatné je, že ještě nikdy nedošlo na lámání chleba. K poněkud většímu zhoršení kvality může dojít u těchto snímků. U obou škol došlo ke zhoršení prospěchu studentů. Obrázek 30 Modelové věty se slovesem dojít (korpus SYN2005)

Studenty tato cvičení velmi zaujala, společně diskutovali o významu jednotlivých slov a dokonce během lekce začali vyhledávat v SyDu (tento nástroj jsem jim v rámci kurzu také představila) příklady vět, pokud nerozuměli nějakému slovu. Věty v těchto cvičeních však nebyly upravované, spíše to byly vyňaté části korpusových souvětí. Pokud by studenti byli méně pokročilí, bylo by pravděpodobně užitečnější věty ještě více upravit, popř. zkrátit. O experimentech s nástrojem SyD ve výuce pojednáme podrobněji v následující kapitole.

Podobné aktivity testovalo několik studentů v Ústavu českého jazyka na Masarykově univerzitě v rámci svých závěrečných prací. Melita Lukšija (2012) v rámci své diplomové práce Korpusy a česká deklinace ve výuce češtiny jako cizího jazyka, zkoušela aktivity pro úplné začátečníky se studenty Kabinetu češtiny FF MU (ibid., s. 77). Cvičení byla zaměřena na český rod ve spojení se zájmeny ten, ta, to, můj, moje, moje a číslovkou jeden, jedna, jedno. Studenti vyhledávali v korpusu a zároveň pracovali s gramatickými tabulkami, aby pochopili shodu v rodě a čísle v češtině. V prvních cvičeních (obr. 31) studenti vyhledávali přímo v korpusu zájmena ten, ta, to,

111 můj, moje, moje a číslovku jeden, jedna, jedno a určovali rod slov, která se vyskytovala v pravém kontextu.

a) Zadejte do vyhledávacího řádku dotaz ten. Vyhledejte substantiva napravo od demonstrativního zájmena ten, které je graficky zvýrazněno červenou barvou, a určete jejich rod. b) Zadejte do vyhledávacího řádku dotaz moje. V pravém kontextu si všímejte pouze substantiv, vyhledejte jejich významy ve slovníku a určete jejich rod. Obrázek 31 Cvičení Melity Lukšiji – vyhledávání a určování rodu94

V dalších aktivitách, již bez počítače (obr. 32), měli studenti na handoutu 30 náhodně vybraných konkordancí z korpusu s klíčovým slovem dobrý. S použitím gramatických tabulek určovali rod adjektiva společně se substantivem (většinou) v pravém kontextu. Lukšija (ibid., s. 82) uvádí, že studenty tato cvičení bavila, brali je jako oživení výuky a díky nim pochopili, že a jak se adjektiva nebo zájmena shodují se substantivem. Naučili se také orientovat v gramatických tabulkách, i když s gramatikou teprve začínali.

1. Vina se svalovala na Bubáka, kterému však na dobré vůli nebo nevůli sousedů nezáleželo 2. Přesto většinou jemný a citlivý hoch a měl, stejně jako jeho bratr, dobré vychování. Samozřejmě z domova. 3. pravil v dobré náladě. Měl byste si ten objev dát patentovat. 4. neboť měla i dobré vlastnosti, jako lásku k dětem, 5. rychle odpouštíme neblahý život pro dobré dílo, nikdy však mizerné dílo, 6. vzdal jsem se poměrně dobré pozice v moderních kruzích . - Nejsem schopen pořádně 7. Co je to dobré umění? 8. Tyto ideály jsou samy o sobě dobré, ale když si je 9. předpokládané velmi dobré hospodářské výsledky a dividenda za 1996, fundamentálně 10. je na dobré cestě přestup druhého cizince – Obrázek 32 Cvičení Melity Lukšiji – určování rodu dle kontextu95

Ukázky aktivit pro vyhledávání v korpusu představily ve své bakalářské práci také další studentky, netestovaly je však se studenty. Eva Koláčková (2013) vytvořila cvičení, která se zaměřují na výuku imperativu. Jednalo se o vyhledávání variantních tvarů v nástroji SyD, ale také pozorování modelových vět z korpusu SYN2010 (obr. 33). Barbora Horonyová (2016) se ve své bakalářské práci zabývala slovesnými vazbami v češtině a francouzštině a prezentovala několik DDL aktivit s paralelním korpusem InterCorp (obr. 34). Vzrůstající zájem o vytváření cvičení dle korpusu u studentů bohemistiky tak ukazuje, že tato oblast autentických příkladů ve výuce se zřejmě bude rozšiřovat. Domníváme se, že do budoucna je výzvou vytvořit a vyzkoušet

94 Cvičení zahrnovalo více otázek, zde prezentujeme pouze dvě na ukázku. 95 Cvičení obsahovalo 30 konkordančních řádků, uvádíme pouze prvních deset. 112 více různých cvičení založených na korpusových datech, a to jak pro studenty vyšších, tak i nižších pokročilostí.

Obrázek 33 DDL aktivity Evy Koláčkové – imperativ

Obrázek 34 DDL aktivity Barbory Horonyové – slovesné vazby v češtině a francouzštině

Nejnovějším experimentům zaměřujícím se na typy korpusových cvičení na papíře se budeme věnovat v kapitole o typech cvičení (7.4).

113

7.3.2 Nástroj Kontext96 Typy cvičení na papíře vytvořené díky nástroji KonText jsou prezentovány v kapitole 7.3. Zde stručně shrneme, co tento nástroj nabízí a jak z něj rychle a jednoduše získat data pro tvorbu cvičení. Nástroj KonText, jak již jeho jméno říká, slouží především k vyhledávání slova v kontextu. Primární nabídkou KonTextu je tedy zobrazení klíčového slova (KWIC) ve všech kontextech, ve kterých se v daném korpusu vyskytlo (obr. 35).

Obrázek 35 Klíčové slovo v kontextu (nástroj KonText)

Učitelé, stejně jako studenti, hledají pravidelnosti při pozorování nejbližšího kontextu klíčového slova: zde vidíme informace o tom,. že sloveso je reflexivní a může být následováno buď genitivem (ptali se jí na výstavu), předložkou na s akuzativem (…se ptám na tuhle část) nebo klauzí (ptali se, jestli nemáme…, …se ho ptát, proč…). Při přímé práci studentů s korpusem lze odlišit 3 stádia podle druhů dat:

1. Studenti vyhledávají přímo v korpusovém nástroji. 2. Učitel vytiskne konkordance na papír (data je možné uložit jako textový soubor, lze ale použít i screenshot) – studenti tak vidí přesně to, co by viděli v počítači, tj. klíčové slovo uprostřed a neukončené věty v levém i pravém kontextu. 3. Učitel vybere konkrodanční řádky, popř. je zkrátí, a vytvoří tak papírovou formu DDL cvičení. Je však důležité podotknout, že to není klasické cvičení, neboť aktivity obsahují autentické věty minimálně upravované, prezentují více

96 Části této kapitoly již byly publikovány v článku Vališová, 2016. 114

možných kontextů slova / slovních spojení a vyžadují studentovo pozorování dat (tzv. povšimnutí) (viz kap. 6.1).

Při tvorbě cvičení typu 3 je důležité, aby korpusový nástroj učiteli usnadnil vyhledávání vhodných konkordancí, neboť jinak by příprava cvičení byla časově velmi náročná. Vzhledem k tomu bychom doporučovali zobrazení konkordancí nikoli ve formáu KWIC uprostřed, ale ve formáu KWIC ve větě. Díky našim experimentům jsme zjistili, že data ve formě neukončených vět nejsou pro studenty zajímavá a matou je. Při zobrazení vět s klíčovými slovy je také možné jednodušeji a rychleji vybrat pouze krátké jednoduché věty, které není třeba zásadně upravovat či krátit (obr. 36).

Obrázek 36 Zobrazení věta (nástroj KonText)

Nástroj KonText také nabízí vyhledávání kolokací (obr. 37). Oproti SyDu však nejsou zobrazeny vizuálně, proto je nutné se v těchto datech umět orientovat. Na první pohled již vidíme to, co jsme zpozorovali v nejbližším kontextu konkordancí: sloveso je zvratné, proto je nejčastější kolokace se, nejčastější předložka na a nejčastější slova, která uvozují klauzi jestli a proč. Seznamy kolokací proto mohou být pro studenty komplikované, je vždy nutné si uvědomit, zda je jejich prezentace pro danou cílovou skupinu vhodná i s ohledem na počítačovou gramotnost a schopnost orientovat se v datech. Také je potřeba dát studentům jasné a srozumitelné otázky, co mají konkrétně hledat, např. Jakou předložku má nejčastěji sloveso ptát se?

115

Obrázek 37 Seznam kolokací (nástroj KonText)

Tento nástroj je přístupný po registraci, ale i bez ní je možné zobrazit omezené množství konkordancí. Ostatní funkce jsou však dostupné až po vyplnění on-line dotazníku a obdržení hesla. Nástroj obsahuje i stránku nazvanou Wiki, kde lze nalézt Manuál s typy vyhledávání a základní pojmy korpusové lingvistiky.97

7.3.3 SyD – online korpus pro všechny První verze této podkapitoly, pojednávající o možnostech nástroje SyD ve výuce češtiny pro cizince, již byla publikována (Vališová, 2012b; Vališová, 2016) a experiment se studenty byl prezentován na konferenci 4th International Conference on Corpus Linguistics (CILC2012) v Jaénu ve Španělsku v roce 2012.

Nový nástroj SyD má pro výuku největší potenciál. Jeho hlavními výhodami jsou online přístup, přehledná grafika a jednoduchost užívání. Zkratka SyD znamená synchronní a diachronní korpus, protože zde lze vyhledávat jak v historii, tak

97 http://wiki.korpus.cz/ 116 i v současném jazyce. Tento nástroj je však primárně určen pro vyhledávání variant – proto na hlavní straně vidíme dvě vyhledávací pole místo jednoho, jak jsme zvyklí z internetových vyhledávačů. Počet vyhledávacích polí však můžeme ze dvou změnit až na osm (anebo zadat pouze jedno slovo). Po jednom kliknutí na Hledat v současném jazyce máme všechny důležité informace na jedné straně a v přehledné grafice. Jako první si všimneme dvou koláčových grafů – jeden ukazuje výskyt vyhledaných variant v psaném (zde korpus SYN2010) a druhý v mluveném jazyce (korpus ORAL2006, ORAL2008 a ORAL2013). Pod grafy se nachází menu. Při výběru možnosti Kolokace se zobrazí nejfrekventovanější kolokace klíčového slova ve formě word cloud, tj. nejčastější kolokace se zobrazují tmavší barvou a také větším fontem písma. Při kliknutí na konkrétní kolokaci se zobrazí 10 konkordančních řádků ve formě KWIC. Konkordance jsou tedy podobně jako u online přístupu bez hesla limitované, ale to nebrání využívání nástroje ve výuce. Dalo by se říci, že je to spíše plus, neboť studenti tak nebudou zahlceni množstvím dat. Při výběru možnosti Rozložení se zobrazí výskyt daných variant v jednotlivých žánrech. V SyDu můžeme najít i statistiky a další funkce, kterých si žáci nemusí všímat, neboť mají sloužitk odbornému nikoli k pedagogickému vytěžování korpusů. Pro výuku češtiny jako cizího jazyka jsou podstatné tři základní funkce: varianty mluvené a psané češtiny, kolokace a žánry.

Čeští lingvisté vedou spory o tom, zda ve výuce češtiny jako cizího jazyka uplatňovat obecnou češtinu či ne. Hrdlička (2010) zdůrazňuje, že by se neměla prezentovat v počátečních fázích výuky, ale seznamovat s ní spíše až pokročilé studenty. Všichni se však shodnou, že by se obecná čeština měla prezentovat odděleně od spisovné češtiny, a to tak, aby studenti chápali, co je pro určitou situaci či žánr vhodné. Jak však má student rozeznat spisovné a nespisovné výrazy bez pomoci učitele, když dvoujazyčné slovníky většinou tyto informace neudávají? V korpusu SyD studentům stačí jedno kliknutí, aby viděli rozložení variant v korpusech psané a mluvené češtiny. Samozřejmě, že korpus nesdělí, zda je výraz knižní, spisovný, obecně-český či hovorový98. Důležité je však to, že poukazuje na určité tendence. Např. slovo opravdu se vykytuje v 75,64% v psaném jazyce, zatímco v mluveném pouze v 24,36% (tab. 2), u slova fakt je tendence opačná – je tedy na první pohled jasné, jaké slovo by měl student použít v psaném (oficiálním) textu (obr. 38).

98 Také je třeba mít na paměti, že v SyDu jsou využívané dva mluvené korpusy ORAL2006 a ORAL2008, které zahrnují mluvený jazyk pouze z území Čech. Korpus ORAL2013 tento nedostatek překonává. 117

Obrázek 38 Frekvenční rozložení slov opravdu a fakt v psaném a mluveném jazyce

Podobně můžeme vyhledávat morfologické varianty, např. fotbalisté a fotbalisti (tab. 2) nebo varianty stylové. Důležité je, aby data obsažená v úkolech učitel předem vyhledal a ujistil se tak, že výsledek bude o něčem vypovídat. Z důvodu malé velikosti mluvených korpusů ORAL2006 a ORAL2008 (pouhý 1 mil) se může stát, že nebude pro mluvený jazyk dostatečné množství dat. ORAL2013 je sice dosti reprezentativní a má i větší rozsah, velikostí je ovšem rovněž nesrovnatelně menší než korpusy psaného jazyka. I na takový případ je proto dobré studenty připravit, neboť často i jen jeden graf stačí k závěru, jakou variantu upotřebit v psaném projevu, např. 84,8% pro variantu klucích oproti 15,2% klukách. Pro studenty bude jistě přínosnější, pokud si zvyknou vyhledávat v korpusu, kde jsou zdrojem dat reprezentativní korpusy, než kdyby hledali odpověď v počtu výskytů variant na Googlu.

psaný jazyk mluvený jazyk opravdu 75,64% 92,06% fakt 24,36% 7,94%

psaný jazyk mluvený jazyk fotbalisté 98% 0% fotbalisti 2% 100%

psaný jazyk mluvený jazyk klucích 84,8% nedostatečná data klukách 15,2% nedostatečná data Tabulka 2 Vyhledání variant v Korpusu SyD

V části věnované vyhledávání kolokací nejen představíme možné úkoly, ale také způsob, jakým integrovat korpusovou práci do běžné výuky tak, abychom neodbíhali od

118 sylabu, ale obohatili jazyk studentů. U těchto typů úkolů je nutné studenty upozornit, aby zaškrtli lemma a vyhledávali tak všechny tvary daného slova.99

Nejtypičtějším úkolem je nalézt nejčastější slovní spojení, např. Jaká adverbia používáme nejčastěji se slovy litovat (hluboce), souhlasit (ochotně), nesouhlasit (zásadně), překvapený (příjemně), vděčný (nesmírně) apod. Zde je potřeba upozornit na to, že negované tvary sloves (tedy např. nesouhlasit) jsou lemmatizovány tvarem pozitivním (např. souhlasit), proto si musíme zobrazit konkordanční řádky, abychom věděli, které kolokace patří ke kterému slovu. Někdy je také nutné kolokace třídit, když hledáme např. pouze adverbia. V korpusu se také mohou vyskytnout chyby, popř. slovní spojení, která nejsou typická, ale v určitém žánru se mohou opakovat. Např. kolokace kouč u slova litovat pochází z novinových článků o sportu, kde kouč lituje prohry.

Další úkoly učí žáky chápat rozdíl ve významu slov podle jejich kolokací. Pokud ani pak nebude jednoznačné, co přesně slovo znamená, mohou studenti kliknout pro zobrazení konkordancí, aby viděli klíčová slova ve větách. Například nejčastějšími kolokacemi slova linka jsou telefonní, tísňový, autobusový, letecký, tramvajový, informační. U slova čára jsou nejčastější kolokace brankový, dělící a hraniční. Linka je tedy něco, co lidi spojuje, naopak čára odděluje. Podobně mohou u podobných slov rozlišit negativní od pozitivního významu, např. u slov díky (bůh, spolupráce, dotace, vítězství) a kvůli (zranění, krize, podezření, nedostatek). Někdy může korpus svými výsledky překvapit i rodilého mluvčího, např. připraví otázku po rozdílu slov bába a babička. Studenti by však bez učitele negativní význam slova bába hledali těžko, neboť se zde objevuje velmi frekventované spojení porodní bába, které zastíní další významy. Je proto nezbytné být připraven nalézat nečekané a se studenty o tom diskutovat, protože objevování je pravou podstavou metody DDL.

Se šesti studenty nebohemisty (Rusové (n=4), Maďaři (n=1) a Američané (n=1); úroveň B1–B2) jsme vyzkoušeli třídění kolokací v nástroji SyD. Připravená cvičení dostali za domácí úkol a s plněním cvičení neměli žádný problém. Úkoly (obr. 39) jsme koncipovali tak, aby navazovaly na probranou látku v učebnici Česky krok za krokem 2 (Holá, 2009) a učivo tak doplňovaly, ale přitom nevybočovaly ze sylabu. Studenti

99 Studenty nemusíme mást tím, že automatická morfologická analýza některé varianty neanalyzuje. Hledáme-li je pomocí atributů tag a lemma, nemusíme je objevit. Tuto skutečnost by měl ovšem učitel, který chce žákům zprostředkovat poznatky o morfologických variantách, brát v úvahu a je-li to nutné, nějakým způsobem o ní žáky poučit. 119 hledali přímé objekty sloves, která se v učebnici procvičovala. Např. sloveso sebrat je v učebnici prezentováno modelovou větou „Tamhle na zemi je tužka. Prosím tě, můžeš mi ji sebrat?” (Holá, 2009, s. 13), korpus však ukazuje i další významy. Nejfrekventovanější kolokací je slovo odvaha, a to díky frázi sebrat odvahu, a jiné kolokace jako např. peněženka, kabelka a zloděj nám napovídají další význam slova – ukrást. Musíme si však být vědomi i limitů tohoto vyhledávače. Např. u slovesa přijít nám kolokace neodhalí všechny významy, přijít k něčemu je uvedeno jako málo frekventované, význam přijít o něco nenajdeme. Naopak nalezneme časté fráze přijít něčemu na kloub/chuť nebo přijít s něčím do styku.

Najděte, co můžeme…. zapnout ___rádio, pás, knoflík, topení ___ vypnout ______přepnout ______rozepnout ______

Najděte, co můžeme…. sebrat ______vybrat ______rozebrat ______nabrat ______

Najděte, co můžeme…. založit ______složit ______naložit ______vyložit ______

Obrázek 39 Úkoly pro vyhledávání kolokací v Korpusu SyD

Vyzkoušené úkoly potvrdily, že studenti mohou mít užitek z korpusových dat, která ukazují živější jazyk než učebnice. Navíc byl pro ně tento úkol velmi snadný a rychlý, ale zároveň i zajímavý a obohacující, neboť poté na lekci následovala diskuze o různých významech uvedených sloves.

7.3.4 Sketch Engine Vyhledávač Sketch Engine není bohužel zdarma, a proto nachází své uplatnění spíše na korpusových pracovištích na univerzitách, než u jednotlivců. Poplatky za přístup však nejsou vysoké a některé jeho funkce mohou učitelům v mnohém usnadnit práci, a to především při tvorbě výukových materiálů a aktivit. Navíc si lze Sketch Engine vyzkoušet ve třicetidenní zkušební verzi. 120

Sketch Engine je komerční produkt a při plném přístupu umožňuje vyhledávat v korpusech mnoha jazyků. Vyhledávání se podobá Bonitu100 , je však doplněno o další funkce, např. vytvoření vlastního korpusu, hledání klíčových slov nebo slovních profilů (Word Sketches), na které se zde zaměříme. Word Sketches zobrazují konkordance klíčového slova, tj. všechna slova, se kterými se klíčové slovo často vyskytuje. Word Sketches je navíc rozděluje podle syntaktických vztahů. Hustonová (2000) tyto vztahy nazývá vzorce (patterns). Pattern grammar, model, který byl vyvinut pro monolingvní slovník COBUILD určený studentům angličtiny, spočívá v tom, že na základě korpusového výzkumu podrobněji popisuje syntaktické vztahy jednotlivých lexikálních jednotek. Slovník COBUILD je určen pro nerodilé mluvčí a obsahuje tedy i podrobné informace o tom, v jakých nejčastějších slovních spojeních je slovo používáno. Např. oproti tradičnímu vzorce subjekt – verbum – objekt (SVO) popisuje konkrétnější případy, aby studenti přesně věděli, jak dané slovo použít, např.: Vn (sloveso a substantivum), V pl-n(sloveso a substantivum v plurálu), V –ing (sloveso a gerundium), V to inf. (sloveso a infititiv) nebo V wh (sloveso a vedlejší věta) apod. Vzorce ve Sketch Engine se trochu liší, jsou univerzálnější, protože se používají i pro jiné jazyky než angličtinu (např. rozlišují pády).

Jde tedy o to, jaké vztahy jsou statisticky nejfrekventovanější a pro tyto vztahy se ve Sketch Engine zobrazí příklady nejčastějších slov. Například pro slovo znát je nejčastějším vztahem znát + objekt v akuzativu (znát pravdu, odpověď, jméno atd.), nejčastější předložkou je z, proto následuje další sloupec slov, která následují po předložce z (znát z dřívějška, minula, vyprávění, dětství atd.). Seznamy slov v častých syntaktických vztazích mohou učitelům pomoci při vysvětlování rozdílů v užití slov a při hledání příkladů, což bude zvláště užitečné při výuce pokročilých studentů, kdy je efektivnější mít nějaký zdroj než vymýšlet příklady či modelové věty sám. Navíc je učebnic češtiny pro vysoce pokročilé studenty velmi málo, a z tohoto důvodu si učitelé často vytváří svoje vlastní materiály šité na míru konkrétním studentům.

Další možností je, že učitel ve Sketch Engine hledá slovní zásobu na dané téma, které se chystá probírat. Například ke slovu práce nalezneme tyto vztahy: adjektivum + práce (stavební, diplomový, prospěšný), slovo + práce v genitivu (zákoník, produktivita, úřad), sloveso + práce v akuzativu (usnadnit, poptávat, sehnat, vykonávat), práce +

100 Autorem/spoluautorem obou nástrojů je P. Rychlý. 121 slovo v genitivu (student, policie, žák, učitel, lékař), práce + sloveso (bavit, obnášet, vykonávat, odvést) nebo práce + s + instrumentál (mládež, počítač, text, mapa). Poté lze vyhledanou slovní zásobu použít pro modelové věty, vytvořený text nebo třeba studentům říci jeden ze vzorců a metodou elicitace zjistit, co už studenti znají, např. S čím vším se dá pracovat? (Vzorec práce + s + instrumentál). Učitel také může vybrat slovní zásobu na dané téma a dát ji studentům jako pomůcku při psaní eseje.

Sketch engine tedy učitelům usnadní vyhledávání syntaktických vzorců klíčového slova a poskytne množství příkladů, které se v těchto vzorech používají. Je pak na učiteli, jak s těmito daty naloží při tvorbě vlastních výukových materiálů.

Kromě Word Sketch má Sketch Engine ještě funkci GDEX (Good Dictionary Examples)101, to znamená, že korpus automaticky vyhledává věty, které se mohou stát slovníkovými příklady nebo modelovými větami (viz kap. 8.2.2 o modelových větách z korpusu).

7.3.5 SkeLL – Sketch Engine for Language Learning SkeLL102 je nový on-line nástroj (zatím pouze pro angličtinu) využívající funkce Sketch Engine, a to tyto tři: 1. konkordance, 2. word sketch a 3. podobná slova (Thesaurus). Konkordance ukážou maximálně 40 příkladů, které se zobrazují jako celé věty. Funkce Word sketch nabízí kolokace rozdělené podle vztahů, např. verb with KWIC as subjekt, verb with KWIC as object, adjectives with KWIC apod. Funkce simile words nabízí slova (max. 40), která mají stejné kolokace, nejsou to však synonyma. Výhodou nástroje SkeLL je nejen otevřený přístup na webové stránce, ale také malé množství dat (do 40 příkladů pro každou funkci) a vizuálně zobrazená data (word clouds) (Baisa a Suchomel, 2014; Kilgariff, 2015). SkeLL je tedy ideální nástroj pro přímé DDL aktivity nebo samostatné konzultace studentů. Pro další jazyky se podobné nástroje v současné době budují, pro češtinu by nástroj měl být hotový v roce 2017.103

101 GDEX: https://www.sketchengine.co.uk/user-guide/user-manual/concordance-introduction/gdex/ 102 SkeLL: http://skell.sketchengine.co.uk/ 103 Vytváří jej Michal Cukr na základě webového korpusu z českého Webarchivu v rámci své diplomové práce na Masarykově univerzitě (předpokládané dokončení práce: jarní semestr 2017). 122

7.4 Typy cvičení – ukázky104

V této kapitole představíme typy možných cvičení, která vycházejí z konkordancí. Náš přehled nebude vyčerpávající. Jeho záměrem je ukázat, jakým způsobem lze pracovat s konkordancemi. Tyto typy cvičení jsou adaptovatelné jak pro přímé vyhledávání na počítači, tak i pro handout, kde mohou být konkordance v surovém stavu či upravené. Chceme zároveň ukázat, že korpus nám dává otevřené možnosti a cvičení lze vždy uzpůsobit konkrétní cílové skupině či jazykové úrovni. Cvičení z obecného korpusu byla vytvořena dle psaného reprezentativního korpusu SYN2015, kromě cvičení zaměřeného na produkci, která byla vytvořena z webového korpusu czTenTen v nástroji Sketch Engine. Pro cvičení z žákovského korpusu byl použit CzeSL-Plain a pro překladové cvičení InterCorp.

V nástroji KonText lze konkordance zobrazit jako celé věty. Je proto daleko rychlejší vybírat věty, než dělat cvičení s klíčovým slovem uprostřed. Pro rychlejší výběr je možné použít také seznam nejfrekventovanějších kolokací. Tyto věty nebyly upravovány, pouze výjimečně zkráceny a výběr je náhodný. (Více informací o tom, jak pracovat s nástrojem KonText při tvorbě cvičení je v kap. 7.3.2.) U jednotlivých cvičení zároveň diskutujeme časovou i jazykovou náročnost jeho tvorby a také možnosti uplatnění v závislosti na jazykové úrovni studentů.

7.4.1 Typologie korpusových cvičení Při vytváření typologie jsme čerpali především ze zdrojů orientujících se na výuku angličtiny (Johns, 1991, 1994, 2004; Tribble a Jones, 1990; Gabrielatos, 2005; Frankenberg-García(ová), 2012). Identifikovali jsme několik základních typů:

1. Pozorování Pozorovací cvičení je nejtypičtějším korpusovým cvičením, které lze používat při pouhém vyhledávání v korpusu. Při cvičení na papíře jej dělíme dle klíčového slova:

104 Části této kapitoly již byly prezentovány na Sympoziu o češtině jako cizím jazyku na FF UK v Praze v srpnu 2016 a publikovány ve sborníku sympozia (Vališová, 2016). 123

a) jedno slovo (studenti třídí konkordance dle různých významů klíčového slova – lze i zvlášť jako typ třídění). b) fráze c) dvě slova / fráze (většinou jde o dvě slova, u kterých na základě pozorování kontextů zjistíme podobnosti či odlišnosti ve významu nebo struktuře; může jít i odvě slova z různých jazyků při využití překladového korpusu) 2. Doplňování a) jedno slovo – doplňování jednoho slova do více kontextů b) více slov – doplňování více slov (pro každé slovo asi 5 konkordancí/vět) 3. Spojování pravého a levého kontextu a) promíchané konkordance – doplňujeme nejčastěji dvě slova dle jejich kontextů b) více slov – spojujeme klíčová slova s pravým/levým kontextem 4. Mluvení Seznam slovní zásoby určený k produkci (slova na téma tříděná dle slovních druhů, seznam kolokací ke slovu apod.). 5. Psaní Seznam slovní zásoby určený k produkci (seznam kolokací, slovní svazky – diskurzivní konektory apod.) 6. Mix Toto cvičení spojuje různé typy dohromady nebo je kombinuje.

Tato typologie byla podkladem pro štítky označující typy cvičení na portálu Pro školy105, který buduje Ústav českého národního korpusu primárně pro výuku mateřského jazyka na základních a středních školách. Jedná se o databázi, ve které budou korpusová cvičení pro učitele ke stažení (databáze se v současné době teprve začíná budovat). V rámci této databáze budou součástí i cvičení pro češtinu jako druhý jazyk, není to však hlavním cílem. Obr. 40 ukazuje štítky, které dostanou cvičení pro snadnější orientaci. Kromě jazyka, úrovně a jazykové roviny se cvičení dělí na „počítač“ (přímé využití korpusů), „papír“ (cvičení na papíře, určené pro tisk, tj. vybrané, popř. upravené konkordance) a „projektor“ (vyhledává pouze učitel, když má třída jen jeden počítač).

105http://korpus.cz/proskoly 124

Obrázek 40 Štítky označující typy korpusových cvičení na portálu Pro školy

Štítky pro typy cvičení bylo nutné zjednodušit, tj. vynechat podtypy. Z typů cvičení štítky106 odlišují pozorování, doplňování, spojování, mluvení a psaní. Tato cvičení jsou určena pro vytištění, zatímco štítek hledání označuje cvičení zaměřená pro přímou práci studentů s korpusem. Pro odlišení počtu slov bylo zařazeno porovnávání (pozorování dvou slov/frází). V naší práci také nezmiňujeme zařazování (spojování klíčového slova s kolokací nebo zařazení k funkčnímu stylu), neboť toto cvičení se orientuje na výuku rodilých mluvčích.

7.4.2 Obecné korpusy Tato kapitola představí uvedené typy cvičení na ukázkách určených pro výuku češtiny jako cizího jazyka. Budeme vždy diskutovat nejen náročnost cvičení z hlediska studentů, ale také časovou a technickou náročnost přípravy cvičení učitelem. Některá z nich již byla testována, proto je možné zmínit i zpětnou vazbu studentů.107 Cvičení ještě dělíme podle druhu korpusu.

Nejdříve ukážeme cvičení zaměřené na lexikum. Zajímá nás tedy význam slova nebo slovního spojení a jeho kontext (kolokace). Typická cvičení jsou zaměřená na rozdíl dvou podobných slov, synonym nebo víceznačných slov či slovních spojení.

1. Pozorování a) jedno slovo – význam slova dle kontextu

Napište seznam míst, kde může být třída? Může být i člověk třída? A co to znamená? (úroveň A2)

106 Štítky vytvářela Lucie Chlumská po společné konzultaci. 107 Cvičení byla testována v podzimním semestru 2016 na lekcích češtiny úrovně A2+ na Katedře středověkých a moderních jazyků na Oxfordské univerzitě (lektorka Blanka Jaurisová). 125

Studenti pozorují, že slovo třída může znamenat učebna, skupina studentů, sociální skupina, ulice nebo úroveň (třída ve vlaku, platová třída). Člověk-třída souvisí s úrovní, je hodnocen kladně.

Pedagogové skoro ani nevěděli, že ho ve třídě mají. Mercedes třídy B je mnohem příjemnější auto než předchůdce. To znamená, že některé třídy budou mít školu dopoledne a jiné odpoledne. Na Budějovickou nebo na třídu 9. května by se třeba hodil. Sabine říká, že její kamarádka je třída. Vysoká, blonďatá a zbožňuje tequilu. Na třídě Maršála Malinovského přecházeli ke kinu Hvězda chodci. V 1. třídě zvyšují komfort polohovatelná sedadla se zvětšeným prostorem a elektrické zásuvky Na společenském dně se ocitla nepřátelská třída, jejíž členové byli podezřelí z projevování odporu vládě. Na konci Kolowratské třídy se však jejich cesty rozděloval. Sedneme si ve třídě hodně dopředu. Vítěz byl o třídu lepší. Ve střední cenové třídě nabízí Canon model 5D Mark II ze září 2008 Sociální pracovník je8. platová třída. Udělám tady třídu bohatých, ať to stojí, co to stojí.

b) třídění – rozdělení konkordancí do skupin dle významu i. Rozdělení studentů do skupin (každá dostane jednu sadu pěti konkordancí): Diskutujte nad větami a určete, jaký má v nich sloveso přijít význam.108 (úroveň B1) ii. Jednotlivě: Čtěte věty. Jaké různé významy má slovo přijít? Přiřaďte synonymum ke každým pěti větám: nastat, zdát se, ztratit, zjistit, získat.

I Stella o sobě věděla, že přišla k úspěchu čirou náhodou. Jak chceš, ženo, sama přijít k penězům? Mohl jsi skutečně přijít k úrazu. Jejich příbuzní jim vysvětlili, že tak přijdou k troše peněz. A jakmile začnou, pak zpravidla přijdou k rozumu. Když na to přijdou, pak už to jen je otázka času. Naštěstí se pak přišlo na to, že selhal lidský faktor Během vyšetřování však se přišlo na to, že ho předtím někdo trošičku klepl do hlavy. Vy jste přišel na něco, co se týká profesora Lessinga? Pokud nebudete moci přijít na správné řešení, hra vám naznačí správné umístění. Poručík přišel o dva zuby a šel k zemi. Vím jen, že Reeseovi díky nám dnešním dnem přijdou o dva syny. Vlastní vinou jsem přišla o milovaného manžela Když ulice evropských měst dobyly automobily, přišli o práci kočí. Za neoprávněný start dvou hráčů přijde o 19 z 28 bodů. Doufám, že přijde doba, kdy si budou návštěvníci cíleně vybírat naši galerii. Kdy přijde krize? Přišel čas pro nový začátek. Vlastně jsem rád, že to přišlo tak brzy. Aha, takže nakonec přišel čas mít děti?

108 Pokud by studenti hledali toto slovo přímo v korpusu, našli by i další významy a ustálené fráze. 126

Já nepatřil k nikomu, přišlo jim to směšný. Mně to přijde smutný. Přijde mi to hodně iracionální. Tolik let … ale přišlo nám to, jako kdyby uplynul sotva den. Přijde mi mnohem přehlednější než Praha.

c) více slov – rozdělení konkordancí do skupin

Skupinová práce – každá skupina dostane jedno slovo.

Diskutujte, co slovo znamená podle kontextu. Má pouze jeden význam? (úroveň B2)

Studenti pozorují, že slovo připálený mluví o jídle a negativně, jde tedy o jídlo, které je vařením trochu černé. Opálený je většinou člověk od slunce a v pozitivním významu. Zapálená může být svíčka, tzn. vytvořený oheň, nebo člověk zapálený do něčeho (nadšený). Napálené může být něco, co je mířené někam, nebo metaforicky člověk, který byl oklamán. Spálené je něco úplně zničené ohněm nebo člověk od slunce, ale v tomto případě negativně.

Černý kouř z připálené kávy nastartoval ten den špatným směrem. Perry zapíchl lžíci do šedivé směsi a vyškrábl ze dna dočerna připálenou večeři. Připálené jehněčí kotlety a šťavnaté steaky ze svíčkové. Čistí také připálené hrnce (5 lžic ve vodě povařit a nechat odstát). Připálené jídlo synovi nechutnalo. Byl opálený, jako kdyby se právě vrátil z dovolené někde v tropech. Mořská pláž, opálená dívka se surfařským prknem v podpaží. Kůže není tak opálená a změny jsou mnohem zřetelnější Když k nim došel, zadívali se na jeho opálenou tvář a bystré jasné oči. Dozlatova opálený a s úsměvem od ucha k uchu. Stolek za ním se zapálenými svíčkami a různými dětskými cetkami připomíná malý oltář. Je velmi aktivní v politice a nadmíru zapálená do tématu diskriminace. Zármutkem se začala ztrácet jako zapálená svíčka. Byl temperamentní, aktivní dítě, zapálené do všeho. Až tak zapálený do hokeje nejsem. Napálená Miranda, která byla do té míry pitomá, že nalítla na promyšlený vtip. Že vám připadá obvyklejší a přijatelnější solidní nenapálená cena pro každého zákazníka? Vlach se spíš bránil prudce napálenému puku, přesto střela obloučkem dopadla do sítě. Náramně se pobavil, když se na pole za Prahou dostavili napálení zákazníci. Záměrem provozovatele nebylo vylákání telefonních čísel, ale přímo inkasování peněz od napálených uživatelů. Krajina září a já nechápu, proč o ní Kubín kdysi řekl, že mu připadá jednotvárná a spálená sluncem. Jako popel z krbu, přesně takového, jen smrdí po spáleném mase. Budova byla doslova spálená na popel. Když dorazil, byl celý spálený od slunce, kůži měl rudou a loupala se mu. Byla to jen knížka spálená na popel. „ Co se stalo ?

127

d) rozdíl dvou slov dle kontextu

Jak se liší sloveso ženit se / oženit se a vdávat se /vdát se? Které je imperfektivní a které perfektivní? Jaké využívají předložky a pády? Jak se liší význam? Existují tato slova bez se? Jaký je rozdíl ve významu? (úroveň A2)

Studenti pozorují, že ženit se / oženit se je pro muže a vdávat se / vdát se pro ženy. Sloveso ženit se / oženit se využívá přeložku s + instrumentál, zatímco vdávat se / vdát se předložku za + akuzativ. S oběma slovesy pak můžeme použít předložky z: z lásky, z povinnosti (Z jakého důvodu?) a pro: pro peníze (Pro co?). Slovesa, která nejsou zvratná, označují: „někdo žení/vdává někoho“.

Ženil se víc z povinnosti než z lásky. Vdávala se za něj ve svých pětadvaceti letech. Ona říkala, že mu nedovolí oženit se s žádnou jinou. Poslechla rady své matky a vdala se pro peníze. Jeho syn potřeboval jít za jiným snem a oženit Vdává se za muže dvakrát staršího než ona. se s Evou. Vdej se za mě, " řekl najednou. Otec mu zakázal oženit se v osmnácti s první láskou. Vdala se za kamaráda z dětství. Jsem rozhodnutý ženit se ve svým životě jen jednou. Vdávala se na břehu Pacifiku. Měl možnost oženit se s mladou ženou. Vdala se ve třiatřiceti letech za architekta Ženit se je z ekonomického hlediska hloupost. Jaroslava Pokorného. Byl připravený oženit se pro peníze. Před dvaceti lety jsem se vdávala – z velké lásky! Dneska se nám žení kamarád. Vdala se dvakrát. Rodiče, kteří žení syna nebo vdávají dceru, mají Martina se nikdy nechtěla vdávat. nárok na jeden den volna.

Poslední cvičení s dvěma slovy a další pozorovací cvičení byla testována v podzimním semestru na Univerzitě v Oxfordu. Studenti byli na úrovni A2+ a zpětná vazba byla pozitivní. Studenti s pomocí lektorky významy odhalili, vyvstala zde však potřeba odhalená pravidla a významy více procvičit. Proto další cvičení byla vytvářena tak, aby na začátku bylo pouze několik vět určených k pozorování a poté více příkladů pro doplňování (viz typ cvičení mix). Lektorka mi vždy sdělila problematická slova, na která jsem vytvářela cvičení, většinou šlo o dvě a více slov. Cvičení tedy byla tvořena dle sylabu daného kurzu, popř. přímo dle potřeb studentů.

Z hlediska výběru vět je pozorovací cvičení pro učitele nejjednodušší a lze jej nejrychleji vytvořit. Stačí v nástroji KonText použít zobrazení Věta a rychle projíždět krátké jednoduché věty. Pak často ani není potřeba věty upravovat či krátit. Náročnější je již vyhledávání, které je zacíleno na konkrétní kolokaci, např. přijít k. V tom případě již učitel musí vědět, jak vyhledat slovo pouze s touto kolokací (Kolokace – kliknout na předložku k). Může být také časově náročnější vyhledávat více významů pro jedno

128 slovo, neboť ne vždy najdeme hned vhodnou větu, která by byla srozumitelná studentům dané úrovně.

2. Doplňování a) jedno slovo – doplňování jednoho slova do více kontextů

Jaké slovo byste doplnili do vět? Je v některých větách možné použít více variant? A jak se tyto věty liší? (úroveň B1)

Studenti doplňují spojku když. Ve větě 3 a 5 je možné doplnit i až, změní se však podmínková věta na časovou.

1 ………………………… se na pohovce probudila, netušila, kolik času uteklo. 2 ………………………… se vlak konečně rozjel, byl George minimálně veselejší. 3 ………………………… se zmíníte o dárcích za vysvědčení, rozsvítí se jim oči. 4 A tak, ………………………… jim někdo řekl, že práce už není, přistoupili na jakékoli podmínky. 5 Stačí ………………………… počkáme, než projede. 6 ………………………… jsem měl štěstí, dostal jsem se jednou za rok, obvykle v květnu, za hranice.

Tento typ cvičení, ve kterém musíme uhádnout podle kontextů, jaké slovo doplnit, se používá v britských zkouškách na úrovni C1, hodí se tedy pro vysoké pokročilosti, které již tyto kontexty znají. Pro češtinu je komplikovaný na výrobu i proto, že se jedná o flektivní jazyk. Tato cvičení mohou dobře fungovat buď pro nesklonná slova jako předložky nebo spojky, nebo je nutné za každou větou přidat doplňující morfologické údaje (viz cvičení mix).

e) doplňování slov – promíchané konkordance

Doplňte do vět slovesa žít nebo bydlet. Jaké dva významy má slovo žít? Můžou být někde obě slovesa? Kde je možná jenom jedna varianta? (úroveň A2)

Studenti doplní správný tvar slovesa a diskutují, zda je někdy možné použít oboje. Žít může znamenat existovat, nebo má podobný význam jako bydlet. V druhém případě žít většinou chápeme jako dlouhodobější pobyt. Přiloženy jsou originální věty, někde však lze použít obojí, např. Už nemůžu dál žít/bydlet s partnerem.

129

Už nemůžu dál ………………………… s partnerem. (inf.) Bude ………………………… sama v bytě, kde je všechno nové.(inf.) ………………………… (on) v poslední době ve velkém napětí. (min. čas) ………………………… (on) s neustálou bolestí zubů a často se nemůže ani normálně najíst. (přít. čas) Když vyšel z vězení, neměl kde …………………………. (inf.) Několik let ………………………… (já) v Kodani. (min. čas) Několik týdnů ještě ………………………… (ona) v hotelu Midtown. (min. čas) Maminka už ………………………… (ona), a i za jejího života jsem věděl, že jí nemůžu věřit všechno. (přít. čas, neg.) Doba, ve které ………………………… (my), je hodně nezajímavá. (přít. čas) Teď tu vlastně …………………………Liz, ale přestěhuje se do většího pokoje po Marii. (přít. čas) Manžel, ten nemusí ………………………… u manželky. (inf.) ………………………… si podle svého. (min. čas) Pro lidi, kteří …………………………mimo Prahu, jsou společné cesty do práce nutné. (přít. čas) ………………………… (oni) v oddělených, ale nepříliš vzdálených domech. (přít. čas) Tyto služby máte zdarma, pokud v hotelu …………………………. (přít. čas) Já ………………………… z té práce …………………………, " odpověděl nešťastně. (min. čas) ………………………… (on) až v posledním poschodí. (přít. čas) ………………………… (to) se nám tady skvěle, “ pochvalují si architekti. (přít. čas) ………………………… (my) u přátel a příbuzných v okolních městech. (min. čas) Byly to letní tábory, kde ………………………… (my) ve stanech. (min. čas., neg.)

Toto cvičení bylo testováno a vyvstal u něj právě ten problém, že je potřeba přidat co nejvíce morfologických informací o doplněné variantě, jinak je pro studenty velice obtížné. Nestačila pouze osoba, ale lektorka přidala ještě údaje o čase.

Toto cvičení je také pro učitele náročnější na tvorbu, neboť musí vybírat takové věty, kde bude srozumitelná kolokace i celá věta, aby student dokázal slovo doplnit. Pokud se jedná o slova s jasně oddělitelnými kolokacemi, např. mýt (ruka, okno…) vs. čistit (bota, ulice…), je potřeba tyto kolokace se studenty procvičit ještě před cvičením, např. formou třídění.

3. Spojování a) spojování levého a pravého kontextu

Spojte levou a pravou část věty. Dívejte se, jaký je to pád. (úroveň B1)

Mezi oběma muži mlčky kolébající se loď. V obou přehledech lze označit pořady, které má připomenout či nahrát. Při obou příležitostech se k ní Susan demonstrativně otočila zády. Myslím, že jsme obě rukama vztyčenou vlajku. Po celé minuty pozorovali oba stranách. Držel jednou nebo oběma trochu stydlivé. Tak, teď mám své syny po obou zařízeními najdeme ale i mnoho společných znaků.

130

Při tomto cvičení jsme levý kontext s klíčovým slovem vložili do levé tabulky, pravé kontexty jsme seřadili abecedně a vložili do pravé tabulky. Cvičení tak nezabralo moc času, důležité je však věty, ve kterých půjde spojit kontext, vybrat tak, aby nedocházelo k nejasnostem.

Může se to na první pohled jevit jako ideální cvičení na procvičování pádů, avšak pokud studenti pády znají, bude to pro ně pouze mechanické. Je tedy nutné odhadnout správně úroveň a důkladně vybrat věty, což je opět pro učitele časově náročné.

4. Produkce a) mluvení

Diskutujte s partnerem, v jakém domě nebo bytě byste raději bydleli a proč. Domácí úkol: Napište, jak bude vypadat váš ideální dům nebo byt. (úroveň B1)

rodinný, bytový, panelový, kulturní, obchodní, pasivní, obytný, cihlový, nízkoenergetický, činžovní, rodný, řadový, parkovací, zděný, měšťanský, patrový postavit, stavět, prodat, koupit, zateplit, vyhořet, vlastnit, vytápět, obývat, rekonstruovat, pronajmout, opravovat, dům ulice, lokalita, centrum, část, čtvrť, město, zástavba, vesnice, styl, stav, sousedství, standard, budova výtah, zahrada, střecha, garáž, podkroví, pozemek, fasáda, okno, dispozice, bazén, prostor, výhled, číslo, spotřeba, nábytek, vchod, terasa, dvůr, novostavba

družstevní, nájemní, obecný, prostorný, zařízený, panelákový, luxusní, slunný, zrekonstruovaný, mezonetový, podkrovní, cihlový, městský, třípokojový, půdní, startovací, světlý pronajmout, pronajímat, prodat, prodávat, koupit, kupovat, zařídit, zařizovat, pořídit, byt zrekonstruovat, užívat, zařídit, vyměnit, obývat, vlastnit, vykrást, vyloupit, uklidit, vymalovat, sehnat, nabízet, přestěhovat se (z – do), nastěhovat se (do), odstěhovat se (z), zaplatit nájem, pronájem, prodej, koupě, vlastník, plocha, majitel, vlastník, užívání, nájemce, cena, vybavení, rekonstrukce, výstavba, zařízení, převod, výměna, vyklízení, podlaží

Tento typ cvičení pomáhá studentům při produkci tím, že mají před sebou slovní zásobu, kterou mohou použít. Cvičení bylo vytvořeno z korpusu czTenTen[12] v nástroji Sketch Engine. Funkce Word Sketch zobrazuje kolokace slova tříděné podle strukturních vztahů. Je tedy pro učitele snadné a rychlé vybrat slovní zásobu, která se bude hodit pro danou úroveň nebo konkrétní úkol. Při zjednodušení jako zde může nastat problém při neznalosti vazeb, např. slovesa spojovaná s bytem se všechna vážou

131 na akuzativ kromě nastěhovat se, přestěhovat se a odstěhovat se – zde by bylo nutné přidat ještě předložky.

b) psaní

Podívejte se na tyto fráze. Co mají společného? Jak se liší? Jaké mají nejčastější kontexty?

Domácí úkol: Je lepší bydlet ve městě nebo na venkově? Napište text, ve kterém vyjádříte svůj názor. Použijte některé fráze z těchto vět. (úroveň B1)

Podle mě mají optimisté snazší život a já chci dceři ukázat, že život může být krásný. Podle mě je to hlavně díky psychice. Mám pocit, že se všichni za něčím honí, chtějí něčeho dosáhnout, a pak zjistí, že nemají čas sami na sebe. A mám pocit, že nám to i díky tomu doma dobře funguje. Proto je důležité, aby byl každý pacient před anestezií vyšetřen. Je důležité se rozhodnout, kdy je vhodná doba k nákupu. Z vlastní zkušenosti však nepotvrzuji, že rodiče více dětí by byli méně spokojení Z vlastní zkušenosti vím, že u korálků člověk zapomene na celý svět během deseti minut. Pokud je nutné volit, přimlouváme se za druhou variantu. Je nutné akutní stadium choroby strávit v posteli. Řekl bych, že Norsko a Dánsko jsou dnes jinde než to Švýcarsko. Řekl bych, že není kam spěchat. Byla jsem přesvědčená, že dojde jen k minimálním ztrátám. Jsem přesvědčený, že otevřenost je nejlepší princip, na kterém to může fungovat.

Využívání korpusových dat pro výuku psaní má velký potenciál a to z toho důvodu, že při psaní studenti často potřebují různé referenční příručky. V případě, že studenty naučíme pracovat s korpusem jako doplňkem k učebnici, mohou si kontexty slov hledat sami.

5. Mix

Dalším polem k objevování jsou gramatická cvičení, která se soustředí na gramatické vazby (koligace), např. slovesné nebo předložkové vazby. Tato cvičení jsou však téměř vždy kombinovaná s lexikálními, protože lze vytvořit více otázek k jednomu cvičení, které se zaměřují jak na význam, tak i na formu.

a) gramatika – jedno slovo

Jaký pád potřebuje sloveso věnovat se? Existuje také bez se? Jaký je rozdíl ve významu?

132

Najděte ustálenou frázi. Co znamená? (úroveň B1)

Studenti podle kontextů (událostem, literatuře) najdou, že sloveso věnovat se potřebuje dativ a znamená zabývat se něčím / dávat něčemu svůj čas. Sloveso věnovat označuje dávat něco. Ustálená fáze věnovat pozornost (něčemu) znamená zaměřit se na něco / všimnout si něčeho.

Už dávno nikdo nevěnoval tak drahocenný dar. Podstatná část geografie se věnuje výzkumu regionů, jedná se o regionální geografii. Kromě hraní se Momoa věnuje také psaní a aktivně sportuje. Nápis mu věnoval k narozeninám bratr Joe – proslulý místní malíř. V drtivé většině případů není potřeba věnovat těmto událostem velkou pozornost. Rodiče se jí již tak nevěnovali, starali se o Jakuba. Tohle bylo první varování, jemuž jsem nevěnoval pozornost. A čemu se věnuje Radka nyní? V první sekci to jsou obrázky a videa s nejrůznější tematikou, poslední část se věnuje hrám. Věnoval se pedagogické literatuře a skladbám pro děti. Teď se můžu plně věnovat svému poslání. Blatný věnoval jednu ze svých skladeb americkému trumpetistovi Donu Ellvisovi . Dětem se mezitím věnují speciální pedagogové, školní psycholog a učitelé. Kolemjdoucí tomu nevěnovali téměř žádnou pozornost.

b) gramatika – dvě slova

Podívejte se na kontext slov znát a vědět. Jaký je mezi nimi rozdíl? Co můžeme použít po těchto slovech? Co znamená znát se? (A2)

Studenti pozorují věty a ztišťují, že po slovese znát se používá akuzativ, zatímco po slovese vědět věta (uvozená co, že, proč, ale, jak, jaký apod.) nebo zájmeno to. Znát se znamená znát se navzájem.

Měla by tu ženu znát? Víte, co připravují? Známe se tak dobře, že komunikujeme beze slov. Dnes už víme, že to není pravda. Řekni mi tedy, znáš město jménem Ósaka? Co víme o světě? Možná že neznáme žádnou lepší alternativu. Nevím, proč s tebou ztrácím čas. Mám Sofii moc ráda, známe se už víc než sedm let. On přece neví, že tu jsme. To tajemství dobře znáte, pane Brahe. Nechci to vědět. Taky zná líp než kdo jiný svého bratra. Veronika řekla, že neví vůbec nic. Nevím, jestli znáte japonskou kuchyni, povídá mi. Nevíme jak, ale funguje to. Elias se nesmí dozvědět, že se známe. Je důležité přesně vědět, jaký je mezi nimi rozdíl.

c) mix (typů cvičení)

Jaký je rozdíl ve významu mezi těmito slovy? Jaký je typický kontext? (úroveň A2)

133

Studenti si všímají nejen vazeb, ale diskutují i o rozdílech ve významu, popř. správném překladu do svého mateřského jazyka.

Robinsovi říkají, že zkoušky na střední školu budu moci dělat až příští léto. Často mi vyprávěl o dětství, o vesnici a o lese. Mluvil s vámi bratr o tom incidentu? Někdy jsme se sešli všichni tři a povídali si o životě. Diskutovali jsme o otázkách technicko-uměleckých a produkčních. My se bavíme o něčem, co nemá vlastně tvar.

Doplňte nejdříve správné slovo k pěti větám podle kontextu. Pak utvořte správný tvar v každé větě.

Slyšíš , co ? (já - přít. čas.) No tak , co , pane , dům je báječný , nemám pravdu ? (vy - přít. čas.) Ale se, že těžko na cvičišti a lehko na bojišti. (to – přít. čas) Mnohdy jenom opakujeme to , co v minulosti. (my - min. čas) Zvedej se , , že ji miluješ ? (ty - min. čas - negace) Starší paní v přeplněné tramvaji své známé příhodu (ona – přít. čas) Prosím , mi o své dceři. (ty – imper.) Vzrušeně o svých básnických plánech (ona – min. čas) Rádi vtipy o tom, že si nechali postavit heliport. (oni- min. čas.) Začala ,jak býval Robert v dětství nemocný. (inf.) Chce s tebou okamžitě ! (inf.) Není o tom možné s konkrétní osobou , které se to týká. (inf.) Nerad abstraktně o „ moderním člověku “ (já – přít. čas) Zřejmě telefonicky s Jamiem. (já – min. čas) O čem to ? (ty – přít. čas) Několik hodin si o ostrově , škole a Eleně. (oni – min. čas) Vnučka bude ten příběh milovat a ho svým dcerám .(inf.) Paní vám , že to nejde . (já – přít. čas) Seděla na stoličce a si s barmanem. (ona – min. čas) Vypněte mobil, otevřete si víno a si o všem , co vás napadne. (vy – imper.) V neposlední řadě o problematice českého postoje k náboženství. (my – přít. čas) Dva dny předtím o politice a hrozně se pohádali. (my – min. čas) S lidmi z oboru často o tom , co je pro polský design specifické. (my – přít. čas) V současné době se o vysoké míře nezaměstnanosti. (to – přít. čas) Na webu deníku Metro čtenáři o developerských projektech v centru metropole. (oni – přít. čas) V životě jsme se o tom nikdy jsem to neřešil. (my – min. čas) S Hanou se v poslední době ani doma. (já – přít. čas – negace) Zatímco jsme se s našimi přáteli, seděla jsem hned vedle Simona. (my – min. čas) Vlastně …i když ano, se s námi. (on – přít. čas.) Řekli jsme si, že se o tom nebudeme odpověděl Landsman. (inf)

Toto cvičení vzniklo na základě konzultací s lektorkou Blankou Jaurisovou z oxfordské univerzity a bylo vytvořeno přímo na míru jejím studentům, a to jak z hlediska tématu, tak i provedení. Studenti jsou rodilí mluvčí angličtiny a často mají problém tato slovesa významově odlišit. Na základě předchozích cvičení jsme tedy vytvořili mix, tj. nejdříve krátkou pozorovací aktivitu, u které si studenti všimnou různých vazeb sloves a také toho, jak se liší jejich význam. Poté následuje delší doplňovací cvičení, tentokrát takové, kde se doplňuje vždy jedno slovo do 5 různých

134 kontextů. Lze nejdříve číst kontexty a diskutovat o tom, jaké slovo kam doplnit dle významu a až nakonec doplnit do jednotlivých vět správnou formu. Přidali jsme doplňující morfologické informace, neboť jinak by bylo velmi obtížné slovesa do vět doplnit.

Tento typ cvičení je opět náročnější na tvorbu. Učitel musí vybrat 5 konkordančních řádků tak, aby bylo dle významu či vazeb jasné, jaké sloveso doplnit. Věty, přestože vytržené ze svého původního kontextu, musí být srozumitelné pro danou jazykovou úroveň, popř. upravené či zkrácené. Typ mix je zřejmě nejnáročnější, ale také nejefektivnější – studenti nejen data pozorují a odhalí pravidla a vzorce fungování v jazyce, ale zároveň si je i procvičí.

7.4.3 Paralelní korpusy Cvičení z paralelních korpusů ukazují překlady slov nebo slovních spojení, můžeme tak porovnat rozdíl v kontextu a významu ve dvou jazycích. Výběr korpusů záleží na mateřském jazyce studentů. Cvičení byla vytvořena z dat paralelního korpusu InterCorp, který kromě češtiny nabízí 24 jazyků. Ideální typ cvičení je pozorování. Existují dvě možnosti dle překladu: překlad z jazyka A do B a naopak. Zde jsme však cvičení rozdělili podle toho, jestli se soustředí na samotné slovo, frázi, gramatiku nebo význam. Byla by jistě užitečná taková cvičení, která by se orientovala na překlad z obou stran, a mohla by tak vysvětlovat tzv. falešné přátele (viz d).

Pozorování

a) jedno slovo

Kolik různých variant má slovo English v češtině? Čím se liší? (úroveň A2)

Studenti pozorují, že různé slovní druhy se v češtině vyjadřují jiným tvarem: Angličan, anglický, anglicky, angličtina. Také velké písmeno se nepíše všude.

135

But I understand that you speak a little English. Prý ale trochu anglicky umíte. An english flag. Anglická vlajka. It 's in English. Je to v angličtině. Where are the English? Kde jsou Angličané? My English is n't good enough. Na to moje angličtina nestačí. It 's amazing how much your English has improved. Najednou jako byste mluvil anglicky nějak líp. And how many English ships are there? A kolik je tam anglických lodí? Not lrish , not English . Ani Ir, ani Angličan. English is not my first language. Angličtina není můj rodný jazyk. Can you say that in English, please? Můžete mluvit anglicky, prosím? English weather. Anglické počasí.

b) fráze

Co obvykle následuje po spojení je mi? V jakém kontextu tyto fráze můžeme používat? (úroveň A1)

Studenti pozorují věty a překlad a zjišťují, že po frázi je mi následuje většinou adverbium nebo číslovka. Adverbium vyjadřuje nějaké pocity, např. dobře vs. špatně, teplo vs. zima. Proto se v anglickém překladu často vyskytuje sloveso feel. Mohli bychom také zobecnit, že se jedná o pocit, který nastává vnějšími vlivy (počasí, nemoc apod.). Kromě toho se tato fráze využívá k vyjádření věku: Je mi 36. A také v ustálené frázi Je mi to líto.

Je mi zima. I 'm cold. Je mi to moc líto, Leno. I 'm so sorry , Lena. Je mi fuk, jak to uděláš. I do n't care how you do it. Je mi takhle líp. Yeah, better this way. Je mi špatně. I feel sick. Je mi z toho zle a jsem unavenej. I 'm really sick and tired. Je mi skvěle. I 'm feelin'great. Je mi to fuk. I do n't care. Mami, je mi 15. Mom, I 'm 15. To je mi líto. So sorry. Je mi výborně. I feel fine. Je mi 36. I 'm 36. Je mi vedro. I 'm hot.

Toto cvičení jsem testovala se svými studentkami (Italka, Dánka, Bulharka a Irka) při výuce tématu návštěva u lékaře. Bylo pro ně těžké odlišit konstrukce s akuzativem bolí mě a s dativem je mi špatně. Při pozorování těchto vět si všimly, že po „je mi“ se používají adverbia, která vyjadřují pocity a dojmy. Všimly si také, jak se vyjadřuje věk v češtině, a zaujala je fráze Je mi to fuk. Všechny se shodly, že toto cvičení s více příklady vět a překladem jim pomohlo v pochopení struktury Je mi špatně.

136

c) gramatika

Jak můžeme přeložit předložku do? Můžeme zobecnit, kdy se v češtině používá do? (úroveň A1)

Studenti pozorují, že předložka do vyjadřuje dynamický pohyb, označuje směr dovnitř.

Do hotelu? At the hotel? Půjdu dát ty věci do ledničky. Well, I should go put this stuff in the fridge! Yakuza si to rozmyslí, ...než se vrátí do Číny. The Yakuza will think twice before they return to China. Musím se připravit do práce. I have to get ready for work. Vaše žena chce zpátký do New Yorku. Your wife 's returning to New York. To si přeji do roku 2009. That is my wish for 2009. Až do jara podniknout invazi nemůže. Ca n't invade now till the spring.

d) význam

Jaký je rozdíl mezi slovy spokojený a klidný? Jsou to v češtině synonyma? Jak se překládají do ruštiny? (úroveň B1)

Studenti pozorují překlady a vidí, že to vůbec nejsou synonyma a nemohou tedy používat slovo spokojený ve významu klidný. Spokojený se překládá jako доволен, ale může mít i další významy, např. счастлив, zatímco klidný vyjadřuje něco tichého, můžeme jej tedy přeložit jako тихий nebo спокоен.

Jsem velice spokojený. Мне так приятно! Jste spokojeni s chuťovkami? Как вам мои закуски? Jseš spokojená? Ты счастлива? Budete spokojeni. Вы будете довольны. Tvůj klient je spokojený. Твой клиент доволен. Buď klidná. Не волнуйся. Celá jeho tvář je klidná a hladká. Так же гладко и спокойно его лицо. Byla klidná a jasná noc. Наступила тихая , ясная ночь . Já jsem klidný. Я спокоен. "Měli masky?" zeptal se klidným hlasem. А маски? - спросил он и голос звучал спокойно.

Toto cvičení vychází z Johnsových tandemových aktivit, ve kterých využíval překladové korpusy (Johns, 2002). Uvádíme typické falešné přátele pro rusky mluvící studenty učící se češtinu: spokojený a спокоен. Studenti často používají slovo spokojený ve významu klidný, proto jsme se rozhodli ukázat obě slova i s možnými překlady, aby si uvědomili rozdíl.

137

Výhodou je v KonTextu funkce zobrazení Věta, díky které se můžeme soustředit na krátké srozumitelné věty, a proto je tvorba překladových cvičení velmi rychlá. Nutná je však učitelova znalost cizího jazyka.

Problém může nastat, pokud nemáme homogenní třídu, což při výuce v České republice často nastává. V takovém případě je nutné studentům jiného mateřského jazyka připravit jiná cvičení. Výhodou však je, že díky překladu se tyto aktivity hodí i pro velmi málo pokročilé studenty (A1, A2).

7.4.4 Žákovské korpusy Žákovské korpusy obsahují texty studentů-cizinců, kteří se učí cílový jazyk. Jejich chyby lze porovnat s jazykem rodilých mluvčích z obecného korpusu. Pro cvičení jsme využili žákovský korpus CzeSL-Plain a psaný reprezentativní korpus SYN2015. Typy cvičení se mohou lišit podle druhů chyb. Vždy je však dobré porovnat věty s chybami s inputem rodilých mluvčích pro ukázku tzv. dobré praxe (Hunston, 2002).

Pozorování

Přečtěte si nejdříve studentské texty. Chybí tam něco? Pak si přečtěte texty rodilých mluvčích? Jaké dva významy má slovo myslet? Nakonec opravte studentské věty. (úroveň B1)

Studenti pozorují studentské texty a vidí, že se tam velmi málo objevuje se. Při porovnání s texty rodilých mluvčích si pak mohou všimnout, že pokud vyjadřujeme svůj osobní názor, bude tam se. Nevratné myslet ukazuje spíše na pravděpodobnost.

Studentské texty Texty rodilých mluvčích

Myslím, že pozitiv cestovního ruchu je více, než negativ. Pokud ano, myslím, že by to stálo za to. Myslím, že to je jako laska na prvni pohled. Myslím si, že výsledek je pro Baník krutý. Myslím že rodina je nejdůležitější a nejpotřebnejší Myslím, že kdyby to viděla matka, tak by byla spokojená. socialní zjevení. Myslím si, že život je složitější. Myslím, že je docela dobré. A myslím, že jsem těhotná! Myslím si, že každý si pod pojmem štěstí vybaví něco Myslím, že tato věta, jakkoli jsem ji napsala osobně, není jiného. pravdivá. Myslím, že ona má ráda Prahu a český jazyk. Ale myslím si, že jde o správný nástroj. Myslím, že můj ideální dům je velký a světlý byt Myslím, že dole je dětský koutek. Myslím si, že tohle ještě víc spojuje naši rodinu. A myslím si, že se kalendář nakonec povedl. Myslím, že líbí se mi Martin. Myslím si, že loňský ročník byl klimaticky složitý. Myslím že pro tě bylo by lepší se sejít v sobotu.

138

Při tvorbě cvičení z žákovských korpusů je vždy důležité prezentovat také správné příklady, aby si studenti chyby nezafixovali. Ideální je vytvářet cvičení podle jejich vlastních častých chyb. Z naší zkušenosti víme, že si tyto chyby často vůbec neuvědomují a díky povšimnutí ve cvičení nebo explicitnímu ukázání učitelem si zapamatují správný výraz či formu.

7.5 Shrnutí

Tato kapitola se zabývá přímým využitím korpusů ve výuce češtiny jako cizího jazyka. Shrnuje zahraniční výzkum (Johns, 1991; Römer, 2008; Boulton, 2012 ad.) orientující se především na výuku angličtiny. Při přímém využívání korpusů, metodě data-driven learning (DDL), studenti sami pracují s korpusovým vyhledávačem. Pozorují data, všímají si pravidelností, typických kontextů apod. a následně generalizují pravidlo. V dnešní době, přestože jsou korpusové nástroje uživatelsky přátelské, není samozřejmostí využívat korpusy pro výuku, a to ani angličtiny. Důvodem je často obava z techniky nebo neorientace v datech. Pomoci může výběr či úprava konkordancí a vytvoření cvičení na papíře. DDL se proto dělí na tvrdé (hands-on, přímé vyhledávání) a měkké (hands-off, DDL „na papíře“). Vysvětlujeme, jakým způsobem používat přímo nástroj SyD, KonText a Sketch Engine. Ideální je nástroj SyD, ve kterém je vše vizualizováno. Hodí se pro vyhledávání variant v mluvené a psané češtině nebo pro vyhledávání kolokací (jednoho či více slov). Prezentujeme, jaké typy cvičení byly publikovány při experimentech ve výuce angličtiny, a na tomto základě vytváříme typologii korpusových cvičení vhodných pro výuku druhého jazyka. Naše perspektiva je výhradně česká, proto ke každému typu cvičení vkládáme ukázku typu aktivity, z nichž některé typy již byly testovány. Komentujeme, jak časově náročné je cvičení pro učitele vytvořit, pro jakou jazykovou úroveň je vhodné a jak s ním pracovat. Základní typy jsou: 1. pozorování, 2. doplňování, 3. spojování, 4. mluvení a psaní a 5. mix. Ideálním cvičením se jeví typ pozorování, které je pro učitele snadné vytvořit a je srozumitelné pro studenty. Vzbuzuje jejich zájem něco objevit a podporuje tzv. povšimnutí struktur a významů. V případě homogenní skupiny studentů lze pozorovací cvičení jednoduše a rychle vytvářet z překladových korpusů (InterCorp) a díky překladům jsou cvičení

139 vhodná pro všechny pokročilosti. Na základě testování vyšlo najevo, že dobrou praxí je vytvářet cvičení přímo na míru konkrétním studentům s problematickými slovy nebo jevy. Dále také, že na začátku stačí několik vět pro pozorování a následně je dobré přidat více vět pro procvičení, např. typ doplňování. Při něm je často v češtině nutné ještě přidat doplňující morfologické informace. Přínosem cvičení je nejen zaměření na konkrétní cílovou skupinu, ale také setkání s živým autentickým jazykem mimo učebnici, aktivity spojující formu i význam a v neposlední řadě také zvýšení autonomie studenta při učení.

140

8 Nepřímé využití korpusů109

Zatímco přímé využití korpusů velmi závisí na dostupnosti korpusů a technické srozumitelnosti jejich vyhledávacích nástrojů, nepřímé využití korpusů ve výuce se týká spíše výzkumníků nebo autorů výukových materiálů. Zaměřuje se na korpusová data a jejich využití při tvorbě pedagogických gramatik, žákovských slovníků, učebnic a plánování sylabu. Čeština jako cizí jazyk je celkem nová disciplína. V posledních 25 letech se zformovalo mnoho nových cílových skupin studentů, pro které není k dispozici dostatečné množství učebních materiálů. Každý učitel češtiny pro cizince tak zažil situaci, kdy musel vytvářet cvičení na míru svým studentům sám. V souladu s Römer(ovou) (2006) a v souvislosti s dostupností českých korpusů se proto domníváme, že korpusy mohou sloužit také učiteli, který si vytváří vlastní cvičení, a sice především jako zdroj autentických příkladů.

Korpusový výzkum využívá dva hlavní přístupy: kvantitativní a kvalitativní, přičemž oba mohou být využity pro tvorbu gramatik, učebnic nebo sylabů češtiny jako cizího jazyka. Kvantitativní analýza přináší frekvenční údaje o tom, jaké jevy jsou často užívané a jaké okrajové. Tento fakt hraje důležitou roli při výběru vyučovaných jevů a také jejich posloupnosti. Kvalitativní výzkum popisuje slova a jejich kontexty a ukazuje reálné jazykové užití. Pro výuku jazyků lze z takovýchto analýz čerpat data pro modelové věty vysvětlující gramatické pravidlo či význam slova na příkladech. Výhodou korpusu je jeho velikost a možnost vyselektovat typické ukázky slov v kontextu.

Pro rozhodnutí, kdy a jaký gramatický prvek předkládat studentům, existuje více hledisek: frekvenční, funkční, obsahové, kvalitativní a kvantitativní, synchronní a diachronní apod. Škodová se Štindlovou v teoretickém úvodu svého článku (2007, s. 57) uvádějí tři důležitá kritéria: 1. komunikační potenciál daného jevu (jeho využití v praxi), 2. frekventovanost jevu/ tvaru v současném jazyce (výskyt v ČNK) a 3. podíl gramatického jevu na budování celkové jazykové kompetence. Podle Milana Hrdličky je však základním kritériem pouze „podíl na utváření komunikační kompetence mluvčího“ (2002, s. 74). Komunikační kompetencí pak rozumí „schopnost mluvčího úspěšně realizovat svůj komunikační záměr“(ibid., s. 70), tedy komplexně chápanou

109 Část této kapitoly již byla publikována (Vališová, 2012b), jedná se o rozšířenou verzi. 141 kompetenci, ne pouze jako znalost jazykovou, ale jako souhrn jazykových, kulturních, společenských a situačních kompetencí. Frekvence daného gramatického jevu tedy ani nemůže být jediným hlediskem, avšak přehlédnout ji taky nemůžeme. Vzhledem k existenci psaných i mluvených korpusů nám frekvenční analýza napoví, které jevy patří do psané a které do mluvené komunikace, které jsou hojně využívané a které ne, tudíž je lze při výuce nižších pokročilostí vynechat. Třídění a výběr vyhledaných jevů pak závisí na autorovi a je v tomto ohledu nutností.

V kapitole o jazykové intuici (3.1.2) jsme se zmínili o přednostech korpusových dat. Kromě frekvenční distribuce šlo především o kolokace slov, sémantickou prozodii a frazeologická spojení. Jedná se tedy o kontexty slova, které lze zkoumat jak kvalitativně, tak i kvantitativně (díky asociačním mírám). V tomto směru je inovativní sylabus navržený Sinclairem a Renouf(ovou) (Hunston(ová), 2002, s. 189), jehož centrálním konceptem organizace je lexikum, a proto se nazývá lexical sylabus. Nejedná se však pouze o seznam lexika, jak by se mohlo zdát. Tento sylabus zahrnuje všechny aspekty jazyka, ale centrální zaměření je na: 1. frekventovaná slova, 2. typické vzorce užití a 3. kombinace, které běžně vytváří (ibid., s. 189). Podle Sinclaira a Renouf(ové) je výuka gramatiky spojena s lexikem a nejde ji proto oddělit. Podobně jako nocionálně-funkční sylabus van Eka (Threshold level – Prahová úroveň, 1977) je uspořádán na obsahovém základě, ke kterému jsou přiřazeny konkrétní lexikální a gramatické jevy a jejich vhodné realizace (Sinclaira a Renouf, 1988). Lexikální sylabus však nepovažují za náhradu metodologie výuky, pouze na základě korpusového výzkumu ukazuje, co se má učit.110

Ve výuce angličtiny začaly vznikat korpusové slovníky a gramatiky určené pro studenty jazyka v čele s projektem COBUILD111. Přinášejí spolehlivější informace o jazykové realitě (Römer, 2008, s. 116). V češtině zatím nevznikají korpusové příručky určené přímo pro studenty-cizince, lze však využít dosavadní korpusové příručky a gramatiky pro rodilé mluvčí, jež přinášejí mnoho užitečných dat o jazyce, a to pro tvorbu sylabu, gramatiky či handoutů přímo do výuky. Konkrétním pedagogickým využitím těchto publikací se budeme věnovat v kapitole 8.3.

110 Lexikální sylabus dále rozpracoval Dave Willis (1990) Lexical Syllabus. London: HarperCollins. 111 Na základě projektu COBUILD vznikla také první učebnice založená na korpusových datech: WILLIS, Dave a Jane WILLIS (1989) Collins COBUILD English Course. London: HarperCollins. 142

8.1 Pedagogická gramatika

Pedagogická gramatika je charakterizována svým didaktickým zaměřením na výuku jazyka jako cizího/druhého:

Pedagogická gramatika „přetavuje vybrané a patřičně upravené poznatky gramatiky lingvistické do vyučovací teorie a praxe. Je orientovaná aplikačně – z tohoto zaměření nutně vyplývá i specifická podoba různou měrou a různým způsobem redukovaného a zjednodušeného (i procvičovaného) popisu a prezentace gramatického systému daného jazyka v jazykové výuce. (Hrdlička, 2009, s. 31)

Vzhledem ke zjednodušení je při tvorbě pedagogické gramatiky tedy nutné vyřešit: 1. jaké jevy vybrat (a také jak je parcelovat112) a 2. jakou návaznost mají mít. Jak již bylo řečeno výše, výběr a posloupnost jevů nemůže záviset pouze na frekvenci, ale také na jeho funkčnosti při vytváření celkové komunikační kompetence (zde může být nápomocný popis Rámce). Důležitý je tedy i význam jevu, nejen jeho strukturní stránka.

Pedagogická gramatika se totiž nerovná pouze sadě pravidel. Při výuce druhého jazyka se studenti potřebují naučit užívat vhodný jazyk za účelem úspěšné komunikace v dané situaci. Podobně jako Hymes zdůrazňoval sociální faktory komunikace, dle nichž se mluvčí rozhoduje o vhodnosti použití jazyka v daném kontextu (na základě jeho teorie komunikační kompetence vznikl komunikační přístup, viz kap. 5.2), Halliday vyzdvihuje funkci, tj. účel komunikace (Keck a Kim, 2014, s. 35) a ovlivňuje tak nové přístupy v pedagogické gramatice. Hallidayova funkční lingvistika tedy nezačíná analýzou struktury věty, ale analýzou komunikační situace a zabývá se i mimojazykovými jevy. Na tomto základě vytváří Larsen-Freeman(ová) strukturu pedagogické gramatiky ze tří dimenzí: „forma, význam a užití“113 (ibid., s. 37). Dle ní musí pedagogická gramatika druhého jazyka poskytnout informace o všech třech dimenzích. Vždy je také potřeba vysvětlovat výběr jevu, tj. proč byla určitá forma použita, pokud existuje v dané situaci více možností vyjádření (tzv. gramatika výběru – “grammar of choice“).

112 Parcelací nemyslíme pouhou simplifikaci, ale také rozčlenění jevu dle obtížnosti a tématu (viz dále). 113”The Tree Dimensions: Form, Meaning and Use“ 143

8.1.1 Parcelace gramatiky V českém prostředí se v souvislosti s pedagogickou gramatikou prosadil pojem parcelace. Základem tzv. parcelace gramatiky114 (Štindlová, 2015) je spojení gramatiky s významem. Charakteristické je tedy rozčlenění gramatického jevu dle významu. Studenti se tak např. neučí celý pád, ale pouze jeho části v závislosti na funkčnosti v rámci probíraného tématu. Např. akuzativ singuláru pouze ženského rodu v tématu restaurace (Dám si kávu.) nebo instrumentál názvů dopravních prostředků v tématu orientace (Jedu vlakem.). Parcelace jevů souvisí s převažující tendencí obsahového vyučování. Přestože bývá zdůrazňován komunikační přístup výukových materiálů, gramatiky češtiny pro cizince bývají často redukovány na gramatické tabulky, např. Česká gramatika v kostce (Bořilová – Holá, 2010). Gramatika Karla Tahala (2010)115 naopak vysvětluje pády a jejich význam včetně příkladů, existuje však pouze na bázi angličtiny a je tudíž omezena na cílovou skupinu ovládající angličtinu. Další gramatiky, např. Poldaufa a Špruňka Čeština jazyk cizí (1968) nebo Jamese Naughtona Czech: An Essential Grammar (2005) jsou velmi podrobné a zahrnují také příklady, ale obsahují tradiční kategorie (5 slovesných tříd, vertikální výuka pádů), jsou tudíž prospěšné hlavně pro bohemisty nebo vysoce pokročilé studenty.116

Zjednodušení jevu souvisí se způsobem prezentace daného jevu mluvčím, jejichž mateřský jazyk může být velmi odlišný. Musíme tedy opustit stávající a tradiční kategorie a podívat se na gramatický jev jinak. Např. při prezentaci sloves tak potřebujeme zmenšit počet kategorií na základě strukturních vlastností. Tradiční dělení na pět tříd a čtrnáct vzorů při výuce cizinců nelze uplatnit, je nutné některé třídy nebo vzory spojit a některé, kde nelze poznat přítomný čas z infinitivu, přidat do sloves nepravidelných. Slovesa se většinou v učebnicích češtiny pro cizince dělí na čtyři skupiny: 1. –AT (5. třída), 2. –IT, -ET (4. třída), –OVAT (vzor kupovat 3. třídy)

114 Barbora Štindlová společně se Svatavou Škodovou začaly využívat pojem parcelace v roce 2005 pro Manuál pro učitele češtiny pro cizince bez znalosti latinky. Jde o způsob prezentace gramatiky pro neslovanské mluvčí a chtěly se vyhnout slovu zjednodušování, jež by mohlo působit jako oklešťování gramatiky (Štindlová, 2015). 115 Karel Tahal: A Grammar of Czech as a Foreign Language: http://www.factumcz.cz/K.Tahal- Grammar.pdf 116 Navíc jsou v českém prostředí špatně dostupné. Publikace Poldaufa a Špruňka je z šedesátých let a vyskytuje se pouze v knihovnách. Gramatika Naughtona je v angličtině (opět zúžení na jednu cílovou skupinu) a dostupná je jen na Amazonu. Studenti tak v realitě nemají dostatek referenčních příruček na výběr. Většina z nich využívá Českou gramatiku v kostce, anglicky mluvící (ne nutně rodilí mluvčí) gramatiku Karla Tahala, neboť je dostupná on-line a rusky mluvící nejčastěji využívají materiály pro české žáky základních a středních škol. 144 a skupina sloves nepravidelných (1. a 2. třída, vzor krýt 3. třídy a slovesa označovaná gramatikami za nepravidelná).

U výuky pádů je naopak potřeba postupovat na základě významu. Rodilí mluvčí jsou ze své školské praxe zvyklí na vertikální výklad pádů, tj. po vzorech, zatímco nerodilí mluvčí, u nichž nemůžeme předem předpokládat pochopení flektivního jazyka, potřebují pochopit význam pádů. Pokud mají studenti velmi odlišný mateřský jazyk, např. analytický, nerozumí vůbec skutečnosti, že se v souvislosti se změnou funkce mění tvary slova. V současné době však horizontální výuka pádů, tj. probírání jednotlivých pádů a jejich funkcí, převládá i u výuky Slovanů, a to z důvodu pochopení jednotlivých funkcí pádů, neboť i v tomto směru existují ve slovanských jazycích rozdíly (např. vyjádření životnosti v ruštině, význam vokativu v bulharštině).

Parcelace jevu tedy úzce souvisí s funkcí. Neprezentujeme strukturní vlastnosti daného jevu, tj. formu, ale vycházíme z komunikační situace a podle ní vybíráme vhodné gramatické prostředky.

8.1.2 Pedagogická gramatika a korpus Jak nám tedy při popisu pedagogické gramatiky může pomoci korpus? Podle Tognini-Bonelli(ové) (2001, s. 15) pedagogické gramatiky často špatně vykládají fakta, ani ne tak proto, že by je záměrně zjednodušovaly, jako spíše proto, že jsou založeny výhradně na intuici autorů nebo na tradici. Díky korpusovým datům můžeme objevit vzorce užití, a tedy i všechny možné významy slova podle kontextu. Hunston(ová) uvádí konkrétní příklady korpusových příruček, kde slova byla definována podrobněji než v příručkách nekorpusových (2002, s, 97).

Sinclair definuje jednotky, jež nesou význam, na základě jejich kolokací, koligací a sémantické prozodie. Abychom tedy pochopili význam, potřebujeme i kontext slova:

Popisované jednotky jsou ,rozšířenými jednotkami významu´, protože vycházejí z jednoho klíčového slova, které se v textu spojilo s dalšími slovy, která byla vybrána spolu se sledovaným slovem a tvoří pravidelný vzorec. V tomto smyslu se jedná o víceslovné jednotky, které určuje

145 pevně daná korelace mezi klíčovým slovem a jeho kontextem. Popisované jednotky mají lexikální i gramatické provedení.117 (Tognini-Bonelli(ová), 2001, s. 19).

Gramatika a lexikum spolu tedy úzce souvisejí. Student češtiny např. nejen musí vybrat správný tvar slova, ale potřebuje také vědět, v jakém kontextu slovo použít. Musí tedy znát jak pragmatické vlastnosti, tak konkrétní kolokace nebo koligace slova. Příklady gramatik angličtiny, které se zaměřují na kontexty slov, uvádíme v následující podkapitole. Předtím se podrobněji podíváme na témata, u kterých tvorba pedagogické gramatiky souvisí s korpusem.

1. Frekvence a seznamy slov

Frekvenční analýza na základě korpusu rozšiřuje naše chápání tradičních gramatických kategorií tím, že nám dává více informací (O´Keefe(ová), 2007, s. 100). O ´Keeffe(ová) udává jako příklad tvary záporu he´s not, she´s not, které jsou v korpusu výrazně frekventovanější než he isn´t, she isn´t, což se projevilo v učebnici řady Touchstone118 vytvořené na základě dat z korpusu the Cambridge English Corpus (ibid., s. 102). Učebnice tak odráží aktuální užívání jazyka.

Podobně můžeme postupovat při rozhodování, jaké tradiční kategorie ponechat a jaké zjednodušit nebo jakou slovní zásobu vybrat. Na základě frekvenční analýzy Českého národního korpusu a analýzy učebnic (Vališová, 2009, s. 80) jsme se zabývali otázkou, jak prezentovat česká slovesa v přítomném čase (obr. 41). Mimo klasických učebnicových typů (–AT, –IT, –OVAT) jsme – oddělili ještě slovesa 2. třídy jako frekventovanou a pravidelnou skupinu, která může být prezentována pokročilým studentům zvlášť a začátečníkům v rámci nepravidelných sloves. Těch jsme napočítali v korpusu 203, toto číslo však zahrnuje i některá zastaralá a řídká slovesa první třídy, např. třít, a při srovnání s dalšími jazyky není toto číslo velké (Osolsobě et al, 1998). Korpus také přináší údaje o nejfrekventovanějších slovesech, z nichž pak můžeme vybírat vhodné příklady dle jazykové úrovně či tématu. Na základě srovnání učebnic, ČNK a frekvenčních slovníků češtiny jsme vybrali 36 nejfrekventovanějších nepravidelných sloves (viz kap. 8.3.4).

117 “The units described are „extended units of meaning“ because, having started with a node word as a core, they have incorporated other words in the co-text that appeared to be co-selected with it and form a regular pattern. They are, therefore, multi-words units in that. They are defined by the strict correlation existing between a node and its context. They involve both lexical and grammatical realisation.“ 118 http://www.cambridge.org/us/cambridgeenglish/catalog/adult-courses/touchstone 146

6000000 5000000 4000000 3000000 2000000 1000000 0

Dělat Kupovat Modální

Nepravidelná Tisknout + minout Prosit + trpět + sázet

Obrázek 41 Frekvenční distribuce slovesných vzorů v korpusu SYN2000 (Vališová, 2009)

2. Varianty

Jazyk není monolitický a měli bychom brát v úvahu také žánr textu (Hunston(ová), 2002, s. 102). České obecné korpusy řady SYN sestávají ze třech žánrů, z publicistiky, z odborné literatury a beletrie. Mluvené korpusy řady ORAL zahrnují neformální konverzaci. Tento fakt dává možnost rozlišovat realizaci psané a mluvené češtiny a jejích specifik. Také lze objevit tendence a inklinace k té či oné skupině u dubletních tvarů. V učebních materiálech pro cizince se většinově používají koncovky –uju a –ujou pro první osobu singuláru a třetí osobu plurálu u vzoru kupovat 3. třídy (zde samostatná skupina: typ –OVAT). Jde nejen o preferenci mluvené češtiny ve výuce, ale také o zjednodušení koncovek, kdy skupina -OVAT a skupina nepravidelných sloves mají totožné koncovky (–u, –eš, –e, –eme, –ete, –ou). Při vyhledání těchto variant v korpusu (obr. 42) však vidíme převažující tendenci psané češtiny (téměř 65%) upřednostňovat variantu s –i. Podobné je to s plurálovou variantou – 96% pro variantu –í v psaném jazyce (obr. 43). Tuto skutečnost nelze přehlédnout, ale je potřeba ji zohlednit v učebních materiálech, např. tím, že ve vyšších pokročilostech (B2, pasivně i B1) by se měli vyučovat varianty –uji, –ují v rámci nácviku psané formální češtiny.

147

Obrázek 42 Varianty kupuju a kupuji v nástroji SyD

Obrázek 43 Varianty kupujou a kupují v nástroji SyD

Co se týče dublet, korpus je výborným zdrojem současného užití jazyka, lze z něj tedy čerpat seznamy nejfrekventovanějších slov pro konkrétní kategorie (např. jednotlivé substantivní vzory) nebo slova, u nichž jsou možné dubletní tvary (např. lokál singuláru maskulin životných). Pro toto využití je ideální Mluvnice současné češtiny, která tyto seznamy nabízí (více viz kap. 8.3.2).

Žánr však neznamená pouze rozdělení na psanou a mluvenou varietu jazyka. V rámci specializované výuky jsou užitečné korpusy specializované na jeden konkrétní žánr, např. akademické psaní. Z něj lze čerpat termíny dané oblasti zájmu, jejich kontexty nebo typické diskurzivní konektory (discourse markers).

1. Kolokace, slovní svazky a vzorce

Jedním z důležitých přínosů korpusové lingvistiky je vztah slova k jeho významu. Podle Firthova známého výroku: „Slovo stejně jako člověka poznáte podle toho, s kým

148 se stýká“119 (Palmer, 1968, s. 179) je význam slova zahrnut také v jeho kontextu. Kolokace není fixní fráze, ale jedná se o slova, která mají tendenci vyskytovat se společně. Díky korpusům velkého objemu a asociačním mírám můžeme vypočítat nejčastější kolokace slova. Spojení slov tedy není arbitrární, ale slova mají tendenci se přitahovat. Podle O´Keeffe(ové) (2007, s. 59) jsou to právě kolokace banálních a každodenních slov, na které je těžké přijít intuicí. Uvědomit si to můžeme např. na již zmíněném rozdílu sloves mýta čistit, ke kterému přidáme ještě uklízet:120

mýt: nádobí, ruce, okna, vlasy, podlahu, nohy, auto, obličej, schody

čistit: zuby, vzduch, krev, hlavu, nehty, brýle, rány, bazén, uši

uklízet: dům, pokoj, byt, ulici, věci, nepořádek, odpadky, hračky, sníh

Podobně může jít např. o typické spojení adverbia s adjektivem:121

naprosto spokojený, hluboce zklamaný, příjemně překvapený

V tomto ohledu je inovativní autorkou učebnic Ilona Starý Kořánová (2014), která jako jedna z mála explicitně využívá kontexty slov nalezené v korpusu, a to pro výuku vidu. Využívá tzv. signálních slov, tj. kolokací nedokonavých a dokonavých sloves, a na základě nich učí studenty-cizince rozeznávat vid (Kořánová, 2012):

Nedokonavá slovesa: pořád, stále, nepřetržitě, furt, celý den/týden/rok, pravidelně, často, nejčastěji, znovu a znovu, donedávna, začít, přestat, dokud, zatímco.

Dokonavá slovesa: jednou, poprvé, najednou, naráz, nejpozději, nakonec, konečně, navždy, dokázat, podařit se, povést se, nečekaně, najednou, náhle, dokud ne-, jakmile, dříve než, brzy, po chvíli (Kořánová, 2014, s. 144–145).

Korpus dává doklady též o frekventovaných víceslovných svazcích (lexical bundles / chunks), které nesou význam (O´Keefe(ová) et al, 2007, s. 60). Slovní svazky mají důležitou funkci hlavně při konstruování textu (tzv. diskurzivní konektory) a mohou studentům pomoci při nácviku psaní, tj. poskytnout doklady o typických začátcích a koncích odstavců nebo textů různého žánru. Svazky lze vyhledat také automaticky,

119 “you shall know a word by the company it keeps“ 120 Vyhledáno v korpusu SYN2015, kolokace (0/2) a v nástroji SyD – Kolokace. 121 Vyhledáno v korpusu SYN2015, kolokace (-1/0) po vynechání vysoce frekventovaných slov typu velmi, velice, hodně apod. 149

čemuž se věnuje Douglas Biber (ibid., 2007, s. 60; Cvrček a Kováříková, 2011, s. 127). V českém prostředí se syntagmatikou slova zabývá např. František Čermák v publikaci Syntagmatika a paradigmatika českého slova (2005).

Takto můžeme prezentovat studentům víceslovné fráze v souvislosti s konkrétním tématem a obohatit jejich slovní zásobu. Neznamená to, že bychom rezignovali na výuku struktury jazyka, ale důležitý je fakt, že studenti dostanou autentický input, kontexty slova tak, jak se opravdu využívají. Např. při vyjádření názoru lze klasickou frázi myslím si, že obohatit čtvrtým členem svazku:122

Zdůraznění názoru: já si myslím, že; osobně si myslím, že; to si myslím; Co si myslím já?

Stejný názor: myslím si totéž

Přidání názoru: myslím si také, že; myslím si dokonce, že; navíc si myslím, že

Jiný názor: myslím si ale, že; myslím si však, že

Zdůvodnění názoru: proto si myslím, že; myslím si totiž, že; takže si myslím, že

2. Autentické příklady

V případě, že chceme studenty naučit současný jazyk tak, jak se opravdu používá, korpus je užitečným nástrojem k tomu, abychom získali autentické příklady jazykového užití. Autenticita je zaručena, neboť korpus je složen z reálných textů (Hunston, 2002, s. 106). Podle Huston(ové) však autenticita neznamená typičnost. Některé autentické příklady mohou zahrnovat hru se slovy nebo idiolekt autora, naopak uměle vytvořené příklady ve slovnících mohou být typickými příklady užití, přestože nejsou autentické. Reálné příklady používá např. COBUILD English Grammar:

Všechny příklady jsou vyňaté z textů, obvykle bez jakékoli úpravy. V současnosti je všeobecně přijímáno, že je nesmírně obtížné vymyslet příklady, které znějí autenticky a mají všechny rysy přirozeně se vyskytujících příkladů.123 (Sinclair, 2007)

122 Vyhledáno v korpusu SYN2015, dotazy myslím si a si myslím a jejich kolokace (-2/2). Bylo by ovšem třeba vyhledat ještě konkurenční výrazy, např. podle mého názoru; domnívám se, že; jsem přesvědčený, že apod. Zde uvádíme pouze ukázku toho, jak lze pracovat se slovními svazky ve výuce. 123 “All examples are taken from texts, usually with no editing at all. It is now generally accepted that it is extremely difficult to invent examples which sound realistic, and which have all the features of natural examples.“ 150

Otázkou je hlavně to, zda příklady z korpusu upravovat a pokud ano, jakým způsobem a do jaké míry, aby neztratily svou autenticitu, ale zachovaly si svou typičnost. Diskuzi o autentickém jazyce ve výuce bude věnována samostatná kapitola. Soustředíme se především na to, jak vytvářet modelové věty z korpusových dat (viz 8.2).

8.1.3 COBUILD English Grammar V tradičních mluvnicích bývá často gramatika odlišena od lexika, zatímco v korpusové gramatice z projektu COBUILD je základní zaměření na význam. Podle Sinclaira tvoří gramatika a lexikum spojené nádoby a studenti jazyka potřebují vybrat správné struktury na základě toho, co potřebují sdělit. Např. sloveso see vyžaduje substantivum, pokud je používáno ve svém fyzickém významu, ale při významu „rozumět“ vyžaduje vedlejší větu s that (Sinclair et al, 2007). Tato gramatika se proto nesoustředí na to, co je a není správné, ale na spojení funkce a struktury: „Pokud chcete udělat toto, musíte říct toto“124 (Sinclair et al, 2007). Kapitoly sice zahrnují klasickou terminologii jako např. slovní druhy, ale jsou rozděleny dle významu. Ke každé kategorii je prezentován seznam slov, který do ní patří a také neupravené autentické příklady užití: general 5.22 If you are using the simple present to talk about something that is always truths or generally true, you can reinforce or weaken your statement by using an adverb.

Babies normally lose weight in the beginning. The official attitude is usually one of ridicule. Traditionally, the Japanese prefer good guality clothes.

Here is the list of common adverbs that can be used to modify your statement in this way:

always mainly often usually generally normally traditionally (Sinclair et al, 2007, s. 249)

Cílová skupina této gramatiky jsou nejen pokročilí studenti angličtiny, ale také učitelé, autoři sylabů nebo výukových materiálů. Gramatika je založena na výzkumu korpusu Bank of English budovaném na univerzitě v Birmighamu. Tento korpus měl v době vzniku gramatiky 2,5 bilionu slov, je však neustále aktualizován a zvětšován. Jeho primárním cílem byla tvorba žákovského slovníku COBUILD Learner´s

124“If you want to do this, then you say that.“ 151

Dictionary, který zahrnuje autentické příklady užití z korpusu, ale také možné kontexty slova.

V prostředí anglické korpusové lingvistiky bývají často kontexty slova nazývány vzorce (patterns). Vzorci mohou být kolokace, koligace i slovní svazky. Jedná se o typické užití slova v kontextu:

Lexikální vzorce slova lze definovat jako všechna slova a struktury, které jsou pravidelně spojovány s daným slovem a které přispívají k tvorbě jeho významu. Vzorec lze určit, pokud se kombinace slov vyskytuje poměrně často, pokud je závislý na konkrétním výběru slov a pokud se s ním spojuje jasný význam.125 (Hunston(ová) a Francis(ová), 2000, s. 37). Zatímco Sinclair (1991) se soustředil na to, že různé významy slov jsou reprezentovány odlišnými strukturami, Francis(ová) se zaměřila na vzorce z jiné strany. Srov.: „určité lexikální vzorce vybírají slovo konkrétního významu“126 (Hunston(ová) a Francis(ová), 2000, s. 29), např. slovesa, která v angličtině vyžadují infinitiv vs. gerundium. Podle Huston(ové) a Francis(ové) lze odhalit vzorce slova prozkoumáním náhodného vzorku vět z korpusu s ohledem na nejbližší kontexty slova, které seřadíme abecedně (corpus-driven výzkum). Jak vypadá vzorec? Obrázek 44 ukazuje část slovníkového hesla slovesa seem. Kromě informace o výslovnosti, různých tvarech a definice jsou zahrnuty též autentické příklady užití, tj. nejtypičtější vzorce a pro orientaci jsou tyto vzorce po pravé straně shrnuty značkami. Kapitálkami bývá označeno gramatické zařazení ke kategorii slovního druhu, zde V-LINK (slovesa, která spojují subjekt a komplement, např. It smells delicious.) a poté nejčastější vzorce s tímto slovesem dle kontextu, který následuje, např. adjektivum nebo vedlejší věta s that, někdy je však zahrnut také levý kontext, např. there – sloveso – infinitiv.

125 “The patterns of a word can be defined as all the words and structures which are regularly associated with the word and which contribute to its meaning. A pattern can be identified if a combination of words occurs relative frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it.“ 126 “certain patterns ´select´ words of particular meaning“ 152

Obrázek 44 Slovníkové heslo ve slovníku COBUILD (Sinclair et al, 1996)

Podle Hunston(ové a Francis(ové) (2000, s. 45) si student druhého/cizího jazyka nevystačí s klasickými kategoriemi, ale potřebuje přesnější údaje. Toto jsou nejčastější vzorce využité v žákovském slovníku COBUILD: v: verb group n: noun group adj: adjective group adv: adverb group that: clause introduced by that (realised or not) -ing: clause introduced by an ´-ing´form to-inf: clause introduced by a to-infinitive form wh: clause introduced by a wh-word (including how) with quote: used with direkt speeach (Hunston(ová) a Francis(ová), 2000, s. 45)

Na základě popisu vzorců Francis(ové) vznikly další publikace podrobněji zaměřené: Grammar Patterns (Sinclair, 1998a, 1998b). Tato forma pedagogické gramatiky souvisí s lexikálním přístupem, tedy metodou výuky, která se orientuje na slovo v kontextu (viz kapitola 5.2.3). Nehodí se k využívání deduktivního přístupu ve výuce (prezentace – procvičování – prokukce, PPP), ale podporuje tzv. povšimnutí (viz kapitola 6.1). Pokud má student seznam slov, která používají stejný vzorec, může vytvářet podobné typy vět. Na druhé straně si může povšimnout různých vzorců, které vyjadřují stejný význam. Lze tak vytvářet aktivity, které zvyšují povědomí o gramatice, např. když studenti dostanou za úkol všimnout si kontextů slov v textu (aktivita podobná data-driven learning). Podle Huston(ové) a Francis(ové) (2000, s. 271) je využívání vzorců užitečné při budování přesnosti i plynulosti vyjadřování a pomáhá tak v porozumění.

153

8.2 Autentický jazyk ve výuce127

Autentický jazyk je jedno z hlavních témat související s využívání korpusů ve výuce, a to jak přímo (DDL používá autentické věty z korpusu), nebo nepřímo (v gramatikách, slovnících, učebnicích apod.). Otázkou tedy je, zda a jak autentický jazyk ve výuce používat a zda se hodí pro všechny pokročilosti. Scrivener doporučuje, aby studenti byli vždy vystaveni jazyku, který je o něco výše než jejich úroveň gramatiky (2005, s. 280). Podle něj je využití autentického inputu, např. textu, užitečnější právě proto, že vzbuzuje pozornost studentů, kteří si všímají různých jazykových jevů.

Autentické texty mají tu výhodu, že jejich původním cílem bylo něco sdělit, a ne prezentovat jazyk. Odtud jedna z definic autenticity: „jazyk konkrétního mluvčího pro konkrétní čtenáře, který něco konkrétního sděluje“ (Gilmore, 2007, s. 98). Zajímavý obsah nejen že zvyšuje studentovu motivaci, ale také podporuje pochopení slov na základě kontextu, což je jedna z nejdůležitějších metod akvizice jazyka a zároveň základní premisa DDL. Negativní stránkou autentických textů je však jazyk rodilých mluvčích plný skrytých významů, málo frekventované či hovorové slovní zásoby, což je však argumentem pro adaptaci textů – sdělení zůstane, ale rušivé slovní zásoby se zbavíme.

Vyřešit obtížnost práce s korpusem pro studenty-cizince je možné několika způsoby: A) vytvořit uživatelsky přitažlivý vyhledávač pro jednoduché vyhledávání, B) vytvořit pedagogicky relevantní korpus neobsahující rušivé elementy nebo C) připravit korpusová cvičení na papíře s již vybranými konkordancemi (z nichž některé mohou být do jisté míry upravené/zkrácené).

A) Korpusové vyhledávače se stále rozvíjí směrem k uživateli. Z českých je nutno zmínit nástroj SyD, který slouží primárně k vyhledávání variant v psaném a mluveném jazyce, lze v něm však najít i informace o kolokacích a žánrovém rozložení. Důležitou charakteristikou je fakt, že je volně přístupný on-line bez jakékoli registrace a že se designem co nejvíce blíží internetovým vyhledávačům. Vše je zde vizualizováno, není nutné znát korpusovou lingvistiku ani statistické metody. Po prvním kliku vidíme grafy mluveného a psaného jazyka, pomocí word clouds (velikost fontu

127 Části této kapitoly již byly publikovány v článku Vališová, 2011. 154 a barvy) jsou zobrazeny kolokace, vidíme i žánrové rozložení. Podobně uživatelsky přístupný a přátelský je nástroj SkeLL, jehož česká verze se připravuje. Víc o nástrojích pro přímé využití ve výuce češtiny jako cizího jazyka viz kapitola 7.3. B) V národních korpusech, které slouží k výzkumu běžného úzu, jsou texty různých žánrů, včetně beletrie a odborné literatury, tudíž obsahují také termíny nebo umělecké či archaické výrazy. Braun(ová) (2005, 2007) naopak navrhuje vytvořit pedagogicky relevantní korpus pro vzdělávací účely. Poukazuje na to, že velké množství slov je výhodné pro lexikografy, ale pro výuku jazyků stačí menší specializovaný korpus, např. o velikosti 20 000 až 200 000 slov. Předností takového korpusu není jenom velikost, ale hlavně obsah, který může zahrnovat texty nebo dokonce i videa z různých zdrojů a na různá témata. Takto se vyhneme neobvyklé slovní zásobě z beletrie či odborných textů. Pedagogicky relevantní korpus zahrnuje pouze slovní zásobu, kterou si studenti potřebují osvojit a je pro ně užitečná. Tento specializovaný korpus je menšího typu a jeho texty jsou tematicky vybrány s ohledem na cílovou skupinou studentů-cizinců. Takový korpus patří mezi žánrové korpusy a studentům umožňuje učit se typické výrazy nebo obraty pro jednotlivá témata nebo situace, jež jsou součástí komunikační kompetence cílového jazyka. Na rozdíl od velkého korpusu zde nedochází k dekontextualizaci, tj. text není vyjmut z kontextu, pro který byl určen. Texty nebo rozhovory jsou autentické, ale jejich témata jsou relevantní z hlediska výuky jazyka. C) Při rozhodnutí nevyužívat syrová data z korpusu ve formě KWIC přichází otázka, zda věty z korpusu upravovat, a pokud ano, jak a do jaké míry. S tímto tématem souvisí přínos autentických vět/textů ve výuce jazyků obecně. Od roku 1987, kdy byl vydán COBUILD, první slovník plně založený na korpusu (Atkins(ová) a Rundell, 2008,s. 456), začala na toto téma rozsáhlá debata. Nejde jen o dichotomii vytvořené versus autentické věty, ale v prostoru mezi nimi se ještě nacházejí věty upravené (Svensén, 2009, s. 283). Tyto věty ve slovnících pro studenty jazyka demonstrují význam slova nebo jeho nejčastější použití, podobně jako modelové věty v jazykové učebnici mohou demonstrovat význam slova nebo častěji použití určitého gramatického jevu. Úplně autentické věty mohou sice demonstrovat přirozené užití, ale bez širšího kontextu je takováto věta pro nerodilé mluvčí často nesrozumitelná. Pro ty je naopak „srozumitelnost a užitečnost přinejmenším tak důležitá jako ukazovat slova

155 v kontextech, ve kterých se přirozeně vyskytují“128 (Atkins(ová) a Rundell, 2008, s. 457). Někteří lingvisté obhajují vytvořené věty, neboť jsou jednoduché a lze jim lépe porozumět (Laufer, 2008) nebo zdůrazňují jazykovou hru a zapamatovatelnost (G. Cook, 2001). Současní lexikografové (Atkins(ová) a Rundell, 2008; Svensén, 2009) však prosazují upravené věty z korpusu, tzn. že stále zachováváme přirozené prostředí, ale ne na úkor porozumění. V praxi postupují tak, že vyberou větu, která demonstruje typické užití a pokud je potřeba, tak ji zkrátí na 4–6 slov a vymažou nebo nahradí zvláštní slovní zásobu. Správný příklad užití tedy musí být: 1. Přirozený a typický, 2. Informativní a 3. Srozumitelný (Atkins(ová) a Rundell, 2008, s. 458). Podle těchto pravidel je možné postupovat i při vytváření tradičních výukových materiálů podle korpusu.

8.2.1 Modelové věty Jsou modelové věty demonstrující význam slova autentické, přestože je zkrátíme nebo upravíme? Podle Widdowsona (Boulton, 2009a) každý autentický text ztrácí svou autenticitu již tím, že je vyňat ze svého přirozeného kontextu, pro který byl napsán. Jinými slovy by se dalo říci, že vymyšlené věty pro didaktické účely jsou také autentické ve svém prostředí. Texty autentické pro rodilého mluvčího totiž nerodilí mluvčí neumí stejně interpretovat (Widdowson, 1990, s. 45). Widowson definuje autenticitu jako „přirozené jazykové chování“ (natural language behaviour) (ibid., s. 45) a tvrdí, že aktivity ve třídě jsou vždy iluzí reality, vždy jsou do nějaké míry „vyumělkované“. Takové jazykové chování ve třídě je však efektivním (ne již autentickým) jazykovým učením (ibid., 47).

Naopak korpusoví lingvisté obhajují autentické příklady, modelové věty i texty. Uměle vytvořené věty i texty jsou často zaměřené na jeden gramatický jev či konkrétní fráze, až někdy ztrácejí srozumitelnost. Jako první projevil pochybnost o takových větách, které často kromě prezentace jevu nedávají smysl, britský lingvista Firth ve třicátých letech (Römer(ová), 2005, s. 277). Typická je věta: „I have not seen your father´s pen but I have read the book of your uncle´s gardener“ (G. Cook, 2001, s. 2). Stejný názor sdílí Sinclair, který v 80. letech při práci na sérii slovníků COBUILD

128 “intelligibility and helpfulness are at least as important as showing words in their natural settings“ 156 začíná prosazovat modelové příklady z korpusu (Römer(ová), 2005, s. 277). Podle G. Cooka (2001) jsou však vymyšlené věty přitažlivé tím, že jsou jednoduché, jasné a snadno zapamatovatelné, a to i přes svou nesmyslnost a často i bizarnost (nebo právě díky ní). Umožňují učiteli vytvářet podobné věty a studenti z nich dostanou lingvistické informace, povšimnou si formy, aniž by je rozptyloval význam. Odkazuje na Chomského příklady vět, na kterých dokazuje, že ‚gramaticky správný‘ neznamená ‚smysluplný‘ (G. Cook, 2001, s. 6).

Römer(ová) poukazuje na to, že vymyšlené věty nejsou autentické právě proto, že nepocházejí z reálné komunikace, ale byly vytvořeny pro výukové materiály a často obsahují ne takový jazyk, jaký se opravdu používá, ale ten, který si autor materiálů představuje nebo přeje (ibid., s. 279). Díky korpusům není nutné modelové příklady vymýšlet, ale je možné využít věty z reálné komunikace. Příklady vyňaté z korpusu tak sice budou dekontextualizované, ale studenti by je měli snadno rekonstruovat, neboť to dělají v každodenním životě neustále. Römer(ová) (ibid., s. 280) se také ohrazuje proti argumentu, že autentické příklady jsou „zaneřáděné“. V reálné komunikaci se studenti také nesetkávají s uhlazenými větami, jaké jim prezentují učebnice. Podstatné je naučit studenty zapojit se do reálné komunikace, učit je to, co je typické a očekávané pro danou situaci, konkrétně tedy „hlavní kontexty a funkce lingvistických struktur“. (ibid., s. 281). Römer(ová) tedy mění otázku, zda učit to, co je autentické, na požadavek výuky toho, co je typické.

8.2.2 Úprava vět z korpusu V tvorbě modelových vět z autentického jazyka v korpusu jsme se inspirovali u tvůrců monolingvních slovníků určených pro nerodilé mluvčí (žákovský slovník – learner dictionary), které obsahují nejen definici slova, ale i autentické věty nebo úseky vět, aby studenti viděli slovo v přirozeném kontextu. Pravidla, která lexikografové používají při úpravě příkladů pro jednojazyčné slovníky, jsou následující: nejdříve najít typický kontext, pak vybrat 4–6 slov a upravit nebo vymazat rušivou slovní zásobu (Atkins(ová) a Rundell, 2008; Svensén, 2009). Pokud se podíváme na konkrétní příklady, zjistíme, že věty často nemusíme ani upravovat, jenom vyjmeme krátký úsek. Pokud používáme nástroj KonText a funkci zobrazení věta, často jen hledáme vhodné krátké věty.

157

V nástroji Sketch Engine lez vybrat přímo funkci GDEX (Good Dictionary Examples), díky které je jednodušší identifikovat dobré příklady.129

Následující příklady ukazují možné úpravy při vyhledávání modelových vět, které mají demonstrovat různé významy slovesa přijít.130 Příklad 1 ukazuje větu, která se již nemusí měnit, v příkladu 2 konstrukci taky neměníme, pouze vyjmeme krátký úsek. Příklad 3 ukazuje možnosti toho, jak se vyhnout rušivé slovní zásobě (zde vlastní jména) či jak krátit, popř. zjednodušit (4).

(1) V mrazivých zimních dnech přijde k chuti šálek dobrého čaje.

(2) Od konce války zde při stovkách havárií lodí, které silné vlnobití vrhlo na útesy, přišlo o život několik desítek cestujících. Přišlo o život několik desítek cestujících.

(3) Fredrik Kantsten nakonec přišel na to, kde by Dinman mohl být. Fredrik nakonec přišel na to, kde by Dan mohl být. Nakonec přišel na to, kde by mohl být.

(4) Nejdřív mi to přišlo podezřelé a on si toho určitě všimnul, protože se usmál. Nejdřív mi to přišlo podezřelé a on si toho všimnul. Přišlo mi to podezřelé a on si toho všimnul. Přišlo mi to smutné a on si toho všimnul.

Při upravování modelových vět pro výukové aktivity jsme už však na pomezí DDL a tvorby klasických učebních materiálů pouze korpusem informovaných. Záleží na tom, jak s upravenými větami naložíme. Není žádný důvod k tomu, abychom je nemohli použít pro klasická cvičení, ať už doplňovací, spojovací apod. U uvedených příkladů lze využít například spojování či nahrazování slov synonymy (např. přijít o – ztratit, přijít k – získat) (viz pozorovací cvičení v kap. 7.4). DDL totiž nemá za cíl nahradit běžnou výuku, ale pouze ji obohatit o reálný jazyk rodilých mluvčích a typické příklady užití klíčového slova. Měli bychom tedy změnit perspektivu a místo otázky „Co může učitel dělat s korpusem?“ se vždy ptát „Co může korpus udělat pro učitele?“ (Frankenberg-

129 GDEX: https://www.sketchengine.co.uk/user-guide/user-manual/concordance-introduction/gdex/ 130 Věty byly vyhledány v korpusu SYN2015 v nástroji KonText. 158

García(ová), 2012, s. 39). Korpus učiteli dodává autentické příklady typického užití a domníváme se, že i při úpravě či zkrácení věty se typičnost neztrácí.

8.3 Nepřímá aplikace ve výuce češtiny

Výuka jazyků má prospěch hlavně z přesnějšího popisu současného jazykového úzu, který přináší korpusový výzkum. Pro češtinu lze v tomto ohledu použít např. tyto publikace: Statistiky češtiny (Bartoň et al, 2009), Mluvnice současné češtiny I, II (Cvrček, 2010; Panevová, 2015) nebo Frekvenční slovník češtiny (Čermák, 2004). Využít můžeme např. frekvenci jednotlivých pádů a vzorů, slovních druhů i skupin hlásek (Bartoň, 2009), data o psané a mluvené češtině (Cvrček, 2015) nebo frekvenci jednotlivých slov při výběru slovní zásoby nebo tvorbě slovníku pro studenty-cizince (Čermák, 2004). V roce 2011 byl v rámci edice nakladatelství Routledge vydán slovník určený pro studenty češtiny A Frequency Dictionary of Czech: Core Vocabulary for Learners (Čermák a Křen), který zahrnuje 5 tisíc nejfrekventovanějších výrazů s anglickým ekvivalentem a českou i anglickou modelovou větou. Není to tedy klasický výkladový slovník pro studenty jazyka (learner dictionary).

8.3.1 Statistiky češtiny131 Statistiky češtiny nabízí výsledky frekvenčních analýz na základě reprezentativního korpusu SYN2005. Obsahují pouze syrová data bez interpretace, tu si již lingvista musí přidat sám. Může se však opírat o tato základní objektivní data, např. frekvence sloves podle kritérií času, způsobu, osoby a čísla, frekvence jednotlivých pádů, frekvence dvojic hlásek na konci slova apod. Statistiky jsou rozčleněny podle slovních druhů. Ve výuce jazyků má potenciál převážně pro tvorbu výukových materiálů a učebnic.

Jedno z možných využití Statistik je frekvence pádů. Pokud jsme se rozhodli vykládat pády horizontálním způsobem, tzn. postupujeme jednotlivě po pádech, ne po

131Části této kapitoly již byly využity v e-learningových materiálech předmětu Využití korpusů při výuce češtiny jako cizího jazyka na FF MU. 159 paradigmatech, je nutné si ujasnit pořadí pádů při výkladu. Učebnice češtiny se téměř ve všech případech přiklánějí k horizontálnímu výkladu, ale pořadí jednotlivých pádů se liší. Prvotní postavení nominativu singuláru jako základního slovníkového pádu je nezpochybnitelné. Jak ale postupovat dál? Nejčastěji je uváděn akuzativ singuláru, často se ale také na druhém místě vyskytuje genitiv nebo lokál. Zde si musíme uvědomit, že frekvence není vše, ale měli bychom se též zaměřit na komunikační kompetenci studenta. Měly bychom si tedy klást otázku, které pády pro něj budou na začátku nejužitečnější v komunikaci. Rozhodování také souvisí s tématem lekce. Čistou frekvenci tedy nemůžeme považovat za všeříkající a rozhodující, ale je třeba se zamyslet i nad jinými faktory. Také je možné využívat tzv. parcelaci gramatiky, což znamená rozdělit gramatické jevy na části a vykládat je postupně. Parcelaci gramatiky však využívá málo učebnic a pády většinou vysvětlují kompletně, tzn. všechny koncovky všech rodů daného čísla v jedné lekci.

Nejdříve se podíváme, jaké významy vyjadřují jednotlivé pády. Akuzativ používáme k vyjádření přímého předmětu. Pokud student zná nominativ singuláru (subjekt), časování sloves v prézentu a akuzativ singuláru (objekt), dokáže tedy vytvořit jednoduchou větu ve složení S-V-O. Může tak říci, co má doma, co má nebo nemá rád, objednat si v restauraci (dám si kávu) apod. Proto je také akuzativ na druhém místě nejčastěji. Jeho výhoda spočívá také v tom, že mužský rod neživotný a střední rod se shodují s nominativem. Studenti se tak na začátku učí menší množství koncovek (i toto množství však bývá pro některé studenty s analytickým mateřským jazykem frustrující) a zároveň si uvědomí nutnost rozlišování životných a neživotných jmen v češtině.

Oproti tomu má genitiv daleko širší záběr a množství významů. Využívá se k vyjádření posesivity (kniha Petra), dále genitiv partitivní (kus dortu, dvě deci vína) a také se používá s místními a časovými předložkami (do/z práce, od/do pátku apod.). Student se ho například učí již v první lekci, i když omezeně, při odpovědi na otázku Odkud jste? (z Ruska, z Anglie apod.). Otázka je, zda genitiv neparcelovat a nevyužít buď některé fráze, nebo genitiv po předložkách z a do již dříve, než bychom se věnovali genitivu posesivnímu a partitivnímu. Student by tak uměl vyjádřit odkud je, kam jde, kam chodí často apod. Problém je, že s tímto tématem souvisí rozdíl předložek na a do v dynamickém významu (jdu do školy vs. na poštu), takže bychom se akuzativu stejně nevyhnuli).

160

Někdy se také vyskytuje lokál pro vyjádření jednoduchých vět (Jsem ve škole, v práci; kniha je na stole), studenti se je však učí spíše jako fráze, než že by probírali celý pád kompletně. V lokálu je navíc problém dublet v mužském a středním rodě, proto není moc vhodný pro začátek s češtinou.

Dativ je pád označující nepřímý předmět, např. dát něco někomu. Potřebujeme tedy už znát akuzativ a až poté dativ. Proto dativ obyčejně při výkladu řadíme na jedno z posledních míst. Podobné je to i s vokativem, přestože se studenti potřebují již na začátku svého studia naučit, jak mají oslovovat lidi.

Instrumentál má nezáviděníhodné postavení. Přestože je to pád celkem častý a s mnoha významy, bývá tradičně řazen až na poslední místo, přestože se s ním studenti setkají daleko dříve. Někdy bývá parcelován a již v prvních lekcích se objevují tvary jedu metrem/vlakem/tramvají (studenti se je však učí spíše jako fráze, než že by chápali tvoření). Poté je instrumentál častý po místních předložkách: nad/pod/za/před/mezi a také jako vyjádření prostředku: myju si ruce mýdlem / jím příborem / píšu tužkou.

Rozložení pádů u subst. Rozložení pádů u subst. Rozložení pádů (Statistiky češtiny) (SYN2015) (SYN2015)

1 Nominativ 29,10% Nominativ 28,00% Akuzativ 25,78% 2 Genitiv 27,50% Genitiv 26,70% Genitiv 22,15% 3 Akuzativ 19,20% Akuzativ 21,20% Nominativ 22,90% 4 Lokál 11,80% Lokál 11,80% Lokál 14,09% 5 Instrumentál 8,50% Instrumentál 8,78% Instrumentál 8,92% 6 Dativ 3,60% Dativ 3,69% Dativ 6,00% 7 Vokativ 0,35% Vokativ 0,31% Vokativ 0,16% Tabulka 3 Pořadí pádů ve Statistikách češtiny a v korpusu SYN2015

New Czech Step by Basic Czech I, II Communicative Chcete mluvit česky? Step Czech Elementary

1 Nominativ(+Lok. Nominativ Nominativ Nominativ (+Lok. subst.) subst.) 2 Akuzativ Akuzativ Akuzativ Akuzativ 3 Genitiv Vokativ Vokativ Genitiv 4 Lokál Genitiv Genitiv Dativ 5 Dativ Lokál Lokál Instrumentál 6 Instrumentál Instrumentál Dativ Vokativ 7 Vokativ Dativ Instrumentál Lokál Tabulka 4 Pořadí pádů v singuláru ve vybraných učebnicích 161

Česky krok za krokem Basic Czech II, III Communicative Chcete mluvit 2 Czech Intermediate česky? 1 Nom. a akuz. M než., Nom. a akuz. M než., Nom. a akuz. M Nom. a akuz. F, N F, N než., F, N všech rodů 2 Nominativ M živ. Genitiv Nominativ M živ. Genitiv 3 Genitiv Nominativ M živ. Genitiv Lokál 4 Lokál Dativ Dativ Dativ 5 Dativ Lokál Lokál Instrumentál 6 Instrumentál Instrumentál Instrumentál Tabulka 5 Pořadí pádů v plurálu ve vybraných učebnicích132

V Tabulce 3 vidíme frekvenční rozložení pádů na základě korpusu SYN2015. Zásadně se pořadí nemění, ani pokud vyhledávání omezíme pouze na substantiva. Stále jsou třemi nejfrekventovanějšími pády nominativ, genitiv a akuzativ a následuje lokál, instrumentál, dativ a vokativ. Roli může hrát i fakt, že mnohé koncovky dativu se shodují s lokálem, tudíž může být pro studenty lehčí naučit se pouze nové významy, a ne tvary.

Při porovnání s učebnicemi (tabulky 4 a 5) je největší rozdíl v zařazení dativu a instrumentálu. Kromě učebnice Basic Czech je vždy instrumentál až za dativem, přestože je daleko frekventovanější. Otázkou je, zda za toto zařazení může téma lekce nebo spíše tradice instrumentálu na posledním místě ve výčtu pádů.

Vokativ je sice ve všech statistikách v tabulce 3 až na posledním místě. Tento fakt souvisí s tím, že data pocházejí z korpusu psaného jazyka. Studenti by ovšem již na začátku studia měli vědět, jak oslovovat další lidi, proto je v tomto případě na místě neřídit se frekvencí. Za ideální pořadí považujeme pády v učebnici Basic Czech, a to nejen s ohledem na dřívější zařazení vokativu a instrumentálu před dativem, ale také vzhledem k dřívějšímu zařazení genitivu plurálu.

8.3.2 Mluvnice současné češtiny Pokud má nějaký pádový tvar dublety, jako např. lokál singuláru maskulina, pokročilí studenti často vyžadují nějaké podrobnější pravidlo nebo seznam slov s tou či onou

132Pády v plurálu jsou někdy probírány již mezi pády v singuláru: Nom a Akuz M než., F, N (Česky krok za krokem 2, Communicative Czech Intermediate) nebo Nom/Akuz a Gen Pl (Basic Czech II, III a Chcete mluvit česky?) 162 koncovkou. Konkrétní slova mohou vyhledat on-line v Jazykové příručce a zjistit, zda je kodifikována dubleta v lokálu nebo ne. U mnoha slov však existuje ta situace, že jsou možné obě varianty, ale jedna z nich bývá častější. Aby se studenti v této situaci vyznali, pomůže seznam z Mluvnice současné češtiny, který jsme upravili s ohledem na užitečnost slov pro výuku a také na kodifikaci. V následující tabulce jsou slova, u kterých je kodifikovaná dubleta. Studenti se tak dozví, že ne vždy platí to pravidlo, že cizí slova mají vždy -u, jak bývá v učebnicích prezentováno, ale některá slova, např. fotbal, mají obě varianty, protože už jsou zdomácnělá.

Lokál singuláru maskulina

Pouze koncovku –u mají: - slova abstraktní - slova nově přejatá nebo utvořená - slova zakončená na –g, –h, –ch, –k, –m, –p a –r

Pouze koncovku –e/–ě mají: rok Pražský hrad most ostrov poloostrov les prales kostel oběd sklep svět život kriminál východ západ města na –ov v případě

Slova, která můžou mít koncovku –u a –e: častěji byt domov dům dvůr hřbitov stůl –e/–ě venkov čas hlas hrad hrob klášter klín mlýn nos okres ples půlrok sál strop vůz základ záchod spis balkón cirkus časopis den dopis fotbal kabát komín kus led moment národ obchod obraz oddíl originál papír plot potok rozhlas koncert stát strom tenis výlet zákon závo životopis jazyk úřad autobus kontinent častěji aparát baseball díl kanál kurt list –u magistrát mráz pas pivovar plakát příklad příkop román rukáv rybník řetěz salón sekretariát sklad souhlas účet úraz vagón vojebal zájezd zápis bazén dort chrám kabinet kožich obal oceán pád plat překlad pokus popis post průkaz průvod přístav senát soud stadión šampionát ústav přechod výbor výklad výraz důchod úžas horizont kongres materiál festival provoz proces parlament

Tabulku jsme upravili z původních sedmi řádků na dva, čímž jsme ji zjednodušili na dvě tendence: častěji koncovka –e/–ě nebo častěji –u. Domníváme se, že tabulka uvedená v Mluvnici současné češtiny je pro nerodilé mluvčí moc komplikovaná.

163

Navíc je problematický fakt, že tato mluvnice čerpá data z korpusu, díky čemuž sice ukazuje skutečný úzus na základě empirických dat, ale studenty potřebujeme zároveň naučit spisovnou češtinu. Z tabulky jsme tedy vyňali ta slova, u kterých dublety kodifikovány nebyly.133

8.3.3 Akademická gramatika spisovné češtiny Studenti často nechápou, která slovesa mají reflexivum se, která ne a u kterých existují obě varianty. Často se proto ptají na nějaký seznam. V učebnicích najdou reflexivní slovesa roztroušena po lekcích podle tématu nebo pádu, se kterým se pojí. Pro pedagogickou gramatiku nebo jako doplňující materiál na konci pokročilé učebnice by bylo vhodné nějaký přehled uvést. Podle Statistik češtiny jsem sestavila čtyři tabulky vybraných sloves pro úroveň B1–B2. Popis jednotlivých kategorií jsem zjednodušila dle Akademické gramatiky spisovné češtiny. Ukázková lekce tak prezentuje, jak lze tyto příručky kombinovat.134

První a třetí tabulka studentům pomůže zapamatovat si ta slovesa, která jsou vždy reflexivní. Druhou a čtvrtou tabulku mohou využívat také učitelé pro tvorbu cvičení, ať již klasických nebo korpusových. Studenti mohou rozlišovat významy slovesa, které se reflektivizuje v kontextu.

Reflexiva tantum s reflexivem se (vždy mají se; se nemá konkrétní význam)

bát se loučit se sejít se toulat se blížit se modlit se shodovat se tyčit se dařit se narodit se smát se týkat se dívat se podařit se snažit se účastnit se divit se podobat se specializovat se vyhýbat se dostavit se pokusit se spokojit se vyskytovat se dotýkat se ptát se starat se zabývat se dozvědět se rozejít se stavit se zamilovat se chlubit se rozhlížet se stydět se zamyslet se líbit se rozpadat se stýskat se zdát se

Reflexiva fakultativní s reflexivem se (můžou mít se, ale existují i bez se)

- se = děj směrem k subjektu: mýt se = mýt sebe x bez se = děj směrem k objektu: mýt nádobí

133 Více k dubletám viz Rusínová, 2011 nebo Bermel, 1993 a 2004. 134 Tyto tabulky s vysvětlením byly použity pro tematickou lekci Zvratná slovesa v kurzu Pokročilá čeština v Centru pro integraci cizinců v Praze. Studenti např. dělali doplňovací cvičení a v tabulkách mohli vyhledat, zda se sloveso reflektivizuje či ne. V jiné aktivitě dostali věty se slovesy se se a si a bez nich a společně diskutovali o rozdílech ve významu. Studenti byli na úrovni B1–B2 dle SERRJ. 164

- reciprocita: dva subjekty dělají něco společně/navzájem: Eva a Jan se milují. Hádají se. Přátelí se. - něco se stalo „samo“, neříkáme, kdo to udělal: Větev se zlomila. Váza se rozbila.

bránit konat přidat vrátit brát milovat přiznat vzít cítit mít pustit zajímat dát nacházet rozhodnout zapomenout dít objevit řídit zastavit dostat obrátit setkat změnit držet otevřít stát ztratit hodit pamatovat těšit zvednout chovat pohybovat učit bavit chtít pokoušet ukázat sejít chystat postavit věnovat zbavit jmenovat probudit vést seznámit

Reflexiva tantum s reflexivem si (vždy mají si; si nemá konkrétní význam)

chválit si pohrát si přispat si zalyžovat si oblíbit si pochutnat si přivstat si zamilovat si oddechnout si poležet si přivydělávat si zarybařit si odpočinout si poplakat si stěžovat si zasoutěžit si odsedět si popovídat si stýskat si zvyknout si osvojit si posedět si všímat si počíst si pospat si všimnout si

Reflexiva fakultativní s reflexivem si (můžou mít si, ale existují i bez si)

- děj se koná pro radost, potěšení: Čtu si detektivku. Jdu si zaplavat.; často dokonavá slovesa s prefixem po- a za-: poplakat si, zalyžovat si - si = udělat něco pro sebe: koupit si, rezervovat si x pro někoho: koupit, rezervovat - reciprocita: dělat něco společně/navzájem: Karel a Petra si rozumějí.

brát nést přát sednout vzít být odpovídat představovat slíbit začít číst opakovat přijet stačit zachovat dát/dávat otevřít přijít/projít/vyjít stát zajistit dojít pamatovat připadat uložit založit dovolit počkat při-/vzpomínat uvědomit zavolat hrát položit připravit užívat získat chystat pomoct přiznat vědět zkusit koupit pomyslet psát vést zpívat myslet postavit pustit vybrat způsobit najít povídat rozdělit vyprávět zvolit napsat pozvat rozumět vyrazit žádat nechat prohlédnout říct/říkat vysvětlit žít

165

8.3.4 Frekvenční slovníky češtiny Z korpusových dat vycházejí dva frekvenční slovníky135: psané a mluvené češtiny (Čermák, 2004; Čermák, 2007). Data z těchto slovníků mohou pomoci při výběru slovní zásoby do sylabu nebo výukových materiálů. Zde prezentujeme tabulku (6), která zobrazuje nejfrekventovanější nepravidelná slovesa z obou frekvenčních slovníků a z psaného korpusu SYN2000 (Vališová, 2009). Na základě tohoto seznamu jsme vybrali 36 důležitých nepravidelných sloves (jedná se o ta slovesa, jež se vyskytovala v učebnicích a zároveň byla frekventovaná ve slovnících či v korpusu) (tab. 7).

Učebnice ČCJ FSČ SYN2000 FSMČ

1. bát se báti se brát bát se 2. brát (si) bráti (se) být brát se 3. být býti dát být 4. číst dáti dít číst 5. dát díti se dojít dát 6. dostat dojíti dokázat dojít 7. hrát dostati (se) dosáhnout dokázat 8. chtít dovésti dostat dostat se 9. jet hráti hrát hrát 10. jíst chtíti chtít chápat 11. jít moci jet chtít 12. mít mýti (se) jít jet 13. moct/moci najíti mít jít 14. mýt (se) nésti (se) moci mít 15. nést odejíti najít moct 16. obléci otevříti (se) napsat najít 17. otevřít pomoci (si) otevřít napsat 18. péct přijíti pomoci pomoct 19. pít přinésti přijít poznat 20. plavat psáti přijmout přijet 21. pomoct/pomoci ptáti se psát přijít 22. prát růsti rozhodnout psát 23. přát si smáti se říci ptát se 24. psát spáti stát říct si 25. říct státi ukázat spát 26. smát se státi se uvést stát 27. sníst ukázati vědět stát se 28. spát věděti vést stihnout 29. stát vésti vyhrát vědět 30. ukázat vyjíti vyjít vyjít 31. vědět vzíti (se) vzít vzít si 32. vzít (si) začíti (se,si) vzniknout začít 33. začít zapomenouti (se) začít zdát se 34. zapomenout zdáti se zdát znát 35. znát znáti (se) znát zůstat

135Kromě toho existují i starší slovníky: Jelínek et al, 1961 a Těšitelová et al, 1986. 166

36. zvát zůstati zůstat zvládnout 37. žít žíti žít žít Tabulka 6 Nejfrekventovanější nepravidelná slovesa (Vališová, 2009)

1. bát se 13. mít 25. smát se 2. brát 14. moct/moci 26. spát 3. být 15. mýt (se) 27. stát 4. číst 16. najít 28. ukázat 5. dát 17. nést 29. vědět 6. dokázat 18. otevřít 30. vyjít 7. dostat 19. pít 31. vzít (si) 8. hrát 20. pomoct/pomoci 32. začít 9. chtít 21. přát si 33. zapomenout 10. jet 22. přijít 34. znát 11. jíst 23. psát 35. zůstat 12. jít 24. říct 36. žít Tabulka 7 Důležitá nepravidelná slovesa (Vališová, 2009)

Na tomto místě je nutné upozornit, že kromě frekvence je také důležitá funkčnost, popř. jazyková úroveň. I přesto je však zajímavé zamyslet se nad tím, zda by například slovesa přijít, říct nebo zapomenout nebylo dobré prezentovat studentům již v nižších pokročilostech vzhledem k jejich vysoké frekvenci. Na nejnižších úrovních lze například vybrat pouze konkrétní frekventované tvary v konkrétní funkci: přijdu za chvíli, řekl/a, že…, zapomněl jsem úkol.

Kromě klasických frekvenčních slovníků existuje i slovník cílený na studenty češtiny jako cizího jazyka. V roce 2014 byl vydán Frequency Dictionary of Czech: Core Vocabulary for Learners (Čermák a Křen) v rámci série frekvenčních slovníků nakladatelství Routledge. Slovník je určen jak pro studenty samotné, tak i pro vytváření sylabu nebo výukových materiálů. Ke slovníku byl využit psaný korpus SYN2005 a mluvené korpusy ORAL2006 a ORAL2008. Obsahuje 5 000 nejfrekventovanějších slov, každé s morfologickou informací, překladem do angličtiny a příkladem ve větě. Kromě toho zahrnuje i několik krátkých tematických sekcí s nejfrekventovanějšími slovy, např. čas, rodina, barvy, oblečení apod. Slova jsou seřazena podle frekvence, slovník však obsahuje i abecední rejstřík. Na obrázku 45 vidíme slovníkové heslo slovesa. Každé lemma zahrnuje i frekvenci všech jeho substandardních variant (ibid., s. 4).

167

Obrázek 45 Heslo slovníku Frequency Dictionary of Czech: Core Vocabulary for Learners

Vzhledem k zahraniční edici však tento slovník není dostupný v českých knihkupectvích a omezením na angličtinu se skupina uživatelů ze strany studentů podstatně zúží. Navíc obsahuje pouze lemmata, ne už další tvary, např. nepravidelné, jež by byly při studiu užitečné. Slovník však může být přínosný autorům sylabů nebo výukových materiálů podobně jako ostatní frekvenční slovníky při výběru slovní zásoby. Poskytuje celkovou frekvenci u každého lemmatu, např. u modálních sloves vidíme, že nejfrekventovanější je smět (ibid., s. 22). Pro výukové materiály vytvářené pro jednotlivé jazykové úrovně však potřebujeme i frekvenci jednotlivých slovních tvarů, tu nám však poskytne přímé vyhledávání v korpusu.

8.4 Shrnutí

V této kapitole se věnujeme nepřímému využití korpusů ve výuce, konkrétně pro tvorbu učebnic, sylabů nebo pedagogických gramatik. Představujeme základní pojmy pedagogické gramatiky, jako je např. funkce nebo parcelace. Funkcí je myšlen účel komunikace, který je důležitý pro výběr správného gramatického jevu. Parcelace znamená zjednodušení nebo „rozkouskování“ jevu na části dle významu či komunikační situace. Na příkladech ukazujeme, jak se při výuce cizinců simplifikuje výuka slovesných tříd a pádů oproti klasickým algoritmům pro rodilé mluvčí. Věnujeme se tomu, jaké přínosy přináší korpus a jeho data při vytváření pedagogické gramatiky: 1. frekvence jevů, 2. varianty psaného a mluveného jazyka, 3. kolokace, svazky a vzorce a 4. autentické příklady vět. Prezentujeme anglickou gramatiku projektu COBUILD, která je vytvořena z korpusových dat a s korpusovými příklady. Tento typ gramatiky poskytuje studentům empirická data o jazyce a spojuje gramatiku s lexikem. V souvislosti s tím se zabýváme také autentickým jazykem ve výuce a uvádíme

168 konkrétní pravidla pro úpravu vět z korpusu na modelové věty. Nakonec zmiňujeme současné české korpusové příručky, které lze využít jako zdroje dat pro tvorbu pedagogické gramatiky: Statistiky češtiny, Mluvnice současné češtiny, Akademická gramatika spisovné češtiny a frekvenční slovníky češtiny. U každé publikace uvádíme krátkou sondu do jednoho gramatického jevu a jeho možné zpracování pro výuku češtiny pro cizince na základě korpusových výzkumů.

169

9 Analýza učebnicového korpusu136

První studii na základě učebnicového korpusu jsme již prezentovali na konferenci Corpus linguistics – 2013 v Petrohradu a publikovali v konferenčním sborníku (Vališová, 2013a). Jednalo se však o první verzi korpusu A1 (UčKo-A1) ve složení 6 učebnic. Konečnou verzi korpusu UčKo-A1 jsme prezentovali na Konferenci studentů českého jazyka 2013 v Brně a na Teaching and Language Corpora Conference (TaLC 11) v roce 2014 v britském Lancasteru. Jelikož jsme se však nakonec rozhodli v korpusu vynechat učebnici Čeština pro cizince a azylanty (Hádková, 2005) a také využít nový popis referenční úrovně A1 (Cvejnová, 2014), výsledky této studie jsou nové (viz kap. 9.3.1).

9.1 Klasická analýza učebnic

Učebnicový korpus nahrazuje a automatizuje klasickou analýzu učebnic, při které postupujeme stránku za stránkou (Gouveneur(ová) a Meunier(ová), 2009). Během posledních dvaceti let, kdy se obor čeština jako cizí jazyk začal rychle rozvíjet a vzniklo mnoho nových učebnic, byla publikována také řada studií opírajících se o analýzu učebnic. Při bližším zkoumání zjistíme, že největší podíl tvoří bakalářské a diplomové práce různých bohemistických pracovišť v ČR (tab. 8). Za zmínku jistě stojí dvě monografie Milana Hrdličky, které se věnují předložkám (2000) a celé mluvnici (Gramatika a výuka ČCJ, 2009) a dizertační práce Valkové (2014) zaměřující se na komunikační aktivity v učebnicích. Objevují se však i studie, jež nejsou zaměřené na gramatiku, ale na lexikum obsažené v učebnicích, metajazyk, tj. instrukce cvičení, nebo sociokulturní dovednosti, tedy tradice a společenské normy v ČR, jež se odráží v komunikačních situacích a taktéž v jazyce. Přispělo k tomu jistě i zřízení nového magisterského oboru Učitelství češtiny jako cizího jazyka na Filozofické fakultě Univerzity Karlovy v roce 2006. Během doktorského studia na Masarykově univerzitě

136 Části této kapitoly již byly publikovány: Vališová, 2013a, 2013b. 170 jsme některé bakalářské práce zaměřené na analýzu učebnic také vedli: Kočařová (2013), Koláčková (2013) a Stočková (2015).

Autor Téma Počet Úrove Typ práce učebnic ň Oblast Oblast výzkumu Hrdlička (2000) předložky 38 A1-B2 monografie Drlíková (2008) vid 4 A1-B2 bakalářská práce Hrdlička (2009) česká mluvnice 33 A1-B2 monografie Lukšija (2010) místní předložky 2 A1-A2 bakalářská práce Vališová (2011) slovesné třídy 23 A1-A2 diplomová práce Bičišťová (2011) číslovky - - bakalářská práce Lukšija (2012) deklinace substantiv 10 A1-A2 diplomová práce Kodajková (2012) imperativ, 9 A1-B1 diplomová práce

kondicionál, pasivum Kočařová (2013) rod 5 A1 bakalářská práce Koláčková (2013) imperativ 8 A1-B1 bakalářská práce

Gramatika Stočková (2015) syntax 7 A1 bakalářská práce Kovaříková (2009) obecná čeština - - bakalářská práce

Nezvalová (2010) slovotvorba 3 A1-A2 bakalářská práce Nováková (2010) obecná čeština 4 B1-B2 diplomová práce Ocztošová (2012) SZ pro německy - - bakalářská práce

Lexikum mluvící Hrdlička (2009) komunikační metoda 33 A1-B2 monografie Hladíková (2011) signální gramatika 4 A1 diplomová práce

Šímová (2012) komunikační metoda - - diplomová práce Valková (2014) komunikační metoda 4 A1-A2 monografie Metody

Hradilová (2010) terminologie jmenné 3 A1-A2 odborný článek flexe Osolsobě a Vališová lingvistická 17 A1-A2 odborný článek (2010) terminologie Metajazyk Volnogradská typy textů 3 A1 diplomová práce (2012)

Sedláček (2013) vyváženost textů 10 A1-B1 diplomová práce Text Hladíková (2014) obrazová složka 5 A1-A2 diplomová práce

Kaushiková (2014) reálie 6 A1-A2 diplomová práce

Mimojazykové Mimojazykové jevy Tabulka 8 Analýzy učebnic češtiny pro cizince137

137 Tabulka jistě není vyčerpávající. Vycházíme hlavně z prací dostupných na internetu. V případě, že práce není k dispozici ke stažení on-line, neuvádíme počet učebnic ani úroveň. 171

Tyto analýzy jsou velmi užitečné nejen z důvodu zlepšení budoucích učebnic. Pomáhají uvědomit si, jaké jazykové oblasti jsou v učebnicích opomíjeny a je proto třeba vyvinout k nim doplňkové materiály, on-line zdroje či vlastní cvičení, např. na základě autentického jazyka z korpusů.

9.2 Tvorba korpusu138

Zde bychom chtěli prezentovat návrh složení učebnicového korpusu (UčKo), jehož tvorba je jedním z přínosů této práce. Navrhujeme složení učebnic z hlediska úrovní A1–B1 podle Evropského referenčního rámce pro jazyky z toho důvodu, že B1 je prahová úroveň, tzn., že mnoho studentů na ní se studiem kvůli náročnosti končí, a také je v současnosti úrovní zkoušky z českého jazyka pro udělení občanství ČR. Dalším důvodem je i fakt, že učebnic na vyšších úrovních je prozatím menší množství, a tudíž by nebylo možné srovnání.

Pro korpus jsme vybrali 18 současných učebnic češtiny pro cizince (viz tab. 9) – všechny byly vydány po roce 2000, některé jsou však staršího data, neboť se jedná o další vydání, což ukazuje, že učebnice se stále využívá pro výuku. Kromě úrovně a data vydání jsme při výběru učebnic vycházeli také z dotazníku Koláčkové (2010) a z vlastní praxe, tj. vybírali jsme učebnice, které se stále ve výuce používají. Vynechali jsme proto nakonec učebnice Hádkové Čeština pro cizince a azylantyA1, A2 (2005a, 2005b), přestože jsme první z nich zahrnuli do analýzy korpusu A1 (Vališová, 2013a). Rozhodli jsme se tak proto, že učebnice se již nepoužívá, přičemž jedním z důvodů je i její malá dostupnost (učebnice vznikla v rámci projektu a neprodává se v knihkupectvích).

Vzhledem k rozsahu naší práce a většímu zaměření na teorii a korpusová cvičení, jsme se rozhodli vytvořit pouze dvě části korpusu – A1 a A2. Druhým důvodem je také fakt, že bychom v budoucnu rádi do korpusu zahrnuli učebnici B1 od Jitky Cvejnové, která by měla vyjít v roce 2017. V následujících kapitolách

138 Kvůli autorským právům učebnicový korpus v rámci své dizertace nepublikujeme. 172 prezentujeme dvě případové studie na základě učebnicového korpusu A1 a A2 zaměřené na výběr sloves na úrovni A1 a kontexty vybraných sloves na úrovni A2.

Některé učebnice zahrnují více úrovní a při myšlence rozdělení knih podle SERRJ vzniká u některých učebnic překážka. Často jsou totiž orientovány na výuku více úrovní, např. A1 až A2, nebo dokonce A1 až A2/B1. Je tedy obtížné někdy rozhodnout, ve které části učebnice určit tuto hranici mezi úrovněmi. Nejlépe na tom jsou v tomto ohledu učebnice nejnižší úrovně A1, zřejmě i kvůli tomu, že na této úrovni cizinci skládají Zkoušku z češtiny pro trvalý pobyt. Učebnic úrovně A1 je proto největší množství a často jsou autory cíleně omezeny na tuto nejnižší úroveň.

V případě učebnic úrovně A1–A2 (Čechová a Remediosová, 2005; Holá, 2006; Pintarová a Rešková, 2006) jsme postupovali tak, že jsme je rozdělili na polovinu, přestože je jasné, že učebnice funguje jako celek a pokud nepracuje sama s úrovněmi, nebude toto dělení přesné. Vycházíme však z toho, že i v rámci kurzů se takto učebnice často dělí, a pokud bychom chtěli pracovat s celým korpusem dohromady, není problém oba subkorpusy ve Sketch Engine spojit.

Korpus UčKo-A1 ADAMOVIČOVÁ, Ana a Darina IVANOVOVÁ (2006) Basic Czech I. CVEJNOVÁ, Jitka (2008) Česky, prosím I. ČECHOVÁ, Elga a Helena REMEDIOSOVÁ (2005) Chcete mluvit česky? (1. polovina) BOŘILOVÁ, Pavla a Lída HOLÁ (2010) Čeština Expres 1, 2 HOLÁ, Lída (2006) New Czech Step by Step. (1. polovina) MATULA, Ondřej (2007) Český den. PINTAROVÁ, Magdalena a Ivana REŠKOVÁ (2006) Communicative Czech. Elementary Czech. (1. polovina) ŠTINDL, Ondřej (2008) Easy Czech. Elementary. ŠTINDLOVÁ, Barbora (2008) Česky v Česku I, II. Korpus UčKo-A2 ADAMOVIČOVÁ, Ana, Darina IVANOVOVÁ a Milan HRDLIČKA (2014) Basic Czech II. BOŘILOVÁ, Pavla a Lída HOLÁ (2010) Čeština Expres 3. CVEJNOVÁ, Jitka (2012) Česky, prosím II. ČECHOVÁ, Elga a Helena REMEDIOSOVÁ (2005) Chcete mluvit česky? (2. polovina) HOLÁ, Lída (2006) New Czech Step by Step. (2. polovina) PINTAROVÁ, Magdalena a Ivana REŠKOVÁ (2006) Communicative Czech. Elementary Czech. (2. polovina)

Korpus UčKo-B1 BISCHOFOVÁ, Jana a Milan HRDLIČKA (2005) Čeština pro cizince a azylanty B1. BOŘILOVÁ, Pavla a Lída HOLÁ (2011) Česky krok za krokem 2. CVEJNOVÁ, Jitka (2017) Česky, prosím III. KESTŘÁNKOVÁ, Marie et al (2010) Čeština pro cizince B1. PINTAROVÁ, Magdalena a Ivana REŠKOVÁ (2004) Communicative Czech. Intermediate Czech. NEKOVÁŘOVÁ, Alena (2006) Čeština pro život – 15 moderních konverzačních témat. Praha. Tabulka 9 Seznam učebnic v učebnicovém korpusu (UčKo)

173

Při tvorbě korpusu jsme postupovali v těchto krocích:nejdříve je nutné učebnice oskenovat, následné pdf soubory zkonvertovat do textového souboru (použili jsme OCR program zabudovaný do Informačního systému Masarykovy univerzity) a poté vyčistit, tj. ručně opravit chyby, které při konverzi vznikly, např. když bylo některé písmeno nebo celé slovo rozeznáno špatně. Obtíže nastávají při tzv. čištění textového souboru, neboť v učebnicích nejsou čisté texty, ale často tabulky, věty nebo pouze slova či hlásky. Dále se tam vyskytují instrukce v různých mediačních jazycích, nejčastěji v angličtině. A nakonec učebnice jsou často barevné a obsahují obrázky, fotografie a graficky pojednané úseky textu, proto některé věty, např. ty, jež jsou otištěny světlým písmem na tmavém pozadí, nejsou programem vůbec rozeznány a je tedy potřeba je přepsat ručně. Z tohoto důvodu je tvorba korpusu, přestože malého formátu, velmi časově náročná.

Z učebnic jsme vybírali pouze texty, dialogy a modelové věty. Jsme si vědomy toho, že takový korpus nezahrnuje veškerou slovní zásobu obsaženou v učebnicích, pokud vynecháme cvičení, poslechy a instrukce, přesto však přináší data o tom, jak vypadá učebnicový jazyk a jakým větám a textům jsou studenti vystaveni. Výběru textů a problémům či otázkám, které při tvorbě korpusu nastaly, se věnujeme v následující kapitole.

Pro kompilaci korpusu používáme nástroj Sketch Engine, který umožňuje vložení vlastního korpusu ve formátu txt (funkce Create corpus). Následně je možné vytvořit seznam slov podle frekvence (wordlist) nebo vyhledávat slova a jejich kontexty jako v klasickém korpusu. Celkové složení korpusu je téměř 100 tisíc slov, přičemž subkorpusy A1 a A2 tvoří každý zhruba polovinu (tab. 10).

UčKo-A1 UčKo-A2 Celkem Počet slov 51 749 46 203 97 952 Tabulka 10 Složení učebnicového korpusu (UčKo)

Na následujících screenshotech ze Sketch Engine lze vidět počet slov každé zahrnuté učebnice. V korpusu úrovně A1 (obr. 46) se většinou pohybuje mezi 4–6 tisíci slovy, mírně vybočuje New Czech Step by Step a největší počet slov obsahuje Česky, prosím I. Tento fakt je ovlivněn poměrem textů v učebnicích. Některé učebnice této nízké úrovně obsahují převážně krátké dialogy a modelové věty a největší prostor zaujímají cvičení. Nejvíce souvislých textů obsahuje učebnice Česky prosím. To se

174 projeví v subkorpusu úrovně A2, kde její počet slov je téměř trojnásobný než u všech ostatních knih (obr. 47).

Obrázek 46 Složení učebnicového korpusu A1 (Sketch Engine)

Vzhledem k tomu, že texty jsou často velmi krátké (např. pouhé dvě věty), jsme se rozhodli nedělit korpus na texty, ale na učebnice. Z obr. 46 je také zřejmé, že učebnice, které mají dva díly, tj. Čestina expres a Česky v Česku, jsme spojili do jednoho souboru. Učebnice zahrnující dvě úrovně (A1–A2) jsme rozdělili na poloviny: Communicative Czech Elementary (lekce 1–6, 7–12), Chcete mluvit česky (lekce 1–7, 8–15) a New Czech Step by Step (lekce 1–10, 11–20).

Obrázek 47 Složení učebnicového korpusu A2 (Sketch Engine)

9.2.1 Výběr textů do korpusu a jejich klasifikace Během výběru textů z učebnic nastávají otázky, které souvisí s učebnicovým jazykem jako specifickým typem textu: 1. Lze oddělit psanou a mluvenou učebnicovou češtinu?

175

2. Lze oddělit řečové dovednosti a typy cvičení? Další otázka vyvstane, zamyslíme-li se, zda zařadit pouze texty ke čtení nebo i texty určené k jiným funkcím, např. prezentaci frází, gramatiky apod. 3. Mají být zařazeny i modelové věty a které?

Texty v učebnicích, především na nižších úrovních jsou prezentovány často ve formě dialogů, vzhledem k tomu, že výuka se orientuje na standardní češtinu, nejedná se o mluvenou češtinu, s níž se setkáváme např. v korpusech mluveného jazyka, ale o spisovnou normu jazyka. Jde tedy o psaný jazyk vnesený do žánru mluvené češtiny, tj. např. neformální dialog (obr. 48). Pak nastává otázka, zda ke srovnání použít korpus psaného či mluveného jazyka. Pokud bychom z učebnic vyňali pouze dialogy, jak to udělala Römer(ová) (2005), domníváme se, že při srovnání s korpusem mluveného jazyka bychom nalezli velké diskrepance. Pak by bylo třeba diskutovat o tom, do jaké míry jsou pro stanovený cíl relevantní, pokud se student učí spisovný jazyk minimálně do úrovně A2. Myslíme si tedy, že v učebnicovém jazyce nelze jasně oddělit psaný a mluvený jazyk, tak jak je tomu v případě korpusů obecného jazyka. Tam jsou totiž texty vyňaty z reálné situace, zatímco v učebnicích jsou texty i dialogy určeny k pedagogickým účelům. Proto jsme se rozhodli psaný a mluvený jazyk v učebnicích nerozlišovat a data z učebnicového korpusu srovnávat s webovým korpusem, jehož složení se z našeho pohledu vyskytuje na podobném pomezí psané a mluvené češtiny (viz kap. 9.3.2).

HANA A HONZA ZASE KONEČNĚ SPOLU MLUVÍ Honza: Hanko, nechceš jít se mnou zítra večer do kina na Nudu v Brně? Hana: Kde dávají ten film? Honza: V centru už neměli lístky, můžeme jet do Hostivaře. Hana: Jak tam pojedeme? Honza: Jezdí tam dvaadvacítka. Buď pojedeme tramvají, nebo áčkem na konečnou a pak nějakým autobusem. Hana: Tak fajn. Doufám jen, že to nebude nuda v kině... Honza: Určitě ne. Je to dobrý film. Všechno je pod kontrolou. Hana: To jsem ráda. A jak skončil hokej? Honza: Pro mě špatně, pro Juana dobře. Slávia vyhrála nad Spartou. Hana: Sparta prohrála se Slávií! Upřímnou soustrast! Honza: Díky. A jen tak mimochodem, už jsi přemýšlela o cestě do Finska nebo do Španělska? Víš, že je to skvělá možnost? Hana: Tak to je všechno, co zatím vím. Ještě jsem s tím nepočítala. Honza: A co zítra to kino? Hana: To platí! Obrázek 48 Ukázka dialogu z učebnice Basic Czech II (Adamovičová et al, 2014)

Je všeobecně přijímáno, že v jazyce jsou důležité čtyři základní řečové dovednosti: čtení, psaní, mluvení a poslech (Hendrich, 1988). Při konkrétních aktivitách

176 však často procvičujeme více z nich, nejsou tedy v učebnicích striktně oddělené, např. text má funkci prezentace gramatiky nebo slovní zásoby, slouží jako poslech a zároveň čtení, lze ho použít pro procvičování mluvení (např. při převyprávění) a konkrétní věty z něj se pak vyskytují ve cvičení. Typický jev pro tento případ dialog s vynechanými mezerami, který slouží jako poslechové cvičení a následně i pro čtení, neboť za textem často následují cvičení určená k procvičování porozumění textu, např. otázky nebo pravdivé/nepravdivé věty. Na obr. 49 vidíme příklad dialogu, který slouží zároveň ke čtení i psaní. Studenti mají za úkol některé fráze z textu přepsat. Domníváme se tedy, že nelze oddělit ty texty, které slouží pouze k procvičování čtení s porozuměním, neboť texty mají většinou více funkcí. Do korpusu jsme proto vybírali všechny typy textů: souvislé texty i dialogy, včetně cvičení, která s textem souvisí (např. otázky). Individuálně jsme postupovali v případě dialogu s mezerami, který je primárně cvičením, ale zároveň slouží i ke čtení. Vybírali jsme pouze ty dialogy, u kterých byla doplňovaná slova jednoznačná, např. předložky. V případě otevřených mezer jsme takový text nezahrnuli. Vynechali jsme také strukturované texty, jako např. jídelní lístek nebo životopis, neboť nezahrnují věty.

Obrázek 49 Ukázka dialogu z učebnice Čeština expres 3 (Holá, 2010)

Během výběru textů jsme se setkali s tím, že kromě textů, dialogů a cvičení se často v učebnicích vyskytují modelové věty, které prezentují slovní zásobu nebo gramatiku. Tyto věty často nejsou izolované, ale ve formě krátkých dialogů (obr. 50). Vzhledem k tomu, že na úrovni A1 v učebnicích takovéto modelové věty nad texty převažovaly, rozhodli jsme se je také zahrnout (na úrovni A2 jsou časté v učebnicích Chcete mluvit česky a Česky, prosím II). Jako kritérium jsme vybrali fakt, že to jsou celé

177 věty, ne pouze jednotlivá slova ukazující např. daný gramatický jev nebo věty opakující stále stejnou strukturu, např. mám pravdu, mám štěstí, mám smůlu (Holá, 2006).

Obrázek 50 Ukázka modelových vět z učebnice Česky, prosím II (Cvejnová, 2012)

Co se týče typů textů, již základní dělení na podkorpusy (texty, poslechy, cvičení a instrukce, jako u korpusu TeMa) by často bylo velmi problematické. V případě použití celých učebnic pro tvorbu korpusu bychom navrhovali přidat jako pátý subkorpus modelové věty.

I přes všechny tyto limity dané výběrem textů se domníváme, že korpus dokáže prezentovat jazyk, jakému jsou studenti češtiny využívající tyto učebnice vystaveni, a to díky velkému množství dat.

9.2.2 Diskuze k anotaci učebnicového korpusu Na základě dostupných informací o anotaci učebnicového korpusu TeMa bychom se chtěli zamyslet nad tím, zda by se značky lišily v případě anotace korpusu z celých učebnic češtiny. V kapitole 4.3.2 ukazujeme na příkladu „doplňování“ typ anotace, ve které se zohledňují typy cvičení. Domníváme se, že v případě češtiny by bylo také podstatné zohlednit např. nejen to, že se slova vybírají z rámečku, ale také to, zda se v rámečku vyskytují slova ve formě lemmatu (základního tvaru – nominativu či infinitivu) či přesné tvary k doplnění. Rozlišení lemmatu a konkrétního tvaru se bude vyskytovat i v dalších typech cvičení.

Dále jsme se zamýšleli nad tím, zda by nebylo užitečné přidat k základním značkám označujícím typy cvičení také morfologické informace, např. o doplňované variantě. Zjistili bychom např., zda převažují cvičení procvičující pouze jeden pád nebo více pádů nebo zda je např. nějaký pád či rod ve cvičeních upřednostňován na úkor jiného. V takovém případě by bylo potřeba k základní značce před větou (např. CB –

178 doplňte slova z rámečku) přidat ještě informaci o pádu s využitím již využívaných morfologických značek z českých korpusů (pokud se jedná o cvičení zaměřené na gramatiku)139. Je však na zvážení, zda by takový systém značek nebyl příliš komplikovaný a nepřehledný. Druhou možností by bylo ponechat zároveň morfologické značkování i specializované (zde pedagogické), jak to funguje např. u žákovských korpusů.

9.3 Komparace dat učebnicového korpusu s autentickým jazykem

V následujících podkapitolách prezentujeme dvě případové studie, ve skterých analyzujeme data z učebnicového korpusu. V první využíváme korpus z učebnic úrovně A1 a věnujeme se výběru sloves. Srovnáváme počet dokonavých a nedokonavých sloves s Referenčním popisem češtiny A1 (Cvejnová et al, 2014) a u 12 nejfrekventovanějších dokonavých sloves z učebnic srovnáváme výskyty jednotlivých tvarů s korpusem obecného jazyka czTenTen. V druhé studii používáme korpus z učebnic úrovně A2 a zaměřujeme se na kontexty vybraných3 sloves z učebnic v korpusu UčKo-A2 a czTenTen. Při analýze vycházíme především z vyhledaných dat (corpus-driven výzkum, Tognini-Bonelli, 2001; Čermáková, 2008), avšak v závěrech týkajících se doporučení do výuky přihlížíme také k dané úrovni a funkci v komunikaci.

Uvědomujeme si, že tvorba učebnic je velmi náročná a záslužná činnost. Při srovnání více učebnic za pomocí korpusu se však nezaměřujeme na analýzu konkrétních učebnic, ale naším cílem je komparace učebnicového jazyka s jazykem autentickým a zjištění, zda a jak data z obecného korpusu mohou být prospěšná a aplikovatelná do výuky.

139 Za tento nápad děkuji doc. Viktoru Zacharovi, se kterým jsem tvorbu a možnou anotaci učebnicového korpusu konzultovala. 179

9.3.1 Výběr slovní zásoby v učebnicích A1140 V následující části prezentujeme výsledky případové studie na základě učebnicového korpusu UčKo-A1, kde jsme se zaměřili na výběr sloves v učebnicích úrovně A1. Sloveso je centrem české věty, a proto je důležité studenty seznámit se slovesnými tvary a vybrat taková slovesa, která budou při komunikaci v základních situacích používat.

Nejprve jsme tedy získali seznam sloves ze subkorpusu úrovně A1 a tato data jsme následně porovnali se seznamem sloves z doporučené slovní zásoby v novém popisu referenční úrovně A1 pro češtinu jako cizí jazyk (Cvejnová et al, 2014) a také s daty z korpusů obecného jazyka. Naše výchozí otázky byly: Která slovesa by měla být prezentována na úrovni A1? Zahrnuje úroveň A1 i slovesa dokonavá?

Úroveň A1 je považována za základní úroveň téměř bez využití gramatiky. Ústní projev studenta na úrovni A1 znamená, že „rozumí známým každodenním výrazům a zcela základním frázím, jejichž cílem je vyhovět konkrétním potřebám, a umí tyto výrazy a fráze používat“ (SERRJ, 2001). Nicméně při výuce češtiny jako cizího jazyka se nevyhneme gramatice ani na nejnižší úrovni A1. Tato úroveň je také důležitá z toho důvodu, že z ní musí dělat zkoušku ti cizinci, kteří žádají o trvalý pobyt v České republice. Proto je součástí popisu úrovně i tzv. gramatické minimum. Podle Metodiky ke zkoušce z češtiny pro trvalý pobyt (Cvejnová et al, 2008) tam patří: minulý, přítomný a budoucí čas nedokonavých sloves, imperativ a kondicionál pouze ve frázích (ibid., s. 22), zatímco oficiální popis úrovně doporučuje prezentovat dokonavá slovesa jako zvláštní skupinu sloves a také vyučovat konkrétní tvary dokonavých sloves, nejlépe s kontextem, tzn. v nějaké frázi (Hádková et al., 2005, s. 255). Pro tuto studii jsme využili učebnicový korpus UčKo-A1 sestávající z textů, dialogů a modelových vět z 9 učebnic češtiny jako cizího jazyka na úrovni A1. Korpus čítá celkem 51 749 slov. Z korpusu UčKo-A1 jsme vygenerovali seznam lemmat, ze kterého jsme následně ručně vytřídili všechna slovesa (frekvence min. 2 výskyty). Celkem bylo v učebnicích 275 sloves, a z toho 103 (37%) z nich dokonavých (viz tab. 11). Při srovnání s novým referenčním popisem úrovně A1, vidíme, že v učebnicích je

140 Tato případová studie již byla publikována (různé verze korpusu): Vališová, 2013a, 2015. Toto je její nová verze s upraveným korpusem UčKo A1 a využívající nový referenční popis češtiny úrovně A1 (Cvejnová et al, 2014). 180 počet dokonavých sloves mírně vyšší, což může být způsobeno také tím, že korpus obsahuje texty, které mohou obsahovat i slovní zásobu určenou pro pasivní znalost.141

Korpus UčKo-A1 Referenční popis češtiny A1 Imperfektivní slovesa 183 63,76% 142 72,08% Perfektivní slovesa 104 36,24% 55 27,92% Počet sloves celkem 287 100,00% 197 100,00% Tabulka 11 Počet sloves v korpusu UčKo-A1 (frekvence min. 2 výskyty) a popisu A1

Vzhledem k tomu, že v seznamu sloves jsou perfektivní slovesa většinou s nižší frekvencí (a také nejsou zahrnuta ve všech učebnicích), tabulka 12 ukazuje počet perfektivních sloves mezi 100 nejfrekventovanějšími slovesy v učebnicích. Je jich pouze 19% (počet výskytů 11 a více), tedy o téměř 10% méně než v Referenčním popisu A1.

Korpus UčKo-A1 Imperfektivní slovesa 81 81% Perfektivní slovesa 19 19% Počet sloves celkem 100 100% Tabulka 12 Počet sloves v korpusu UčKo-A1 (100 nejfrekventovanějších sloves)

Pokud se podíváme blíže na konkordanční řádky, zjistíme, že jsou tato slovesa prezentována vždy v konkrétním tvaru a konkrétním kontextu, studenti se je tedy učí jako frázi a nemusí ještě nic vědět o vidu. Slovesa jsou nejčastěji prezentována v infinitivu (1), a to obvykle po modálních slovesech, dále v imperativu (2), minulém čase (3) nebo v perfektivním futuru (4), který ovšem studenti vnímají jako prézent.

(1) pomoct: 10 výskytů, 4 učebnice

Můžete mi pomoct, prosím vás? (Easy Czech)

Promiňte, můžete mi pomoct? (Česky, prosím I)

(2) prominout: 48 výskytů, 8 učebnic

Promiňte, jak se dostanu na Smíchovské nádraží? (Basic Czech I)

Promiňte, že jdu pozdě. (Čeština Expres A1)

141 V předchozí studii, kde jsme srovnávali počet sloves v učebnicích s popisem úrovně A1 (Hádková et al, 2005), byl naopak počet dokonavých sloves v učebnicích mnohem nižší (Vališová, 2013a). 181

(3) narodit se: 28 výskytů, 5 učebnic

Jan se narodil 13. 5. 1980. (Basic Czech I)

Narodila jsem se na Slovensku. (Čeština Expres A1)

(4) vzít: 19 výskytů, 6 učebnic

Vezmu si čtyři rohlíky. (Basic Czech I)

Vezmu si ještě čtyři jablka. (Communicative Czech) Příklady z korpusu jasně ukazují, že studenti nejsou seznámeni s kategorií vidu, ale učí se konkrétní tvary v rámci fráze potřebné pro danou komunikační situaci. Překvapivé však bylo, že některá z těchto sloves byla zahrnuta pouze v některých učebnicích, což znamená, že autoři se jim snaží co nejvíce vyhýbat. Je možné, že byla zahrnuta ve cvičeních, zároveň bychom však očekávali, že v dialozích budou prezentovány nejčastější fráze. Ptáme se ovšem, proč se frekventovaným dokonavým slovesům vyhýbat, když stačí prezentovat pouze jeden jediný tvar.

Nový referenční popis uvádí, že na úrovni A1 se mají prezentovat některá frekventovaná dokonavá slovesa (Cvejnová et al, 2014, s. 173). Rozhodli jsme se proto porovnat tvary nejfrekventovanějších dokonavých sloves z korpusu UčKo-A1 s výskyty v korpusu rodilých mluvčích. Tabulka 13 prezentuje 100 nejfrekventovanějších sloves z učebnich A1, z nichž jsme vybrali perfektivní slovesa (celkem 19). Tabulka 14 představuje slovesa, která jsou uváděna v Referenčním popisu češtiny A1, ale nebyla zahrnuta v učebnicích nebo měla pouze 1 výskyt. Vidíme, že se nejedná vždy o dokonavá slovesa a některá z nich by byla jistě užitečná (podepsat se, hláskovat, sprchovat se apod.).

být 3728 dívat 73 nakupovat 34 sejít 18 mít 1138 hledat 75 ležet 32 přát 18 jít 413 myslet 70 uklízet 30 platit 18 jet 322 číst 69 vrátit 30 uvidět 17 chtít 307 spát 69 přijet 29 rezervovat 17 muset 243 líbit 67 odpočívat 29 hodit 17 prosit 239 vařit 66 smět 28 podívat 17 pracovat 230 umět 66 telefonovat 28 vypadat 17 moct 205 chodit 65 narodit 28 volat 17 dělat 177 pít 61 ptát 28 udělat 16 vědět 150 psát 59 pršet 27 zůstat 16 jmenovat 143 koupit 58 žít 25 trvat 16 182

stát 130 čekat 56 cestovat 24 lyžovat 16 dát 128 přijít 55 zavolat 24 plánovat 16 děkovat 130 říkat 55 plavat 24 zahnout 16 mluvit 119 bolet 54 dostat 24 kouřit 15 studovat 112 učit 54 milovat 23 brát 15 znát 110 jezdit 52 večeřet 23 dávat 15 vidět 106 obědvat 52 končit 22 sedět 15 bydlet 105 prominout 51 poslouchat 22 vadit 15 potřebovat 81 snídat 49 chutnat 21 umřít 14 vstávat 78 kupovat 48 říct 21 nabízet 14 jíst 78 narodit 41 sportovat 20 mýt 13 hrát 77 začínat 39 navštívit 20 otevřít 13 těšit 77 rozumět 38 vzít 19 prohlédnout 12 Tabulka 13 100 nejfrekventovanějších sloves v učebnicích A1 (infinitiv a počet výskytů)

doporučit počítat pomáhat sprchovat se zapnout hláskovat podepsat (se) pronajímat šít zazpívat informovat podnikat půjčovat tlumočit změřit kreslit pojistit radit vyslovovat zopakovat otevírat pokračovat spadnout vysvětlovat ztratit Tabulka 14 Slovesa z Referenčního popisu češtiny A1, která se nevyskytovala v učebnicích

Jednotlivé tvary 13 nejčastějších perfektivních sloves srovnáme s daty z korpusu obecného jazyka.142 Jako referenční korpus jsme vybrali webový czTenTen, který čítá 4 175 089 440 slov a je dostupný ve vyhledávači Sketch Engine. Tento korpus jsme vybrali z toho důvodu, že dialogy a texty v učebnicovém korpusu je obtížné zařadit pod buď psaný, nebo mluvený korpus (viz kap. 9.2.1). Webový korpus obsahuje texty z webových stránek, které se taky často vyskytují na pomezí psaného a mluveného jazyka, a proto se složení učebnicového korpusu blíží nejvíce. V tabulkách jsme barevně označili největší rozdíly ve frekvenci. Ke každému slovesu však přidávám komentář o tom, v kolika učebnicích se vyskytuje, jaké formy a typy frází jsou

142 Ve wordlistu jsme narazili na některé problémy s rozeznáním lemmatu: moct – 1. osoba prézentu nebyla rozeznána jako lemma moct, ale zvlášť, jet – zvlášť lemmata pojet a jed, znát – zvlášť lemma neznat, sedět – prézentní formy pod lemmatem sedit, ptát se zařazeno pod lemma ptat, zapomenout – minulý čas pod lemmatem zapomnět, ukrást – minulý čas pod lemmatem ukradnout, vzpomenout – minulý čas pod lemmatem vzpomnět, zavřít – zvlášť forma zavřen, otevřít – zvlášť forma otevřen, sloveso narodit se vyhledáme pod lemmaty narodit i narodit se. Domníváme se, že jde o problémy, které souvisejí s použitou morfologickou analýzou. Např. tvar jedu je homonymní (tvar slovesa jet i substantiva jed), jde tedy o problém desambiguace, jak potvrzuje pohled na chyby v desambiguaci v korpusu czTenTen12.Zkoumat podrobnosti týkající se omezení použitého značkování nebylo cílem této práce, přesto pokládáme za nutné na tyto meze čtenáře upozornit. 183 nejčastější a zda je srovnání s korpusem obecného jazyka relevantní vzhledem k úrovni, aby poskytlo informace o frekventovaných formách užitečných k prezentaci ve výuce.

Dát (si)

UčKo-A1 czTenTe dát (si) n infinitiv 13,28% 12,73% préteritum 7,81% 35,07% futurum 67,97% 43,47% imperativ 10,94% 5,8% Tabulka 15 Frekvence slovních tvarů slovesa dát (si) v korpsech UčKo-A1 a czTenTen

Sloveso dát (si) se vyskytuje ve všech učebnicích v korpusu UčKo-A1, nejvíce v knize Český den 19 výskytů, Communicative Czech Elementary a Česky v Česku 17 výskytů, Easy Czech 17 výskytů, ostatní 10–13 výskytů. Z celkových 128 výskytů je 92 (71,88%) zvratné sloveso dát si. Většina vět se tedy orientuje na prostředí restaurace a objednávání jídla a pití (5), méně často již a „dát něco někam“ (24 výskytů) (6) a „dát něco někomu“ (12 výskytů) (7).

(5) Dám si minerálku a hovězí polévku, prosím. (Easy Czech) (6) Doktor: Dám vám nějaké prášky a musíte cvičit. (Česky v Česku) (7) Ten malý stůl dejte doprava vedle křesla. (Český den) (8) Dala jsem si svůj oblíbený smažený sýr. (Communicative Czech Elementary)

Co se týče sémantiky, v korpusu czTenTen má nejvíce výskytů „dát se + infinitiv“ ve významu „něco je možné“ (9), z tvarů převažuje préteritum, je ho téměř o 20% více než v učebnicích, kde jsme nalezli pouze 10 výskytů. To je způsobeno orientací učebnic na téma objednávání. Domníváme se však, že sloveso dát, které se v minulém čase tvoří pravidelně, může být studenty využíváno i v jiných významech jako v příkladu 8.

(9) Ale nedá se nic dělat, všechno musí být připraveno dokonale a bez chyb. (czTenTen, cvf.cz)

184

Koupit (si)

UčKo-A1 czTenTen koupit (si) infinitiv 41,38% 36,78% préteritum 25,86% 39,54% futurum 32,76% 20,20% imperativ 0% 2,92% Tabulka 16 Frekvence slovních tvarů slovesa koupit (si) v korpsech UčKo-A1 a czTenTen

Sloveso koupit (si) jsme nalezli v 7 učebnicích. Nejvíce výskytů mělo v učebnici Chcete mluvit česky (19), méně již v knihách Česky v Česku a Communicative Czech Elementary (11 výskytů), Česky, prosím I (7), Easy Czech (5), Čeština Expres (3) a New Czech Step by Step (2). V učebnicovém korpusu UčKo-A1 se sloveso vyskytuje především v infinitivu, a to po modálních slovesech moct, muset a chtít (10). Časté je také užití ve futuru, a to z velké většiny v 1. osobě singuláru (11). Minulý čas se vyskytuje pouze v 6 učebnicích (celkem 15 výskytů) (12).

(10) Chcete ten byt koupit? (Česky v Česku) (11) Koupím mléko v obchodě. (Communicative Czech Elementary) (12) Pan Horák koupil paní Jánové víno. (Čeština Expres)

V korpusu czTenTen naopak převažuje préteritum (13, 14), často se jedná o osobní výpovědi či informaci o koupi. Domníváme se proto, že studenti by měli znát a používat toto sloveso v minulém čase namísto toho, aby používali nedokonavé kupoval jsem, když chtějí říct, co si opravdu již koupili.

(13) Koupili jsme to téměř jako ruinu, všude byla plíseň. (czTenTen, novinky.cz) (14) Koupila jsem si z bazaru auto a zhruba po měsíci jsem zjistila, že tam vůbec nejsou airbagy. (czTenTen, inpra.cz)

Přijít

UčKo-A1 czTenTen přijít infinitiv 30,91% 8,99% préteritum 18,18% 55,12% futurum 47,27% 33,16% imperativ 3,64% 2,57% Tabulka 17 Frekvence slovních tvarů slovesa přijít v korpsech UčKo-A1 a czTenTen

185

Sloveso přijít se vyskytuje pouze v 5 učebnicích: Chcete mluvit česky (30 výskytů), Easy Czech (9 výskytů), Čeština Expres (8 výskytů), Česky v Česku (6 výskytů), a New Czech Step by Step (2 výskyty), a to nejčastěji ve futuru a typicky v otázce (15) nebo v infinitivu po modálním slovese (16):

(15) Přijdete k nám večer? (Chcete mluvit česky) (16) Můžu přijít v 10 hodin? (Česky v Česku)

Ve srovnání s korpusem czTenTen vidíme, že sloveso přijít se vyskytuje převážně v minulém čase (více než 50%). Vzhledem k tomu, že studenti na úrovni A1 již znají sloveso jít a jeho préteritum šel, šla, šli, není pro ně préteritum slovesa přijít novou ani obtížnou formou.

Prominout

UčKo-A1 czTenTen prominout infinitiv 0% 3,29% préteritum 0% 2,03% futurum 0% 11,23% imperativ 100% 83,45% Tabulka 18 Frekvence slovních tvarů slovesa prominout v korpsech UčKo-A1 a czTenTen

Sloveso prominout se vyskytovalo ve všech učebnicích kromě knihy Český den a pouze v imperativu, typicky ve formální variantě promiňte (41 výskytů ze 48) (17).

(17) Promiňte, kde je tady pánský záchod? (Basic Czech I)

Rozdíly ve výskytech vidíme ve futuru, kde se v korpusu czTenTen vyskytovalo sloveso prominout v delších souvětích typu 18, a proto přesahující úroveň A1.

(18) Pokročilí čtenáři mi prominou, že začnu letmým vysvětlením, co to nastavování bílé je. (czTenTen, digineff.cz)

186

Narodit se

UčKo-A1 czTenTen narodit se infinitiv 0% 4,1% préteritum 100% 81,1%1 futurum 0% 9,68% imperativ 0% 0,04% Tabulka 19 Frekvence slovních tvarů slovesa narodit se v korpsech UčKo-A1 a czTenTen

Sloveso narodit se obsahuje nejvíce učebnice New Czech Step by Step (12 výskytů), Česky prosím I (7 výskytů) a Čeština Expres (5 výskytů), ostatní dvě pouze okrajově: Easy Czech a Basic Czech I (2 výskyty). Sloveso se objevuje výhradně v préteritu, typické jsou věty z textů o slavných osobnostech z lekcí orientovaných na výuku minulého času (19).

(19) Marie Curie-Sktodowská Byla Polka, narodila se v roce 1867. (New Czech Step by Step) (20) Jsem z Ruska. Narodil jsem se 18. března 1979 v Moskvě. (Česky v Česku)

Frekvence v korpusu czTenTen je podobná, převažuje minulý čas, výraznější rozdíl nalezneme ve futuru (21), kde se jedná o informace o rození nebo statistické údaje. Pro studenty by neměl být problém futurum pravidelného slovesa narodit se vytvořit, vzhledem k tématu je však užitečnější používat sloveso v préteritu. Zajímavé však je, že pouze dvě učebnice (Češina expres a Česky v Česku, celkem 3 výskyty) obsahovaly první osobu narodil/a jsem se, kterou studenti potřebují znát, pokud mluví o sobě (20).

(21) Je obrovský rozdíl, jestli se dítě předčasně narodí ve 36., 32., nebo dokonce 24. týdnu těhotenství. (czTenTen, porodnice.cz)

Vrátit se

UčKo-A1 czTenTen vrátit se infinitiv 20% 19,18% préteritum 40% 30,49% futurum 40% 22,29% imperativ 0% 27,83% Tabulka 20 Frekvence slovních tvarů slovesa vrátit v korpsech UčKo-A1 a czTenTen

187

Sloveso vrátit se jsme nalezli v 5 učebnicích: Chcete mluvit česky (10 výskytů), Easy Czech (6 výskytů), Česky v Česku (6 výskytů), Český den (5 výskytů) a Česky, prosím I (3 výskyty). Typický výskyt je ve futuru (22) a v minulém čase (23).

(22) Budu tam jenom 2 dny, vrátím se v neděli. (Easy Czech) (23) Odpoledne se vrátili vlakem zase zpátky do Prahy. (Česky, prosím I)

Ve srovnání s korpusem czTenTen vidíme největší rozdíl v imperativu. Tyto formy se však využívají jako diskursivní konektor ve výkladu (24), proto opět nejsou vhodné pro nejnižší jazykovou úroveň.

(24) Opusťme ale tyto dobové hodnotící komentáře a vraťme se k samotnému historickému vyprávění. (czTenTen, svedomi.cz)

Přijet

UčKo-A1 czTenTen přijet infinitiv 17,24% 8,21% préteritum 10,34% 57,84% futurum 72,41% 29,66% imperativ 0% 3,20% Tabulka 21 Frekvence slovních tvarů slovesa přijet v korpsech UčKo-A1 a czTenTen

Sloveso přijet se v korpusu objevilo v 6 učebnicích: Chcete mluvit česky (15 výskytů), Easy Czech (5 výskytů), Čeština Expres (5 výskytů), Česky v Česku (2 výskyty) a New Czech Step by Step a Česky, prosím I (1 výskyt). Nejčastější forma je futurum, a to v otázce (25) nebo oznamovací větě (26), zatímco v korpusu czTenTen préteritum: vyprávění (27) či publicistika (28).

(25) Prosím vás, kdy přijede vlak z Brna? (Easy Czech) (26) Na víkend přijede maminka. (Česky, prosím I) (27) My jsme však přijeli do hor a tak se hned začínáme drápat do strmých strání. (czTenTen, treking.cz) (28) Do Lhoty tak přijelo několik desítek znalců slivovice z okolí, kteří se rozesadili k několika stolům. (czTenTen, slovacko.org)

Futurum slovesa přijet je nutné znát především kvůli praktickým otázkám typu 25, avšak podobně jako u slovesa přijít předpokládáme, že studenti již znají préteritum slovesa jet, proto se neučí nové formy, pouze prefix. Domníváme se tedy, že kvůli 188 vysokému zastoupení (téměř 60%) v korpusu czTenTen by bylo vhodné vyučovat studenty minulé i budoucí formy slovesa přijet již na úrovni A1.

Zavolat

UčKo-A1 czTenTen zavolat infinitiv 25,00% 23,37% préteritum 12,50% 39,98% futurum 58,33% 24,43% imperativ 4,17% 11,84% Tabulka 22 Frekvence slovních tvarů slovesa zavolat v korpsech UčKo-A1 a czTenTen

Sloveso zavolat bylo zahrnuto v 6 učebnicích: Česky, prosím I a Český den (6 výskytů), Česky v Česku (5 výskytů), Čeština Expres (4 výskyty), Easy Czech (2 výskyty) a New Czech Step by Step (1 výskyt). Nejčastější použití je ve futuru, a to ve frázích týkajících se telefonování (29, 30).

(29) Ne, děkuji, zavolám později. (Česky v Česku) (30) To bude v pořádku. Zavolám záchranku. (Česky, prosím I)

V korpusu czTenTen se vyskytuje sloveso zavolat mnohem více v minulém čase, opět z důvodů příběhů v publicistice (31).

(31) Když vrah viděl svou krvácející oběť, zavolal policii. (czTenTen, mediafax.cz)

Dostat (se)

UčKo-A1 czTenTen dostat (se) infinitiv 4,17% 15,56% préteritum 25,00% 55,92% futurum 70,83% 28,35% imperativ 0% 0,16% Tabulka 23 Frekvence slovních tvarů slovesa dostat v korpsech UčKo-A1 a czTenTen

Sloveso dostat se vyskytuje ve všech učebnicích, nejvíce v knize Česky, prosím I (7 výskytů) a Chcete mluvit česky (4 výskyty), ostatní učebnice po 1–3 výskytech. Převládající výskyt je zvratná forma ve futuru, typicky v otázce typu: „Jak se

189 dostanu…?“ (17 výskytů) (32), již méně výskytů (6) je v minulém čase, a to jako nezvratné sloveso (33).

(32) Prosím vás, jak se dostanu na Staroměstské náměstí? (Basic Czech I) (33) Šel jsem do lékárny, kde jsem dostal prášky. (Česky v Česku)

V korpusu czTenTen, kde převažuje préteritum (nad 50%) se vyskytuje více významů, včetně metaforických (34). Domníváme se však, že minulý čas nezvratného slovesa dostat ve významu „obdržet něco“ lze využít i na úrovni A1, protože se tvoří pravidelně z infinitivu dostat, a proto pro studenty není obtížný (např. Dostal jsem e- mail/dopis/dárek/tablety.). Frázi „Jak se dostanu…?“ se mohou naučit nazpaměť i bez přímé souvislosti s infnitivem dostat.

(34) Tato žena se k herectví dostala pouze zásluhou svého otce. (czTenTen, ordinace.nova.cz)

Říct

UčKo-A1 czTenTen říct infinitiv 23,81% 37,91% préteritum 47,62% 51,72% futurum 28,57% 11,05% imperativ 0% 3,55% Tabulka 24 Frekvence slovních tvarů slovesa říct v korpsech UčKo-A1 a czTenTen

Sloveso říct se vyskytuje v 6 učebnicích, nejvíce v Česky v Česku (9 výskytů) a Chcete mluvit česky (6 výskytů), u ostatních učebnic pouze okrajově: New Czech Step by Step a Basic Czech I (2 výskyty), Easy Czech a Česky, prosím I (1 výskyt). Nejvíce se sloveso vyskytuje v préteritu, avšak pouze ve 2 učebnicích (Česky v Česku a Chcete mluvit česky) (35). Futurum se orientuje výhradně na frázi typu 36.

(35) Doktor mě prohlédl a řekl, že je to asi apendix a že musím do nemocnice. (Česky v Česku) (36) Jak se to řekne česky? (Basic Czech I) (37) Můžete mi, prosím, říct, v kolik hodin jede vlak? (Česky v Česku)

Nejvýraznější rozdíl ve srovnání s korpsem czTenTen vidíme v infinitivu. V učebnicích se infinitiv objevuje po modálním slovese, ve větách, kde by šel vypustit, pokud větu 37

190 změníme na: „Prosím vás, v kolik hodin jede vlak?“, zdvořilost zůstává vyjádřena. V korpusu czTenTen je častější infinitiv, jedná se však často o diskurzivní markery konstruující text, např. lze říci/říct, dá se říci/říct (38).

(38) Celkově lze říci, že kádr bude slabší než v loňské sezóně. (czTenTen, media.novinky.cz)

Navštívit

UčKo-A1 czTenTen navštívit infinitiv 40% 39,22% préteritum 45% 49,51% futurum 15% 17,04% imperativ 0% 10,83% Tabulka 25 Frekvence slovních tvarů slovesa navštívit v korpsech UčKo-A1 a czTenTen

Sloveso navštívit jsme nalezli v 6 učebnicích: Česky v Česku (6 výskytů), Česky, prosím I (4 výskyty), Communicative Czech Elementary a Chcete mluvit česky (3 výskyty), Easy Czech a Basic Czech I (2 výskyty). Nejčastěji se sloveso vyskytuje v minulém čase, jedná se o souvilé texty a informaci o tom, kdo byl u koho na návštěvě (39), nebo ve futuru po modálním slovese (40).

(39) Večer navštívili sousedy a grilovali kuřata. (Česky, prosím I) (40) Budeme jenom v Liberci. Můžeme navštívit muzeum nebo ZOO. (Česky v Česku)

S korpusem czTenTen vidíme největší rozdíl v imperativu, který se v učebnicích vůbec nevyskytuje. Jedná se často o věty, které lze na nižších úrovních nahradit infinitivem: „navštivte – můžete navštívit“, pokud jde o turistickou informaci (41), nebo se jedná o radu (42).

(41) V městečku Kostelec nad Orlicí navštivte zámek s parkem a barokní kostel. (czTenTen, soline.cz) (42) Pokud nespadáte do této věkové kategorie, navštivte kožního lékaře a řešte Váš problém jako problém kůže. (czTenTen, mamo.cz)

Domníváme se však, že využití perfektivního slovesa navštívit v préteritu i ve futuru by mělo být častější, neboť je přirozenější říct např. „Navštívil jsem babičku.“, pokud

191 student mluví o minulosti, nebo např. „Pojedu do Prahy a navštívím hrad.“, pokud student mluví o svých cestovatelských plánech, než sloveso navštěvovat (UčKo-A1: navštívit: 20 výskytů, navštěvovat: 7 výskytů, pouze prézens; czTenTen: navštívit: 490 933, navštěvovat: 142 736), které studentům dělá potíže už jen svou výslovností.

Vzít (si)

UčKo-A1 czTenTen vzít (si) infinitiv 10,53% 22,49% préteritum 10,53% 46,16% futurum 78,95% 22,93% imperativ 0% 6,2% Tabulka 26 Frekvence slovních tvarů slovesa vzít v korpsech UčKo-A1 a czTenTen

Sloveso vzít se vyskytuje celkem v 6 učebnicích: Chcete mluvit česky (6 výskytů), Communicative Czech Elementary (5 výskytů), Česky v Česku (3 výskyty), Easy Czech a Basic Czech I (2 výskyty) a Čeština Expres (1 výskyt). Převažující použití (téměř 80%) je ve futuru, a to konkrétně ve frázích týkajích se nakupování (43), méně již v souvislém textu (44). Pouze dva výskyty byly v préteritu (45, 46).

(43) Vezmu si dvě. To je všechno. (Česky v Česku) (44) Vezmu si taxi, protože nechci přijít pozdě. (Easy Czech) (45) Vzala si nové tričko a hezkou krátkou sukni, protože se ráda hezky obléká. (Česky v Česku) (46) Potom jsem si vzal dovolenou a odjel jsem na naši chatu. (Chcete mluvit česky)

V korpusu czTenTen naopak převažují tvary v préteritu (47). Přestože sloveso vzít je nepravidelné a studenti se musí naučit všechny formy nazpaměť (vzít – vezmu – vzal), domníváme se však, že i minulý čas je užitečný, a to ve větách typu 48. Studenti se také mohou naučit pouhou frázi „vzal jsem si“ + akuzativ (oblečení, jídlo, dovolenou).

(47) Prosím také všechny lidi, kterým je 10 let a více, aby si vzali na výlet Opencard, pokud ji mají. (czTenTen, oddilvodaci.cz) (48) Muž si vzal ve vestibulu banky pořadové číslo. (czTenTen, praha11.podlupou.cz)

192

Sejít se

UčKo-A1 czTenTen sejít se infinitiv 5,56% 10,6% préteritum 16,67% 57,42% futurum 77,78% 30,73% imperativ 0% 1,22% Tabulka 27 Frekvence slovních tvarů slovesa sejít se v korpsech UčKo-A1 a czTenTen

Sloveso sejít se jsme nalezli v 7 učebnicích, z čehož Communicative Czech a Česky, prosím I měly 4 výskyty, Český den 3 výskyty, New Czech Step by Step, Čeština Expres a Česky v Česku 2 výskyty a Chcete mluvit česky 1 výskyt. Vysoce převažují tvary ve futuru, a to ve větách typu 49, pouze 3 výskyty byly v minulém čase (50).

(49) Kdy se sejdeme? – Sejdeme se v 7 hodin. (New Czech Step by Step) (50) Sešli se v hale na Hlavním nádraží v 8.30 ráno. (Česky, prosím I)

V korpusu czTenTen naopak převažuje préteritum (51). Podobě jako u sloves přijít se domníváme, že studenti pro studenty není obtížné préteritum sloves sejít se, pokud již znají fromy slovesa jít, aby mohli vyjádřit, co dělali v minulosti, např. Sešel jsem se s kamarády.

(51) Přestože bylo skutečně obrovské teplo, sešlo se zde poměrně dost návštěvníků.

Shrnutí

V korpusu UčKo-A1 jsme nalezli celkem 287 sloves, z čehož je 36% dokonavých, což přibližně odpovídá počtu dokonavých sloves v novém Referenčním popisu češtiny A1 (27%). Prezentujeme také tabulku sloves, která jsou doporučena v popisu pro úroveň A1, ale nejsou zahrnuta v učebnicích. Vzhledem k tomu, že v učebnicích se většina dokonavých sloves vyskytuje mezi nízkofrekventovanými a mnoho z nich není zahrnuto ve všech učebnicích, vybrali jsme 100 nejfrekventovanějších sloves, kde již dokonavá slovesa tvoří pouze 19%. Z toho usuzujeme, že učebnice nejnižší úrovně preferují slovesa nedokonavá. Dokonavá slovesa jsou na této úrovni prezentována v konkrétním tvaru, který se studenti učí jako frázi, např. v infinitivu po modálním slovese, ve futuru nebo imperativu. Vybrali jsme 13 nejfrekventovanějších dokonavých sloves z učebnic a 193 porovnali výskyty jejich jednotlivých tvarů v korpusu UčKo-A1 s korpusem obecného jazyka czTenTen. Všímáme si toho, jaké typy vět jsou pro každé sloveso v učebnicích nejčastěji využívány a zda sloveso prezentují všechny učebnice. Při srovnání dat vyšlo najevo, že nejčastějším rozdílem jsou tvary préterita. Domníváme se, že u některých sloves, např. dát si, koupit, přijít, narodit se, přijet, zavolat, dostat, navštívit a vzít by tyto tvary bylo užitečné znát, a to minimálně v první osobě.

9.3.2 Kontexty sloves v učebnicích A2 V této kapitole se zaměříme na výběr slovní zásoby v učebnicích A2. Následující studie není celkovou analýzou učebnicového jazyka, jejím cílem je však prezentovat, jakým způsobem s učebnicovým korpusem pracovat. Neméně důležitým cílem je také zjistit, zda komparace s daty z korpusu obecného jazyka přináší přínosné informace o autentickém jazyku i pro nízké úrovně.

Přestože výuka jazyka zahrnuje také interakci s učitelem a mezi studenty a učebnicový jazyk není jediným materiálem, se kterým se studenti setkávají, tvoří však jazyk obsažený v učebnicích podstatnou část studia jazyka. Podle Römer(ové) (2005, s. 171) se většina učitelů drží obsahu učebnic a postupu gramatiky v nich uváděném, a to především v začátcích a prvních několika letech výuky. Učebnice zjednodušují jazyk a prezentují uměle vytvořené modelové věty, které se v běžném jazyce nevyskytují (ibid., s. 171). Srovnáváme proto kontexty vybraných sloves s kontexty v korpusu czTenTen, abychom zjistili, jakými významy či konkrétními kolokacemi lze slovesa častá v učebnicích obohatit.

V kapitole 9.2.1 jsme diskutovali typy textů obsažené v učebnicích. Došli jsme k závěru, že zde nelze mluvit o klasické distinkci psaný vs. mluvený jazyk, neboť mnoho textů splňuje více funkcí a přestože jsou často ve formě dialogu, zahrnutí spisovnou normu jazyka. Není proto relevantní srovnávat data z učebnicového korpusu s korpusy mluveného jazyka, pokud jsou dialogy v učebnicích na pomezí psané a mluvené formy. Nabízí se srovnání s psaným korpusem řady SYN, avšak zde je nevýhodou vysoké zastoupení beletrie a odborných textů, jde tedy o témata i jazyk, který pro studenty není cílem studia, např. akademický jazyk. Korpus czTenTen jsme tedy vybrali především z důvodu jeho obsahu, jenž tvoří Česká Wikipedie, noviny a časopisy, blogy a další webové stránky a také diskuze z internetu (Suchomel, 2013, s.

194

79) – korpus tedy reprezentuje současnou komunikaci. Dalším důvodem je jeho velikost (4 biliony slov). Korpusy s tak velkým obsahem slov jsou používané v lexikologii, neboť lépe ukazují typické kolokace (ibid., s. 82; Pala a Rychlý, s. 35). Neméně důležitým důvodem výběru referenčního korpusu czTenTen je fakt, že korpus UčKo je zkompilovaný ve Sketch Engine. Oba korpusy tedy používají stejný tagger pro češtinu a pro oba lze využívat stejné funkce, např. Word Sketch.

Na úrovni A2 by již studenti měli rozlišovat mezi významem nedokonavých a dokonavých sloves (Cvejnová et al, 2014, s. 173), učí se vidové dvojice a jejich základní rozdíl procesuální děj vs. výsledek (často vysvětlováno jako film vs. fotografie). V tabulce 28 prezentujeme 100 nejfrekventovanějších sloves v korpusu UčKo-A2, z nichž 26 je dokonavých. Při komparaci dat z korpusu UčKo-A2 s korpusem czTenTen jsme se zaměřili na kontexty sloves. Zatímco na úrovni A1 se tato slovesa studenti učí bez povědomí o kategorii vidu, a to v jednoduchých frázích, na úrovni již významu slovesa rozumí a slovesa tak mohou být prezentována v různých kontextech. Naše otázky tedy jsou: Prezentují se v učebnicích typické vzorce sloves? Prezentují se slovesa s typickými kolokacemi?

být 2214 učit 58 najít 31 navštívit 21 mít 733 potřebovat 58 vrátit 31 zahnout 21 moct 294 děkovat 53 zůstat 30 pomáhat 20 chtít 305 jíst 52 ležet 29 zapomenout 20 jít 231 čekat 52 psát 29 otevřít 19 jet 162 začít 51 podívat 29 rozhodnout 19 muset 153 líbit 51 volat 29 dívat 19 pracovat 135 jmenovat 49 pomoct 29 slušet 18 vědět 131 umět 47 uvidět 29 bát 18 říkat 128 přijet 43 nabízet 28 pozvat 18 dělat 123 začínat 39 dostat 28 vyjet 17 myslet 89 napsat 39 vybrat 27 představit 17 stát 86 jezdit 39 vařit 26 zaplatit 17 dát 86 těšit 38 bavit 25 pršet 17 mluvit 78 vypadat 37 dávat 24 hodit 16 chodit 78 vzít 36 platit 24 pokračovat 16 prosit 77 udělat 36 cestovat 24 slyšet 16 studovat 72 pít 36 připravit 24 nechat 16 říct 69 zavolat 35 sejít 24 získat 16 vidět 69 spát 35 narodit 23 počkat 16 přijít 65 vstávat 35 trvat 23 telefonovat 16 koupit 63 číst 34 zajímat 23 zkusit 15

195

hledat 62 znát 34 zeptat 23 používat 15 bydlet 62 přát 32 sedět 21 poslat 15 žít 59 konat 31 skončit 21 prodávat 15 Tabulka 28 100 nejfrekventovanějších sloves v učebnicích A2

Vybrali jsme 3 nejfrekventovanější dokonavá slovesa (vynechali jsme slovesa pohybu jako specifickou třídu): dát (si), říct a koupit (si) (počet výskytů nad 50) a uložili jsme si všechny konkordance, ve kterých se tvary sloves vyskytovaly. Z korpusu czTenTen jsme zkoumali kontexty sloves na vzorku 100 náhodných konkordancí. Vzorce jsme za účelem výuky dělali co nejpodrobněji, jsme si tedy vědomi toho, že někdy mohou obsahovat volné doplnění, např. „koupit něco někde“, nebo konkrétní fráze či diskursivní konektory (řekněme). Pro kolokace jsme využívali funkci Word Sketch a pro srovnání jsme přidali také kolokace vyhledané v nástroji SyD. Tento nástroj zahrnuje psaný korpus SYN2010 a mluvené kropusy řady ORAL, jeho výsledky tedy také kombinují psaný a mluvený jazyk.

Dát (si)

dát (si) UčKo-A2 czTenTen dát si něco 41,86% 7% dát něco někam 30,23% 10% dát něco někomu 15,12% 13% dát něco 4,65% 12% dát se někam 3,49% 5% dát (si) pozor na něco 2,33% 1% dát se + infinitiv 1,16% 47% dát si + infinitiv 1,16% 0% dát najevo 0% 2% dát za pravdu komu 0% 2% nedat se 0% 1% Tabulka 29 Kontexty slovesa dát (si) v korpusech UčKo-A2 a czTenTen

Největší počet výskytů měl vzorec „dát si něco“, již ne objednávání v restauraci jako na úrovni A1, ale většinou v neformálním dialogu (52). Dalším častým významem bylo „dát něco někam“, a to při výuce přeložek mezi, pod, nad, za apod. (53), nebo v receptu (54).

(52) Dej si horký čaj! A určitě jdi k doktorovi! (Basic Czech II) (53) Dali jsme květinu za okno. (Česky, prosím II)

196

(54) Připravíme cibuli a zeleninu a dáte do pekáče. (Česky, prosím II) (55) Pokutu jsem zaplatil, nedalo se nic dělat. (Chcete mluvit česky) (56) Dejte si pozor na falešné nabídky. (Česky, prosím II) (57) Říká Evě: „Prosím tě, dej na sebe pozor! (New Czech Step by Step)

Naopak v korpusu czTenten převažuje vzorec „dát se + inf“ ve významu modálním „něco je možné udělat“ (58). Pro tento význam byl v korpusu UčKo pouze 1 výskyt (55). Pro velkou frekvenci by se tento vzorec měl zahrnout do výuky, domníváme se však, že minimálně až od úrovně B1, kde se vyučuje reflexivní pasivum.

(58) Pozoruju, že se to dá zřejmě i stáhnout! (czTenTen, bloguje.cz)

dát Učko-A2 czTenTen SyD gól pozor najevo kaktus přednost pozor myš gól pokoj budík šance branka obraz pokoj pusa letenka výpověď inzerát branka plat hlas dítě souhlas obraz pusa židle podnět pozor odpověď odkaz příležitost prostor jméno ruka peníze možnost pokyn Tabulka 30 Kolokace slovesa dát v korpusech UčKo-A1, czTenTen a ČNK

V tabulce 29 jsme zahrnuli pouze kolokace nereflexivního slovesa dát. Při porovnání ve třech korpusech vidíme, že zatímco v učebnicích se používá nejčastěji konkrétní význam, v korpusech obecného jazyka převažuje přenesený: dát souhlas/odpověd/možnost apod. Korpus obecného jazyka je tedy dobrým zdrojem dat především pro vyšší pokročilosti. Pro úroveň A2 se v Referenčním popisu češtiny

197

(Cvejnová et al, 2014, s. 211) se uvádějí tyto: dát pozor a dát výpověď. Dát pozor bylo zahrnuto pouze ve dvou učebnicích (56, 57), dát výpověď v žádné.

Říct

říct UčKo-A2 czTenTen říct + věta 30,43% 31% říct, že 26,09% 27% říct něco 10,14% 6% říct komu co 8,69% 13% říct, co 4,35% 0% říct něco o čem 4,35% 2% říct komu o čem 2,9% 1% říct, ať 2,9% 1% říct, kdo 1,45% 0% říct, kde 1,45% 0% říct, aby 1,45% 1% říct, proč 1,45% 0% říct, když 1,45% 0% říct, jak 1,45% 0% abych pravdu řekl 1,45% 0% adverbium + řečeno 0% 3% neříct něco do někoho 0% 2% říct, zda 0% 1% Tabulka 31 Kontexty slovesa říct v korpusech UčKo-A2 a czTenTen

Slovesou říct se v obou korpusech nejčastěji vyskytovalo ve spojitosti s přímou řečí (59) nebo s obsahovou větou „říct, že“ (60). Rozdíly vidíme ve vzorci „říct něco“, který se vyskytuje v učebnicích nejčastěji v otázce (61). Jedná se o otázky k textu, neboť jsme v korpusu ponechali cvičení vztahujícíc se k textům. Dalším rozdílem je nižší zastoupení vzorce „říct komu co“ v učebnicích (62) – pouze 6 výskytů ve dvou učebnicích: Basic Czech II a New Czech Step by Step. Domníváme se, že tento vzorec je obzvláště potřeba, neboť zahrnuje i procvičování zájmen v dativu a slovosledu (pořadí v rámci druhé pozice), který je pro studenty obtížný.

(59) Inspektorřekl: „Holmík, prosím?“ (New Czech Step by Step) (60) Ještě jsem tineřekl, že přijel Michal. (Chcete mluvit česky) (61) Co řekneme v této situaci? (New Czech Step by Step) (62) Nikdy jsi mi to neřekl! (Basic Czech II)

198

Kromě vzorců uvedených v tabulce se v korpusu czTenTen vyskytovalo mnoho slovních svazků se slovem říct, a to vyjádření názorukondicionálem:řekl/a bych a diskursivní konektory: jak už jsem řekl/a, jak už bylo řečeno, řekněme, jak to říct, co víc říct, těžko říct, to je co říct. Tyto svazky jsou obzvláště přínosné při výuce psaní a vyjádření vlastního názoru (od B1).

Koupit

koupit (si) UčKo-A2 czTenTen koupit si něco 34,92% 34% koupit něco 26,98% 34% koupit komu co 12,70% 7% koupit si něco někde 11,11% 0% koupit něco pro někoho 7,94% 0% koupit něco někde 6,35% 11% koupit něco od někoho 0% 5% koupit něco za co 0% 4% koupit koho 0% 3% koupit (něco) jak 0% 2% Tabulka 32 Kontexty slovesa koupit v korpusech UčKo-A2 a czTenTen

V obou korpusech se vyskytuje sloveso koupit převážně ve vzorcích „koupit si něco“ a koupit něco“. Mírné rozdíly vidíme při srovnání užití přeložek. Vyhledali jsme proto předložky v kolokacích a jejich výskyt. V učebnicovém korpusu převažuje přeložka pro (50%) (63), zatímco v korpusu czTenTen předložky za, na a od, které se v korpusu UčKo-A2 ve spojení se slovesem koupit nevyskytují.143 Domníváme se, že vzorce, které souvisí s nakupováním: „koupit něco za co“, koupit něco od někoho“ (64, 65) jsou pro studenty v komunikaci potřebné.

(63) Chci koupit knihu jako dárek pro bratra. (Chcete mluvit česky) (64) A popravdě jsme si od vás koupily jen tříkolku za 500kč. (czTenTen, mojedite.cz) Mohli si za cenu deseti korun koupit desky a knihu nechat dodatečně svázat. (czTenTen, majerco.cz) (65) Nikdy jsem od nich boty nekoupila. (czTenTen, zena-in.cz) Řekla jsem si, že od ní společnost koupím. (czTenTen, e15.cz)

143 U předložky na se jedná o volné doplnění, které závisí na slovu po předložce: Koupit něco v obchodě vs. na trhu. 199

koupit + prepozice Učko-A2 czTenTen pro 50% 2,8% v 30% 33,15% u 20% 3,82% za 0% 18,23% na 0% 12,58% od 0% 8,68% do 0% 3,27% k 0% 2,4% před 0% 2,07% přes 0% 1,54% kvůli 0% 0,62% Tabulka 33 Nejčastější předložky se slovem koupit v korpusech UčKo-A2 a czTenTen

Pokud se podíváme na konkrétní kolokace slovesa koupit (tab. 33), můžeme si všimnout několika témat se slovesem souvisejících a jež můžeme zobecnit: cestování (koupit si letenku), bydlení (koupit si byt), studium nebo volný čas (koupit si učebnici/knihu) a oblečení (koupit si tričko). Při srovnání kolokací korpusu UčKo s korpusy czTenTen a ČNK, vidíme, že téma cestování v korpusech obecného jazyka převažuje (66).

(66) Lístky na Žlutý expres můžete koupit i v den odjezdu. (czTenTen, budapest- pruvodce.cz)

Tak jsem koupil letenku a za poslední peníze odletěl na měsíc do Thajska. (czTenTen, idnes.cz)

Domníváme se, že v dnešní době, kdy při cestování lidé hojně využívají internet pro rezervace či koupi dopravy, ubytování a dalších akcí, je nutné znát především kolokace lístek, jízdenka, letenka a vstupenka.

koupit + akuzativ Učko-A2 czTenTen SyD dárek lístek byt sukně jízdenka pozemek auto letenka vstupenka suvenýr auto kniha remoska byt noviny šperk vstupenka letenka

200

chalupa bota akcie vila pozemek květina dárek gauč tričko knihovna rohlík učebnice knížka pohled panství známka licence zájezd notebook šaty nemovitost dům kočárek kniha akcie pemanentka mobil Tabulka 34 Kolokace slovesa koupit v korpusech UčKo-A1, czTenTen a ČNK

Shrnutí

Z korpusu UčKo-A2 jsme vybrali 3 nejfrekventovanější perfektivní slovesa: dát (si), říct a koupit (si) a srovnali jejich kontexty se 100 náhodě vybranými konkordancemi z webového korpusu czTenTen. U některých z nich jsme také porovnali kolokace díky funci Word Sketch a přidali jsme i srovnání s kolokacemi z nástroje SyD, kde jsou mluvené korpusy řady ORAL a psaný korpus SYN2010. Korpus czTenTen jsme si vybrali jsko referenční z důvodu jeho velikosti (4 bil slov), podobném složení na pomezí psaného a mluveného jazyka jako u učebnicového korpusu a také kvůli využívání stejného nástroje Sketch Engine a taktéž taggeru. Všimli jsme si, že slovesa v učebnicích často prezentují konkrétní významy než přenesené, vyhýbají se spojení dativ-akuzativ („dát komu co“, „koupit komu co“) a nevyužívají slovní svazky časté v korpusu obecného jazyka (především diskurzivní konektory). Doporučujeme u slovesa dát prezentovat slovní svazky, na úrovni A2 minimálně dát pozor a dát výpověď zařazené v Deskriptoru, u slovesa říct vzorec „říct komu co“ a diskursivní konektory typu jak už bylo řečeno od úrovně B1 a u slovesa koupit vzorec „koupit komu co“ spíše než „koupit něco pro někoho“ a využívat kolokace týkající se cestování: koupit letenku, jízdenku apod.

201

9.4 Shrnutí

Učebnicový korpus je nový typ korpusu s pedagogickým zaměřením. Automatizuje analýzu učebnic a komparace jeho dat s korpusem obecného jazyka umožňuje nalézt diskrepance mezi tzv. učebnicovým jazykem a autentickým jazykem. Náš návrh učebnicového kropusu z učebnic češtiny pro cizince zahrnuje 18 současných učebnic úrovně A1–B1. Subkorpus UčKo-A1 a UčKo-A2 úrovní A1 a A2 je již vytvořen v nástroji Sketch Engine a čítá dohromady téměř 100 tisíc slov. Při jeho budování jsme narazili na problémy s výběrem textů. Texty v učebnicích často neslouží pouze k procvičování čtení, ale mají více funkcí. Také nelze přesně oddělit psaný a mluvený jazyk, neboť texty v učebnicích používají spisovnou normu češtiny i v neformálních dialozích. Proto jsme mezi psaným a mluveným jazykem nerozlišovali a do učebnice jsme zahrnuly: texty, dialogy (a cvičení k textu) a modelové věty. Uvědomujeme si, že přestože jsme si stanovili tato kritéria, výběr konkrétních textů byl individuální a do jisté míry i subjektivní. Vzhledem ke flexibilitě tvorby vlastního korpusu ve Sketch Engine (lze upravovat soubory a znovu zkompilovat korpus, přidávat či ubírat soubory) však tento fakt nevidíme jako překážku, neboť korpus se může dát vyvíjet a zlepšovat. Ve dvou případových studiích na základě učebnicového korpusu srovnáváme data s webovým korpusem czTenTen, jenž také leží na pomezí psaného a mluveného jazyka. Při analýze korpusu UčKo-A1 jsme se zaměřili na frekvenci konkrétních slovesných tvarů vybraných dokonavých sloves a zjistili jsme, že jsou často opomíjeny tvary préterita. Srovnáním kontextů 3 dokonavých sloves v korpusu UčKo-A2 a czTenTen jsme nalezli, jakými konkrétními vzorci, slovními svazky a kolokacemi z autentického jazyka lze obohatit jazyk učebnicový. Naše analýza vychází z data z korpusů, uvědomujeme si však, že frekvence není jediným kritériem a je tedy třeba při interpretaci přihlédnout i k obtížnosti jevu, jeho významu a užitečnosti a také k referenční úrovni.

202

10 Závěr

Cílem této dizertační práce bylo představit jednu oblast korpusové lingvistiky, a to její aplikaci ve výuce češtiny jako cizího/druhého jazyka (L2). V současné době se disciplína čeština jako cizí jazyk dynamicky rozvíjí, vzhledem k novým cílovým skupinám studentů jsou vyžadovány nové přístupy a výukové materiály. Podobně se rozvíjí také informační technologie. Díky tomu korpusová lingvistika již nemusí být v rukou několika odborníků, ale její nástroje a přístupy mohou využívat jak učitelé, tak i studenti L2, pokud vědí jak.

Během svého doktorského studia jsem absolvovala stáž v Centre for Corpus Research na Univerzitě v Birminghamu, kde se využívání korpusů ve výuce angličtiny, a to jak přímé (data-driven learning – DDL), tak nepřímé (např. tvorba žákovských slovníků a gramatik), rozvíjelo a kde jsem se v mnohém inspirovala. Kromě své desetileté praxe ve výuce češtiny pro cizince také školím učitele češtiny ve využívání korpusů ve výuce a vedla jsem i několik bakalářských prací na toto téma. Všechny tyto praktické zkušenosti jsem se snažila spojit s teoretickým základem a podat tak ucelený přehled o konkrétních možnostech využití jazykových korpusů ve výuce češtiny pro cizince.

Práce není členěna klasicky na teoretickou a praktickou část, ale i v rámci teorie přinášíme sondy do praktické problematiky. Teoretické kapitoly využívají zahraniční zdroje orientované především na výuku angličtiny, aplikace se však zaměřuje výhradně na češtinu jako L2. Za jádro disertační práce považujeme jednak typologii cvičení z korpusových dat včetně popisů vlastních experimentů a ukázek cvičení, jednak tvorbu učebnicového korpusu a dvě případové studie na jeho základě.

. V první části jsme se zaměřili na přínosy korpusové lingvistiky ve výuce jazyků, metody korpusové lingvistiky a jejich aplikaci ve výuce L2. Za hlavní přínos korpusových dat považujeme ověření frekvencí, možnost zkoumat kolokace a koligace slov, elicitovat sémantickou prozodii, slovní svazky a okolnosti užití jazykových jednotek, neboť mnoho z těchto empirických fakt nezískáme spolehlivě jazykovou intuicí. Podobně jako v současném komunikačním přístupu se v korpusové lingvistice orientované na výuku L2 dostává do popředí význam. Co se týče metod, rozlišujeme corpus-based výzkum a corpus-driven výzkum, jejichž hlavní rozdíl je v míře spoléhání 203 se na korpusová data. Při corpus-driven výzkumu považuje lingvista korpusová data za hlavní zdroj, nekonstruuje hypotézu předem, ale k poznání dojde až následnou generalizací na základě pozorování dat. Podobně postupujeme při přímém využívání korpusů ve výuce, kdy student pozoruje jazyková data, hledá pravidelné vzorce a sám si vytváří pravidlo. Odlišujeme tedy přímé využití korpusů (metoda data-driven learning – DDL) a nepřímé, při kterém korpus využívá pouze učitel či autor výukových materiálů.

Další kapitola podává přehled korpusů s pedagogickým zaměřením, jimiž jsou žákovské korpusy, pedagogické korpusy a učebnicové korpusy. V rámci žákovských korpusů vidíme potenciál hlavně v tzv. DIY (do it yourself) žákovských korpusech, které si učitel vytvoří z textů vlastních studentů a zaměřuje se tak na zlepšení jejich písemného projevu. Pedagogické korpusy v užším smyslu vychází z toho, že texty v korpusech obecného jazyka studenti neumí interpretovat bez původního kontextu. Tyto korpusy proto zahrnují pouze texty na témata, se kterými se studenti setkávají ve výuce. Zvláštní pozornost věnujeme tvorbě a využití učebnicových korpusů, ve kterých lze zkoumat instrukce, typy cvičení, výběr slovní zásoby, gramatiku ad. za účelem zlepšení jazykové výuky a přiblížení se k autentickému jazyku.

Následující dvě kapitoly se zabývají současnými metodami ve výuce jazyků a teoriemi osvojování L2 a jejich styčnými body s korpusovou lingvistikou. Domníváme se, že využívání korpusů ve výuce je v souladu se současným komunikačním přístupem ve výuce jazyků, a to zvláště orientací na obsah výuky a kontextualizaci, zaměřením na studenta i využíváním různých metod včetně alternativních. Následně stručně představujeme učení se za pomocí počítačů (CALL), úkolovou metodu (TBLT) a hlavní principy lexikálního přístupu, který vychází přímo z korpusových metod. V oblasti osvojování L2 se zaměřujeme především na tzv. hypotézu povšimnutí, která tvrdí, že uvědomování si formální stránky jazyka usnadňuje učení. Kromě zapojení pozorovacích aktivit v učebnicích lze povšimnutí a objevování uplatňovat také při využívání korpusů ve výuce.

Kapitoly o přímém a nepřímém využití korpusů představují nejrozsáhlejší část práce. V přímém využití se orientujeme na metodu data-driven learning (DDL), její vznik a vývoj, současné experimenty ve výuce angličtiny a typy cvičení. I přes rychle se rozvíjející informační technologie a uživatelsky přátelské korpusové nástroje stále není využívání korpusů ve výuce běžné. Kromě strachu z techniky ze strany některých

204 učitelů i studentů je problémem také nesnadná orientace v datech a obtížná slovní zásoba. Kapitola proto kromě konkrétních postupů, jak využívat české korpusové nástroje KonText a SyD, podává informace o tom, jakým způsobem vytvářet cvičení „na papíře“ z korpusových dat. Na základě zahraničních experimentů jsme vytvořili typologii možných cvičení, která se stala podkladem pro typologii databáze korpusových cvičení Pro školy, budované Ústavem českého národního korpusu. Uvádíme ukázku pro každý typ cvičení, diskutujeme náročnost, úroveň a u testovaných i zpětnou vazbu. Základním cvičením je pozorování, které je i pro učitele nejjednodušší vytvořit. Dalšími jsou: doplňování (zde je u češtiny nutné dodat morfologické informace), spojování, výběr slovní zásoby pro produkci (mluvení, psaní) a mix různých typů. Věnujeme se také tvorbě cvičení z překladového a žákovského korpusu. Cvičení z překladového korpusu lze vytvářet pro homogenní skupinu, a to i na nejnižší úrovni. Na základě spolupráce s dalšími učiteli, kteří cvičení testovali, se nám osvědčilo, když aktivity vychází z problematických jevů dané skupiny, obsahují celé věty (mohou být upravené) a ideálně mixují např. pozorování a doplňování.

Kapitola o nepřímém využití korpusů ve výuce se věnuje tvorbě pedagogické gramatiky a kritériím, jak jazykové jevy zjednodušovat a parcelovat. Představujeme pedagogickou gramatiku projektu COBUILD, která je založena na korpusových datech a díky její orientaci na význam slova ji lze využívat jako zdroj dat pro tvorbu učebnic. Na tomto teoretickém základě uvádíme několik sond do gramatických jevů a prezentujeme, jak je možné používat současné české korpusové publikace při vytváření výukových materiálů. Zmiňujeme Statistiky češtiny, Mluvnici současné češtiny, Akademickou gramatiku spisovné češtiny a frekvenční slovníky češtiny. V závěru kapitoly se zabýváme autentickým jazykem ve výuce a ukazujeme konkrétní pravidla, jak upravovat věty z korpusu na modelové věty pro výuku L2.

Poslední kapitola se zaměřuje na projekt vytvoření korpusu z učebnic češtiny pro cizince. Vytvořili jsme 2 části korpusu podle jazykových úrovní: UčKo-A1 z 9 učebnic češtiny pro cizince a UčKo-A2 z 6 učebnic, které mají dohromady téměř 100 tisíc slov. Do korpusu jsme vybírali texty, dialogy a modelové věty z učebnic. Korpus jsme zkompilovali v nástroji Sketch Engine. Jako referenční korpus jsme použili webový korpus czTenTen. Důvodem je, že jazyk prezentovaný v učebnicích kolísá mezi mluveným a psaným jazykem. Také jazyk webových korpusů stojí na pomezí mezi psanou a mluvenou češtinou. Zabýváme se výběrem slovní zásoby pro jazykové úrovně

205

A1 a A2, konkrétně výběrem a úrovní prezentace dokonavých sloves. Tyto případové studie ukazují, že srovnání učebnicového a autentického jazyka je přínosné i pro nižší úrovně. Na úrovni A1 jsme zkoumali frekvenci jednotlivých slovních tvarů frekventovaných dokonavých sloves a zjistili jsme, že bývají opomíjeny tvary v minulém čase. Na úrovni A2 jsme zkoumali kontexty (vzorce a kolokace) 3 frekventovaných dokonavých sloves a diskutovali jsme, jak lze obohatit učebnice o konkrétní kolokace (koupit jízdenku, letenku, lístek; dát pozor, dát výpověď) či vzorce (koupit komu co, spíše než koupit něco pro někoho). Při interpretaci dat zohledňujeme nejen frekvenci, ale také jazykovou úroveň, náročnost a význam jevu.

Naše práce ukázala, že korpusová lingvistika má mnoho průniků s výukou druhého jazyka a autentická data z korpusu lze konkrétně využívat v těchto bodech:

- přímé využití korpusových nástrojů ve výuce, - korpusová cvičení „na papíře“, - tvorba sylabů, gramatik a výukových materiálů z korpusů nebo korpusových příruček (posloupnost jevů, autentické příklady), - tvorba pedagogických korpusů (za účelem výuky či výzkumu).

Naším cílem tedy není dělat ze studentů a učitelů korpusové lingvisty, ale vytěžovat korpus tak, aby to bylo pro studenty užitečné.

206

11 Doporučení pro další výzkum

V návaznosti na výsledky naší práce bychom rádi diskutovali o tématech pro další výzkum, která se během psaní práce objevila. Zmíníme nejen to, čemu se chceme věnovat osobně, ale také místa, ve kterých vidíme potenciál.

V souvislosti s typologií korpusových cvičení bychom rádi v budoucnu vytvářeli a testovali všechny typy cvičení pro různé úrovně, včetně překladových a cvičení ze žákovských korpusů. Chtěli bychom spolupracovat s více učiteli a cvičení publikovat (např. na stránce ÚČNK Pro školy).

Rádi bychom učebnicový korpus dále vylepšovali a také do něj přidali učebnice úrovně B1. Jak již bylo řečeno v kapitole 4.3, v učebnicovém korpusu je možné zkoumat různé jevy. Zde uvádíme ta témata, o kterých si myslíme, že by byla pro češtinu užitečná:

- výběr slovní zásoby pro jednotlivé úrovně, - kolokace slov pro jednotlivá témata, - kolokace sémantických tříd sloves (např. modální, pohybu apod.) - diskurzivní konektory pro výuku psaní (především B1 a výše) - analýza metajazyka a instrukcí, - analýza modelových vět, - psaná a mluvená čeština v učebnicích (popř. obecná čeština), - stereotypy v učebnicových textech (genderové, národnostní).

Jak jsme již zmínili, vidíme potenciál v tvorbě malých žákovských korpusů pro konkrétní cílovou skupinu (tzv. DIY žákovské korpusy). V takovém případě je možné zaměřit se na chyby v produkci dané skupiny a vytvářet výukové materiály či cvičení přímo pro ně. Domníváme se, že především výuku psaní lze za pomocí žákovských korpusů zlepšovat. Ze své praxe víme, že např. pro skupinu žadatelů o české občanství (zkouška z českého jazyka na úrovni B1) je psaní nejtěžší částí zkoušky a často právě tuto část neudělají. Jde tedy o specifickou cílovou skupinu, neboť se ve velké většině jedná o studenty, kteří nikdy nestudovali v kurzu, ale naučili se jazyk poslechem a praxí (jde převážně o rusky mluvící studenty z Ukrajiny, Ruska a dalších zemí bývalého Sovětského svazu). Často také mají problémy s latinkou a chybí jim právě výuka

207 formální struktury žánrů (dopis, dotazník, článek apod.), diskurzivních konektorů konstruujících text a slovních svazků a frází vyjadřujících vlastní názor. V současné době učím přípravné kurzy pro zkoušku k občanství v Centru pro integraci cizinců v Praze a od minulého roku sbírám jejich texty. Je tedy možné v budoucnu vytvořit malý žákovský korpus za účelem zlepšení písemného projevu na úrovni B1.

Jistě by se našlo mnoho dalších témat, obzvláště v oblasti nepřímého využití korpusů a tvorby pedagogické gramatiky. Věříme, že korpus ve výuce češtiny jako cizího jazyka nalezne své místo.

208

12 Seznam literatury

12.1 Primární literatura

AHN, Jieun Irene (2014) Attention, Awareness and Noticing in SLA: A Methodological Review. In MSU Working Papers in Second Language Studies, č. 5, s. 56–65.

ATKINS, Sue, Michael RUNDELL (2008) The Oxford Guide of Practical Lexicography. Oxford: Oxford University Press. Kapitola 10.8 Examples, s. 452–464.

BARNBROOK, Geoff (1998) Language and Computers. Edinburg: Edinburg University Press.

BARTOŇ, Tomáš, Václav CVRČEK, František ČERMÁK, Tomáš JELÍNEK a Vladimír PETKEVIČ (2009) Statistiky češtiny. Praha: NLN / ÚČNK.

BEDŘICHOVÁ, Zuzanna, Karel ŠEBESTA a Kateřina ŠORMOVÁ (2011) Podoba a využití korpusu jinojazyčných mluvčích a romských mluvčích češtiny: CzeSL a ROMi. In ČERMÁK, František (ed.) Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: NLN/ÚČNK.

BERMEL, Neil (1993) Sémantické rozdíly v tvarech českého lokálu. In Naše řeč, č. 76, s. 192–198.

BERMEL, Neil (2004) V korpuse nebo v korpusu? Co nám řekne (a neřekne) ČNK o morfologické variaci v tvarech lokálu. In HLADKÁ, Zdena a Petr KARLÍK (eds.) Čeština – univerzália a specifika. Praha: Nakladatelství Lidové Noviny, s. 163–171.

BERNARDINI, Silvia (2000) Systematising serendipity: Proposals for concordancing large corpora with language learners. In BURNARD, Lou a Tony MCENERY (eds) Rethinking from a corpus perspective. Frankfurt am Main: Peter Lang, s. 225–234.

BERNARDINI, Silvia (2004) Corpora in the classroom. An overview and some reflections on future developments. In SINCLAIR, John (ed.) How to Use Corpora in Language Teaching. Amsterdam: John Benjamins, s. 17–36.

BIBER, Douglas (1993) Representativeness in Corpus Design. In Literary and Linguistics Computing. roč. 8, č. 4, s. 343–257.

BOULTON, Alex (2009a) Corpora for all? Learning styles and data-driven learning. In MAHLBERG, Michaela Mahlberg, Victorina GONZÁLEZ-DÍAZ a Catherine SMITH (eds.). Proceedings of 5th Corpus Linguistics Conference. Liverpool: University of Liverpool.

BOULTON, Alex (2009b) Data-Driven Learning: On Paper, In Practice. In HARRIS, Tony a María MORENO JAÉN (eds.). Corpora in Language Teaching. Bern: Peter Lang. 209

BOULTON, Alex (2009c) Data-driven learning: Reasonable fears and rational reassurance. In Indian Journal of Applied Linguistics, roč. 35, č. 1, s. 81–105.

BOULTON, Alex (2009d) Testing the limits of data-driven learning: language proficiency and training. In ReCALL, roč. 21, č. 1, s. 37–54.

BOULTON, Alex (2012) Hands-on / hands-off: Alternative approaches to data driven learning. In THOMAS, James a Alex BOULTON (eds). Input, Process and Product. Development in Teaching and Language Corpora. Brno: Masaryk University Press, s. 152–168.

BRAUN, Sabine (2005) From pedagogically relevant corpora to authentic language learning contents. In ReCALL, roč. 17, č. 1, s. 47–64.

BRAUN, Sabine (2007) Integrating corpus work into secondary education: From data- driven learning to needs-driven corpora. In ReCALL, roč. 19, č. 3, s. 307–328.

BRUNER, Jerome (1999) The Process of Education. Cambridge: Harward University Press.

CONRAD, Susan a Douglas BIBER (2004) The Frequency and Use of Lexical Bundles in Conversation and Academic prose. In Lexicographica, č. 20, s. 56–72.

COOK, Guy (2001)‘The philosopher pulled the lower jaw of the hen’ Ludicrous Invented Sentences in Language Teaching. Applied Linguistics, roč. 22, č. 3, s. 366– 387.

CROSS, Jeremy (2002) ,Noticing´ in SLA: Is it a valid koncept? In TESL-EJ, roč. 6, č. 3. [cit. 25. 7. 2016]. Dostupné z:

CVEJNOVÁ, Jitka et al (2008) Metodika přípravy ke zkoušce z českého jazyka pro žadatele o trvalý pobyt (A1). Praha: Výzkumný ústav pedagogický. [cit. 16. 1. 2017] Dostupné z:

CVEJNOVÁ, Jitka et al (2014) Referenční popis češtiny pro účely zkoušky z českého jazyka pro trvalý pobyt v ČR – A1, A2. Praha: Národní ústav pro vzdělávání. [cit. 17. 1. 2017] Dostupné z:

CVRČEK, Václav a Dominika KOLAŘÍKOVÁ (2011) Možnosti a meze korpusové lingvistiky. In Naše řeč, roč. 94, č. 3, s. 113–133.

CVRČEK, Václav et al (2010) Mluvnice současné češtiny. Praha: Karolinum.

CVRČEK, Václav (2013) Kvantitativní analýza kontextu. Praha: NLN / ÚČNK.

210

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2013a) Pojmy: chi2 Wiki, Český národní korpus [online]. Příručka ČNK, 12. 9. 2013 [cit. 26. 7. 2016]. Dostupné z:

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2013b) Pojmy: koligaceWiki, Český národní korpus [online]. Příručka ČNK, 12. 9. 2013 [cit. 26. 7. 2016]. Dostupné z:

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2013c) Pojmy: reprezentativnost. Wiki, Český národní korpus [online]. Příručka ČNK, 13. 9. 2013 [cit. 19. 7. 2016]. Dostupné z:

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2014) Pojmy: korpus. Wiki, Český národní korpus [online]. Příručka ČNK, 27. 11. 2014 [cit. 19. 7. 2016]. Dostupné z:

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2015) Pojmy: asociační_míry Wiki, Český národní korpus [online]. Příručka ČNK, 21. 1. 2015 [cit. 25. 7. 2016]. Dostupné z:

CVRČEK, Václav a Olga RICHTEROVÁ (eds) (2016) ČNK: úvod. Wiki, Český národní korpus [online]. Příručka ČNK, 22. 6. 2016 [cit. 23. 7. 2016]. Dostupné z:

CVRČEK, Václav, Anna Čermáková a Michal Křen (2016) Nová koncepce synchronních korpusů psané češtiny. In Slovo a slovesnost, roč. 77, č. 2, s. 83–101.

ČECH, Radek (2014) Jen popis s čísly? Perspektivy korpusové lingvistiky. Naše řeč, roč. 97, č. 4–5, s. 185–193.

ČERMÁK, František (2007) Korpusová lingvistika. In Pleskalová, J. Kapitoly z dějin české jazykovědné bohemistiky. Praha: Academia.

ČERMÁK, František (2006) Kolokace v lingvistice. In ČERMÁK, František a Michal ŠULC. Kolokace. Praha: NLN / ÚČNK, s. 9–16.

ČERMÁK, František (2011) Korpusy včera, dnes a zítra. In ČERMÁK, František (ed.) Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: NLN / ÚČNK, s. 10–29.

ČERMÁK, František a Michal KŘEN (eds.) (2004) Frekvenční slovník češtiny. Praha: NLN / ÚČNK.

ČERMÁK, František a Michal KŘEN (eds.) (2011) A Frequency Dictionary of Czech: Core Vocabulary for Learners. London: Routledge.

ČERMÁK, František, Jan KRÁLÍK a Karel KUČERA (1997) Recepce současné češtiny a reprezentativnost korpusu. In Slovo a slovesnost, roč. 58, č. 2, s. 117–124.

211

ČERMÁKOVÁ, A. (2009) Valence českých substantiv. Praha: NLN / ÚČNK. Český národní korpus – základní informace (2005) In Čemusová, Jan, Lída HOLÁ a Jitka RYNDOVÁ (eds.). Sborník Asociace učitelů češtiny jako cizího jazyka (AUČCJ) 2003-2005. Praha: Akropolis.

DAVIES, Graham (2002) Computer Assisted Language Learning. [cit. 15. 8. 2016]. Dostupné z:

ELLIS, Rod (2008) Second Language Acquisition. Oxford: Oxford University Press.

FILLMORE, Charles J. (1992) „Corpus linguistics“ or „Computer-aided armchair linguistics“. In SVARTVIK, Jan (ed). Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82, Stokholm, 4-8 August 1991. Berlin: Mouton de Gruyter.

FLOWERDEW, Lynne (2009) Applying Corpus Linguistics into Pedagogy. In International Journal of Corpus Linguistics, roč. 14, č. 3, s. 393–41.

FRANKENBERG-GARCÍA, Ana (2012) Integrating corpora in everyday language teaching. In THOMAS, James a Alex BOULTON (eds.). Input, Process and Product. Development in Teaching and Language Corpora. Brno: Masaryk University Press, s. 36–53.

GABRIELATOS, Costas (2005) Corpora and language teaching: Just a fling, or wedding bells? In TESL-EJ, roč. 8, č. 4, s. 1–37.

GILMORE, Alex (2007) Authentic materials and authenticity in foreign language teaching. In Language Teaching, roč. 40, č. 2, s. 97–118.´

GOUVERNEUR, Céline (2008) The Phraseological patterns of high-frequency verbs in advanced English for general purposes: A corpus-driven approach to EFL textbook analysis. In MEUNIER, Fanny a Sylviane GRANGER (eds.) Phraseology in Foreign Language Learning and Teaching. Amsterdam: John Benjamins, s. 223–243.

GOUVERNEUR, Céline a Fanny MEUNIER (2009): New types of corpora for new educational challenges. Collecting, annotating and exploiting a corpus of textbook material. In AIJMER, Karin (ed.). Corpora and Language Teaching. Amsterdam: John Benjamins.

GRANATH, Solveigh (2009) Who benefits from learning how to use corpora? In AIJMER, Karin (ed.). Corpora and Language Teaching. Amsterdam: John Benjamins, s. 47–65.

GRANGER, Sylviane (2002) A bird´s-eye view of learner corpus reasearch. In GRANGER, Sylviane (ed.) Computer Learner Corpora, Second Language Acquisition and Foreign Language Learning. Amsterdam: John Benjamins.

HÁDKOVÁ, Marie, Josef LÍNEK a Kateřina VLASÁKOVÁ (2005) Čeština jako cizí jazyk. Úroveň A1. MŠMT. [cit. 16. 1. 2017] Dosputné z:

212

HANUŠKOVÁ, Petra (2016) Digitální technologie ve výuce. In DOLEŽÍ, Linda (ed.) Začínáme učit češtinu pro náctileté cizince. Praha: AUCČJ, s. 52–60. [cit. 18. 1. 2017] Dostupné z:

HENDRICH, Josef (1988) Didaktika cizích jazyků. Praha: SPN.

HORONYOVÁ, Barbora (2016) Využití korpusů ve výuce češtiny jako cizího jazyka se zaměřením na frankofonní mluvčí (slovesné vazby). Brno: Bakalářská práce FF MU.

HRDLIČKA, Milan (2002) Cizí jazyk čeština. Praha: ISV.

HRDLIČKA, Milan (2009) Gramatika v učebnicích češtiny jako cizího jazyka. Praha: Karolinum.

HRDLIČKA, Milan (2010) Kapitoly o češtině jako cizím jazyku. Praha: Univerzita Karlova v Praze.

HUNSTON, Susan (2010) Corpora in Applied linguistics. Cambridge: Cambridge University Press.

HUNSTON, Susan a Gill FRANCIS (2000) Pattern Grammar. A corpus-driven approach to the lexical grammar of English. Amsterdam: John Benjamins.

CHOMSKY, Noam (1957) Syntactic Structures. The Hague: Mouton.

CHOMSKY, Noam (1965) Aspects of the theory of syntax. Cambridge, Mass.: M.I.T Press.

CHLUMSKÁ, Lucie (2014) Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. In Časopis pro moderní filologii, roč. 96, č. 2, s. 221–232.

CHROMÝ, Jan (2014) Korpus a reprezentativnost. In Naše řeč, roč. 97, č. 4–5, s. 185– 193.

JAKUBÍČEK, Miloš, Jan BUŠTA, Dana HLAVÁČKOVÁ a Karel PALA. (2009) Classification of Errors in Text. In RASLAN 2009: Recent Advances in Slavonic Natural Language Processing. Brno: Masaryk University, s. 109–119.

JAKUBÍČEK, Miloš, Adam KILGARIFF, Vojtěch KOVÁŘ, Pavel RYCHLÝ a Vít SUCHOMEL (2012) The TenTen Corpus Family. In 7th International Corpus Linguistics Conference, Lancaster, July 2013. [cit. 29. 12. 2016] Dostupné z:

JELÍNEK, Jaroslav, Josef Václav BEČKA, a Marie TĚŠITELOVÁ (1961) Frekvence slov, slovních druhů a tvarů v současné češtině. Praha: Státní pedagogické nakladatelství.

213

JOHNS, Tim (1991) You Should Be Persuaded. Two samples of data-driven learning materials. In JOHNS, Tim a Phillip KING (eds.) Classroom Concordancing. Birmingham University: ELR Journal, roč. 4, s. 1–16.

JOHNS, Tim (1994) From printout to handout: Grammar and vocabulary teaching in the context of Data-driven Learning. In ODLIN, terence (ed.) Perspectives on Pedagogical Grammar. Cambridge: Cambridge University Press.

JOHNS, Tim (1997) Contexts: the Background, Development and Trialling of a Concordance-based CALL Program. In WICHMANN, Anne, Steven FLIGELSTONE, Tony MCENERY a Gerry KNOWLES (eds.) Teaching and Language Corpora. London a New York: Longman.

JOHNS, Tim (2002) Data-driven Learning: The Perpetual Challenge. In KETTEMAN, Bernhard a Georg MARKO (eds.) Teaching and Learning by Doing Corpus Analysis. Proceedings of the Fourth International Conference on Teaching and Language Corpora, Graz 19–24 July, 2000. Amsterdam: Rodopi.

KECK, Casey a YouJin KIM (2014) Pedagogical Grammar. Amsterdam: John Benjamins.

KOLÁČKOVÁ, Eva (2013) Prezentace imperativu při výuce češtiny jako cizího jazyka. Brno: Bakalářská práce FF MU.

KOLÁČKOVÁ, Ludmila (2010) Hlediska, podle nichž učitelé ČCJ vynírají učebnice. In HLÍNOVÁ, Kateřina (ed.) Sborník Asociace učitelů češtiny jako cizího jazyka (AUCČJ). Praha: Akropolis.

KOPŘIVOVÁ, Marie. Kolokace některých intenzifikačních adverbií. In ČERMÁK, František a Michal ŠULC. Kolokace Praha: NLN / ÚČNK, s. 178–222.

KOŘÁNOVÁ, Ilona (2014) K metodice výuky českého vidu. In HASIL, Jiří (ed.) Čeština jako cizí jazyk VII. Materiály ze VII. Mezinárodního sympozia o češtině jako cizím jazyku. Praha: Univerzita Karlova v Praze.

LAST, R. (1997) Počítače a výuka jazyků: minulost, přítomnost – a budoucnost? In Studie z korpusové lingvistiky. Acta universitatis carolinae philologica 3-4. Praha: Karolinum.

LAUFER, Batia (2008) Corpus-based versus Lexicographer Examples in Comprehension and Production of New Words. In FONTANELLE, Thiery (ed.) Practical Lexicography (A Reader). Oxford: Oxford University Press, s. 215–218.

LEECH, Geoffrey (2007) New resources, or just better old ones? The Holy Grail of representativeness. In HUNDT, Marianne, Nadja NESSELHAUF a Carolin BIEWER (eds.) Corpus Linguistics and the Web. Amsterdam: Rodopi, s. 133–149.

LEECH, Geoffrey (1992) Coprora and theories of linguistic performance. In SVARTVIK, Jan (ed) Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82, Stokholm, 4-8 August 1991. Berlin: Mouton de Gruyter.

214

LEECH, Geoffrey (1997) Teaching and language corpora: A convergence. In WICHMANN, Anne, Steven FLIGELSTONE, Tony MCENERY a Gerry KNOWLES (eds.) Teaching and Language Corpora. London a New York: Longman, s. 1–23.

LEWIS, Michael (1996) The Lexical Approach. The State of ELT and Way Forward. Hove: Language Teaching Publications.

LUKŠIJA, Melita (2011) Korpusy a česká deklinace ve výuce češtiny jako cizího jazyka. Brno: Diplomová práce FF MU.

MCENERY, Tony a Andrew WILSON (1996). Corpus linguistics: An Introduction. Edinburgh: Edinburgh University Press.

MCENERY, Tony a Andrew HARDIE (2012). Corpus linguistics. Method, Theory and Practice. Cambridge: Cambridge University Press.

MCENERY, Tony, Andrew HARDIE a Paul BAKER (2006) Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press.

NESSELHAUF, Nadja (2004) Learner corpora and their potential for language teaching. In SINCLAIR, John (ed.) How to use Corpora in Language Teaching. Amsterdam: John Benjamins.

NUNAN, David (2004) Task-Based Language Teaching. Cambridge: Cambridge University Press.

O´KEEFFE, Anne, Michael MCCARTHY a Ronald CARTER (2007) From Corpus to Classroom. Cambridge: Cambridge University Press.

OSOLSOBĚ, Klára (1998) Frekvence vzorů českých sloves (na materiálu ČNK). In Slovo a slovesnost, roč. 59, s. 265–277.

OSOLSOBĚ, Klára (2010) Jak se učit česky s korpusem. In Přednášky a besedy ze XLIII. běhu Letní školy slovanských (bohemistických) studií. Brno: Masarykova univerzita, s. 112 – 119.

OSOLSOBĚ, Klára (2014) Česká morfologie a korpusy. Praha: Karolinum.

OSOLSOBĚ, Klára a Pavlína VALIŠOVÁ (2010) Tagset korpusů ČNK z hlediska předpokládané znalosti gramatické terminologie u nerodilých mluvčích (Možnosti a meze využívání korpusů češtiny pro nerodilé mluvčí). In DOMINIKOVÁ, Irena a Martin LACHOUT (eds.). Lingua terminologica. Praha: MUP, s. 141–156.

PALA, Karel, Pavel RYCHLÝ a Pavel SMRŽ (2003) Text Corpus with Errors. In Text, Speech and Dialogue: Sixth International Conference, TSD 2003. Berlin: Springer Verlag, s. 90−97

215

PALA, Karel a Pavel RYCHLÝ (2011) Do We Need Large Web Corpora? In Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: NLN / ÚČNK, s. 30–40.

PALMER, F. R. (1968) Selected papers of J. R. Firth 1952−59. London: Longmans.

PLEASKALOVÁ, Jana (ed.) (2007) Kapitoly z dějin české jazykovědné bohemistiky. Praha: Academia.

RICHARDS, Jack C. A Theodore S. RODGERS (2001) Approaches and Methods in Language Teaching. Cambridge: Cambridge University Press.

RITCHIE, William C. a Tej K. BHATIA (2009) The New Handbook of Second Language Acquisition. Bingley: Emerald.

RÖMER, Ute (2004) A corpus-driven approach to modal auxiliaries and their didactics. In: SINCLAIR, John McH. (ed.). How to Use Corpora in Language Teaching. Amsterdam: John Benjamins. 185–199.

RÖMER, Ute (2006) Looking at looking: Functions and contexts of progressives in spoken English and 'school' English. In: RENOUF, Antoinette a Andrew KEHOE (eds.). The Changing Face of Corpus Linguistics. Papers from the 24th International Conference on English Language Research on Computerized Corpora (ICAME 24). Amsterdam: Rodopi. 231–242.

RÖMER, Ute (2006) Pedagogical Application of Corpora: Some reflections on the current scope and a wish list for future developments. In Zeitschrift für Anglistik und Amerikanistik. Special Issue: "The Scope and Limits of Corpus Linguistics – Empiricism in the Description and Analysis of English" (ed. Volker Gast), roč. 54, č. 2, s. 121–134,

RÖMER, Ute (2008) Corpora and language teaching. In LÜDELING, Anke a Merja KYTÖ. Corpus Linguistics. An international handbook. Berlin: Walter de Gruyter, s. 112–130.

RÖMER, Ute. 2005. Progressives, Patterns, Pedagogy. A Corpus-driven Approach to English Progressive Forms, Functions, Contexts and Didactics. Amsterdam: John Benjamins.

RUSÍNOVÁ, Zdenka (2011) Pokušení struktury. Brno: Host.

SCHMIDT, Richard (1990) The role of consciousness in second language learning. In Applied Linguistics, č. 11, s. 129–158.

SCRIVENER, James (2005) Learning Teaching. A Guidebook for English Language Teachers. Oxford: Macmillan.

SEIDLHOFER, Barbara (2002) Pedagogy and local corpora: working with data-driven learning. In GRANGER, Sylviane (ed.) Computer Learner Corpora, Second Language Acquisition and Foreign Language Learning. Amsterdam: John Benjamins.

216

SINCLAIR, John (ed.) (2007) Collins COBUILD English Grammar. Glasgow: HarperCollins.

SINCLAIR, John (1991) Corpus, Concordance, Collocation. Oxford: Oxford University Press.

SINCLAIR, John (ed.) (1998a) Grammar Patterns 1: Verbs. London: Harper Collins.

SINCLAIR, John (ed) (1998b) Grammar Patterns 2: Nouns and adjectives. Verbs. London: Harper Collins.

SINCLAIR, John (ed.) (2004) How to use Corpora in Language Teaching. Amsterdam: John Benjamins.

SINCLAIR, John (2003) Reading Concordances: an introduction. London: Pearson/Longman.

SINCLAIR, John a A. Renouf (1988) A Lexical Syllabus for Language Learning. In Carter, Ronald a Michael McCarthy (eds.) Vocabulary and Language Teaching. London: Longman.

SVENSÉN, Bo (2009) A Handbook of Lexicography. The Theory and Practice of Dictionary-Making. Cambridge: Cambridge University Press. Kapitola 15, Examples, s. 281–288.

Společný evropský referenční rámec pro jazyky. Jak se učíme jazykům, jak je vyučujeme a jak v jazycích hodnotíme (2001) Council of Europe. [cit. 9. 1. 2017] Dostupné z:

SUCHOMEL, Vít (2013) Recent Czech Web Corpora. In HORÁK, Aleš a Pavel RYCHLÝ (eds.) RASLAN 2012 : Recent Advances in Slavonic Natural Language Processing, s. 77–83.

ŠEBESTA, Karel a Svatava ŠKODOVÁ (ed.) (2012) Čeština – cílový jazyk a korpusy. Liberec: Technická univerzita v Liberci.

ŠKODOVÁ, Svatava a Barbora ŠTINDLOVÁ (2007) Modifikace principů přímé metody pro potřeby výuky gramatiky češtiny jako cizího jazyka. In ČEMUSOVÁ, Jana a Barbora ŠTINDLOVÁ (eds.) Sborník Asociace učitelů češtiny jako cizího cizího jazyka (AUČCJ) 2006–2007. Praha: Akropolis.

ŠKVOROVÁ, Daniela (1992) K principům komunikativní metody ve vyučování jazyků. Časopis pro moderní filologii. 1992, 74, č. 1, s. 89–95.

ŠTINDLOVÁ, Barbora (2013) Žákovský korpus češtiny a evaluace jeho chybové anotace. Praha: FF UK.

217

ŠTINDLOVÁ, Barbora (2015) K parcelaci gramatiky češtiny pro nerodilé mluvčí. In DVOŘÁKOVÁ, Gabriela a Jan HOUŽVIČKA (eds.) Gramatika ve výuce a testování cizích jazyků (včetně češtiny pro cizince). Sborník z mezinárodní konference. Poděbrady, 24. – 25. 6. 2015. Praha: ÚJOP UK, s. 198–210. Dostupné z:

ŠTÍCHA, František (2015) Perspektivy korpusové lingvistiky: deskripce nebo explanace? In Korpus – gramatika – axiologie, roč. 12, č. 2, s. 75–82.

ŠULC, Michal (2001) Tematická reprezentativnost korpusů. In: Slovo a slovesnost, roč. 62, č. 1, s. 53–61.

TĚŠITELOVÁ, Marie, Jan PETR a Jan KRÁLÍK (1986) Retrográdní slovník současné češtiny. Praha: Academia.

THOMAS, James (2006) Using Corpora in Language Teaching and Learning. In Teaching English with Technology. A Journal for Teachers of English. 2005, no. 6, s. 1.

THOMAS, James (2015) Discovering English with Sketch Engine. Brno: Versatile.

THOMPSON, Paul a Alison SEALEY (2004) „What do you call the dull words?“ Primary school children using corpus-based approaches to learn about language. In English in Education, 2004, roč. 38, č. 1, s. 80–91.

TOGNINI-BONELLI, Elena (2001) Corpus Linguistics at Work. Amsterdam: John Benjamins.

TRIBBLE, Chris a Glyn JONES (1990) Concordances in the classroom. London: Longman.

VALIŠOVÁ, Pavlína (2009) Korpus jako zdroj systémového popisu české konjugace při výuce češtiny jako cizího jazyka. Brno: Diplomová práce FF MU.

VALIŠOVÁ, Pavlína (2010) Korpus jako zdroj systémového popisu české konjugace při výuce češtiny jako cizího jazyka. In Bohemica Olomucensia 2 – Philologica Juvenilia, Olomouc: Univerzita Palackého v Olomouci, roč. 2., č. 1., s. 192–201.

VALIŠOVÁ, Pavlína (2011) Výukové materiály založené na korpusu. In ČERMÁK, František (ed.) Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: NLN / ÚČNK, s. 313-322.

VALIŠOVÁ, Pavlína (2012a) Využití korpusových dat při výuce češtiny jako cizího jazyka. In ŠEBESTA, Karel a Svatava ŠKODOVÁ (eds.) (2012) Čeština – cílový jazyk a korpusy. Liberec: Technická univerzita v Liberci.

VALIŠOVÁ, Pavlína (2012b) Data-driven learning a výuka češtiny jako cizího jazyka. In CASALC Review, Praha: CASAJC, roč. 2, č. 2, s. 22–39.

VALIŠOVÁ, Pavlína a Klára, OSOLSOBĚ (2012) Using data-driven method in teaching Czech as a foreign language. In THOMAS, James a Alex BOULTON (eds.).

218

Input, Process and Product. Development in Teaching and Language Corpora. Brno: Masaryk University Press, s. 183–194.

VALIŠOVÁ, Pavlína (2013a) The Choice of Verbs in Czech as a Foreign Language Textbooks. In ZACHAROV, V. P., O. A. MITROFANOVA a M. V. CHOCHLOVA. Proceedings of the International Conference "Corpus Linguistics – 2013". St. Petersburg: St. Petersburg State University, s. 138–147

VALIŠOVÁ, Pavlína (2013b) Učebnicový korpus a jeho využití pro výuku češtiny jako cizího jazyka. In KLÍMOVÁ, Jana. Gramatika a korpus 2012: 4. mezinárodní konference. Hradec Králové: Gaudeamus, s. 1–8.

VALIŠOVÁ, Pavlína (2015) Korpus učebnic češtiny pro cizince – jeho tvorba a možnosti využití. In DĚNGEOVÁ, Zuzana a Pavlína VALIŠOVÁ (eds.) Proměna jazyka a jeho výzkumu v době nových médií a technologií. Praha: Ústav pro jazyk český AV ČR, s. 13–20.

VALIŠOVÁ, Pavlína (2016a) Využití korpusů ve výuce češtiny jako cizího jazyka (metoda Data-driven learning). In Sborník Asociace učitelů češtiny jako cizího jazyka 2016 (AUCČJ). Praha: Akropolis. (v tisku)

VALIŠOVÁ, Pavlína (2016b) Korpus ve výuce češtiny jako cizího jazyka – typy cvičení. In STARÝ KOŘÁNOVÁ, Ilona a Tomáš VUČKA (eds.) Čeština jako cízí jazyk VIII. Sborník příspěvků z VIII. mezinárodního sympozia o češtině jako cizím jazyku. Praha: Univerzita Karlova, s. 129–141. Dostupné z:

VALKOVÁ, Jarmila (2014) Komunikační přístup a učebnice češtiny pro nerodilé mluvčí. Praha: FF UK.

WILLIS, Dave a Jane WILLIS (1989) Collins COBUILD English Course. London: HarperCollins.

WILLIS, Dave a Jane WILLIS (eds.) (1996) Challenge and Change in Language Teaching. Oxford: Macmillan.

WIDDOWSON, Henry (1990) Aspects of Language Teaching. Oxford: Oxford University Press.

12.2 Učebnice a mluvnice češtiny jako cizího jazyka

ADAMOVIČOVÁ, Ana a Darina IVANOVOVÁ (2006) Basic Czech I. Praha: Karolinum.

ADAMOVIČOVÁ, Ana, Darina IVANOVOVÁ a Milan HRDLIČKA (2014) Basic Czech II. Praha: Karolinum.

ADAMOVIČOVÁ, Ana a Milan HRDLIČKA (2010) Basic Czech III. Praha: Karolinum.

219

BISCHOFOVÁ, Jana a Milan HRDLIČKA (2005) Čeština pro cizince a azylanty B1. Brno: SOZE.

BOŘILOVÁ, Pavla a Lída HOLÁ (2010) Čeština Expres 1 A1/1. Praha: Akropolis.

BOŘILOVÁ, Pavla a Lída HOLÁ (2011) Čeština Expres 2 A1/2. Praha: Akropolis.

BOŘILOVÁ, Pavla a Lída HOLÁ (2012) Česky krok za krokem 2. Praha: Akropolis.

BOŘILOVÁ, Pavla a Lída HOLÁ (2013) Česká gramatika v kostce / Czech Grammar in a Nutshell. Praha: Akropolis.

BOŘILOVÁ, Pavla a Lída HOLÁ (2014) Čeština Expres 3 A2/1. Praha: Akropolis.

BOZDĚCHOVÁ, Ivana (2016) Korespondence v češtině: příručka pro cizince. Praha: Karolinum.

HOLÁ, Lída (2012) New Czech Step by Step. Praha: Akropolis.

CVEJNOVÁ, Jitka (2008) Česky, prosím I. Praha: Karolinum.

CVEJNOVÁ, Jitka (2011) Česky, prosím Start. Praha: Karolinum.

CVEJNOVÁ, Jitka (2012) Česky, prosím II. Praha: Karolinum.

CVEJNOVÁ, Jitka (2017) Česky, prosím III. Praha: Karolinum (v tisku).

ČECHOVÁ, Elga a Helena REMEDIOSOVÁ (2005) Chcete mluvit česky? Liberec: HarryPutz.

HÁDKOVÁ, Marie (2005) Čeština pro cizince a azylanty A1. Brno: SOZE.

HÁDKOVÁ, Marie (2005) Čeština pro cizince a azylanty A2. Brno: SOZE.

HOLÁ, Lída (2006) New Czech Step by Step. Praha: Akropolis.

KESTŘÁNKOVÁ, Marie, Kateřina KOPICOVÁ a Gabriela ŠNAIDAUFOVÁ (2010) Čeština pro cizince B1. Brno: Cpress.

KOŘÁNOVÁ, Ilona (2012) Česká čítanka. Praha: Akropolis.

MATULA, Ondřej (2007) Český den. Praha: Člověk v tísni o.p.s., Projekt Varianty.

NAUGHTON, James. Czech: An Essential Grammar. Abingdon: Routhledge.

NEKOVÁŘOVÁ, Alena (2006) Čeština pro život – 15 moderních konverzačních témat. Praha: Akropolis.

220

PINTAROVÁ, Magdalena a Ivana REŠKOVÁ (2006) Communicative Czech. Elementary Czech. Brno: PhDr. Ivana Rešková.

PINTAROVÁ, Magdalena a Ivana REŠKOVÁ (2004) Communicative Czech. Intermediate Czech. Brno: PhDr. Ivana Rešková.

POLDAUF, Ivan a Karel ŠPRUŇK (1968) Čeština jazyk cizí: mluvnice češtiny pro cizince. Praha: Státní pedagogické nakladatelství.

ŠTINDL, Ondřej (2008) Easy Czech. Elementary. Praha: Akronym.

ŠTINDLOVÁ, Barbora (2008) Česky v Česku I. Praha: ÚJOP UK / Akropolis.

ŠTINDLOVÁ, Barbora (2008) Česky v Česku II. Praha: ÚJOP UK / Akropolis.

12.3 Korpusy a korpusové nástroje

Český národní korpus – CzeSL-Plain. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z: .

Český národní korpus – InterCorp. Ústav Českého národního korpusu FF UK, Praha. Dostupné z:.

Český národní korpus – ORAL2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupné z: .

Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupné z: .

Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2100. Dostupné z: .

Český národní korpus – SYN2015. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupné z: .

Korpus czTenTen12. Brno, 2012. Po registraci dostupné na .

Korpus chyb. Dostupné z:

221

13 Přílohy

13.1 Seznam tabulek

Tabulka 1 Frekvenční distribuce slov mejdan, party a večírek v různých korpusech .... 58 Tabulka 2 Vyhledání variant v Korpusu SyD ...... 118 Tabulka 3 Pořadí pádů ve Statistikách češtiny a v korpusu SYN2015 ...... 161 Tabulka 4 Pořadí pádů v singuláru ve vybraných učebnicích ...... 161 Tabulka 5 Pořadí pádů v plurálu ve vybraných učebnicích ...... 162 Tabulka 6 Nejfrekventovanější nepravidelná slovesa (Vališová, 2009) ...... 167 Tabulka 7 Důležitá nepravidelná slovesa (Vališová, 2009) ...... 167 Tabulka 8 Analýzy učebnic češtiny pro cizince ...... 171 Tabulka 9 Seznam učebnic v učebnicovém korpusu (UčKo) ...... 173 Tabulka 10 Složení učebnicového korpusu (UčKo) ...... 174 Tabulka 11 Počet sloves v korpusu UčKo-A1 (frekvence min. 2 výskyty) a popisu A1 ...... 181 Tabulka 12 Počet sloves v korpusu UčKo-A1 (100 nejfrekventovanějších sloves) ..... 181 Tabulka 13 100 nejfrekventovanějších sloves v učebnicích A1 (infinitiv a počet výskytů) ...... 183 Tabulka 14 Slovesa z Referenčního popisu češtiny A1, která se nevyskytovala v učebnicích ...... 183 Tabulka 15 Frekvence slovních tvarů slovesa dát (si) v korpsech UčKo-A1 a czTenTen ...... 184 Tabulka 16 Frekvence slovních tvarů slovesa koupit (si) v korpsech UčKo-A1 a czTenTen ...... 185 Tabulka 17 Frekvence slovních tvarů slovesa přijít v korpsech UčKo-A1 a czTenTen ...... 185 Tabulka 18 Frekvence slovních tvarů slovesa prominout v korpsech UčKo-A1 a czTenTen ...... 186 Tabulka 19 Frekvence slovních tvarů slovesa narodit se v korpsech UčKo-A1 a czTenTen ...... 187 Tabulka 20 Frekvence slovních tvarů slovesa vrátit v korpsech UčKo-A1 a czTenTen ...... 187

222

Tabulka 21 Frekvence slovních tvarů slovesa přijet v korpsech UčKo-A1 a czTenTen ...... 188 Tabulka 22 Frekvence slovních tvarů slovesa zavolat v korpsech UčKo-A1 a czTenTen ...... 189 Tabulka 23 Frekvence slovních tvarů slovesa dostat v korpsech UčKo-A1 a czTenTen ...... 189 Tabulka 24 Frekvence slovních tvarů slovesa říct v korpsech UčKo-A1 a czTenTen . 190 Tabulka 25 Frekvence slovních tvarů slovesa navštívit v korpsech UčKo-A1 a czTenTen ...... 191 Tabulka 26 Frekvence slovních tvarů slovesa vzít v korpsech UčKo-A1 a czTenTen . 192 Tabulka 27 Frekvence slovních tvarů slovesa sejít se v korpsech UčKo-A1 a czTenTen ...... 193 Tabulka 28 100 nejfrekventovanějších sloves v učebnicích A2 ...... 196 Tabulka 29 Kontexty slovesa dát (si) v korpusech UčKo-A2 a czTenTen ...... 196 Tabulka 30 Kolokace slovesa dát v korpusech UčKo-A1, czTenTen a ČNK ...... 197 Tabulka 31 Kontexty slovesa říct v korpusech UčKo-A2 a czTenTen ...... 198 Tabulka 32 Kontexty slovesa koupit v korpusech UčKo-A2 a czTenTen ...... 199 Tabulka 33 Nejčastější předložky se slovem koupit v korpusech UčKo-A2 a czTenTen ...... 200 Tabulka 34 Kolokace slovesa koupit v korpusech UčKo-A1, czTenTen a ČNK ...... 201

13.2 Seznam obrázků

Obrázek 1 Slovo v kontextu (nástroj KonText) ...... 26 Obrázek 2 Zastoupení slov opravdu a fakt v psaných a mluvených korpusech (nástroj SyD) ...... 27 Obrázek 3 Kolokace slova pivo (nástroj SyD) ...... 27 Obrázek 4 Word Sketches slova práce (nástroj Sketch Engine) ...... 28 Obrázek 5 Korpusové aplikace ve výuce jazyků (Römer(ová), 2008) ...... 42 Obrázek 6 Tematická anotace korpusu ELISA (Braun, 2006) ...... 53 Obrázek 7 Korpus ELISA - vybrané výskyty z části Představování (Braun, 2009) ...... 53 Obrázek 8 Tematické tagy korpusu BACKBONE ...... 56 Obrázek 9 Korpus BACKBONE - ukázka ...... 56

223

Obrázek 10 Co-occurence slova job v korpusu BACKBONE ...... 57 Obrázek 11 Synchronní frekvenční distribuce slov mejdan, party a večírek (SyD) ...... 59 Obrázek 12 Diachronní frekvenční distribuce slov mejdan, party a večírek (SyD) ...... 59 Obrázek 13 Příklad cvičení lexikálního přístupu (Lewis, 1996, s. 126) ...... 74 Obrázek 14 Gramatická tabulka v učebnici Čeština expres A1/1 (Bořilová a Holá, 2010) ...... 80 Obrázek 15 Gramatická tabulka v učebnici Česky, prosím II (Cvejnová, 2012) ...... 81 Obrázek 16 Klíčové slovo v kontextu (Key Word In Context – KWIC) ...... 84 Obrázek 17 Tim Johns – DDL cvičení (výběr konkordancí) ...... 96 Obrázek 18 Tim Johns – DDL cvičení (doplňování) ...... 97 Obrázek 19 Tim Johns – DDL cvičení (akademické psaní) ...... 98 Obrázek 20 Tim Johns: DDL cvičení – otevřené (paralelní korpus) ...... 99 Obrázek 21 Tim Johns: DDL cvičení – doplňování (paralelní korpus) ...... 99 Obrázek 22 Costas Gabrielatos – DDL cvičení (lexikální) ...... 102 Obrázek 23 Costas Gabrielatos – DDL cvičení (gramatické) ...... 103 Obrázek 24 Costas Gabrielatos – DDL cvičení (domácí úkol) ...... 104 Obrázek 25 Ana Frankenberg-García – DDL cvičení (neznámé slovo v učebnici) ..... 105 Obrázek 26 Ana Frankenberg-García – DDL cvičení (fráze v učebnici) ...... 106 Obrázek 27 Ana Frankenberg-García – DDL cvičení (kolokace slova beach) ...... 107 Obrázek 28 Vyhledání slova kniha v Jazykové příručce ÚJČ AV ČR ...... 109 Obrázek 29 DDL aktivity s klíčovým slovem uprostřed ...... 110 Obrázek 30 Modelové věty se slovesem dojít (korpus SYN2005) ...... 111 Obrázek 31 Cvičení Melity Lukšiji – vyhledávání a určování rodu ...... 112 Obrázek 32 Cvičení Melity Lukšiji – určování rodu dle kontextu ...... 112 Obrázek 33 DDL aktivity Evy Koláčkové – imperativ ...... 113 Obrázek 34 DDL aktivity Barbory Horonyové – slovesné vazby v češtině a francouzštině ...... 113 Obrázek 35 Klíčové slovo v kontextu (nástroj KonText) ...... 114 Obrázek 36 Zobrazení věta (nástroj KonText) ...... 115 Obrázek 37 Seznam kolokací (nástroj KonText) ...... 116 Obrázek 38 Frekvenční rozložení slov opravdu a fakt v psaném a mluveném jazyce . 118 Obrázek 39 Úkoly pro vyhledávání kolokací v Korpusu SyD ...... 120 Obrázek 40 Štítky označující typy korpusových cvičení na portálu Pro školy ...... 125

224

Obrázek 41 Frekvenční distribuce slovesných vzorů v korpusu SYN2000 (Vališová, 2009) ...... 147 Obrázek 42 Varianty kupuju a kupuji v nástroji SyD ...... 148 Obrázek 43 Varianty kupujou a kupují v nástroji SyD ...... 148 Obrázek 44 Slovníkové heslo ve slovníku COBUILD (Sinclair et al, 1996) ...... 153 Obrázek 45 Heslo slovníku Frequency Dictionary of Czech: Core Vocabulary for Learners ...... 168 Obrázek 46 Složení učebnicového korpusu A1 (Sketch Engine) ...... 175 Obrázek 47 Složení učebnicového korpusu A2 (Sketch Engine) ...... 175 Obrázek 48 Ukázka dialogu z učebnice Basic Czech II (Adamovičová et al, 2014).... 176 Obrázek 49 Ukázka dialogu z učebnice Čeština expres 3 (Holá, 2010) ...... 177 Obrázek 50 Ukázka modelových vět z učebnice Česky, prosím II (Cvejnová, 2012) .. 178

225