2 Korpus I Językoznawstwo Korpusowe 9

Piotr Paryzek Pozyskiwanie danych leksykalnych z tekstów elektronicznych (na materiale czasopisma naukowego) Promotor: dr hab. Piotr Wierzchoń, prof. Uniwersytet im. Adama Mickiewicza w Poznaniu Instytut Językoznawstwa Poznań 2011 Panu Profesorowi Piotrowi Wierzchoniowi bardzo dziękuję za cierpliwość, trafne uwagi i opiekę nad pracą Spis treści 1 WSTĘP 7 2 KORPUS I JĘZYKOZNAWSTWO KORPUSOWE 9 2.1 Historia badań korpusowych 12 2.1.1 Krytycyzm Chomsky’ego 12 2.1.2 Rozwój badań korpusowych 14 2.2 Charakterystyka korpusów językowych 18 2.2.1 Sinclaira koncepcja konstruowania korpusów (1996) 18 2.2.2 Reprezentatywność 21 2.2.3 Koncepcja McEnery’ego i Wilsona (1996) 24 2.3 Typologia korpusów 27 2.3.1 Korpusy referencyjne i monitorujące 27 2.3.2 Korpusy ogólne i specjalistyczne 28 2.3.3 Korpusy pełnotekstowe i próbkowane 29 2.3.4 Korpusy języka pisanego i mówionego 30 2.3.5 Korpusy jednojęzyczne i wielojęzyczne, równoległe i porównywalne 31 2.3.6 Korpusy nieanotowane i anotowane 33 2.3.7 Korpusy synchroniczne i diachroniczne 35 2.4 Korpusy historyczne i współczesne 36 2.4.1 Korpusy ery przedkomputerowej 36 2.4.2 Wybrane korpusy komputerowe 38 2.4.2.1 Brown Corpus 38 2.4.2.2 British National Corpus 39 2.4.2.3 American National Corpus 40 2.4.2.4 Cobuild, Bank of English 40 2.4.2.5 International Corpus of English (ICE) 41 2.4.2.6 The Helsinki Corpus of English Texts 43 2.4.3 Korpusy w Polsce 43 2.4.3.1 PELCRA 43 2.4.3.2 Narodowy Korpus Języka Polskiego 45 3 2.4.3.3 Korpus Języka Polskiego PWN 46 2.4.3.4 Korpus IPI PAN 47 2.4.4 Zbiory tekstów 47 2.5 Narzędzia komputerowe i procedury stosowane w badaniu korpusów 50 2.5.1 Wyszukiwanie i zastępowanie informacji 50 2.5.2 Frekwencja 51 2.5.3 Lematyzacja 51 2.5.4 Analiza części mowy 53 2.5.4.1 Przykładowe analizatory morfologiczne 56 2.5.5 Parsing 60 2.5.6 Konkordancja 62 3 WYRAśENIA REGULARNE W BADANIACH KORPUSOWYCH 68 3.1 WyraŜenia regularne 68 3.2 Metaznaki 70 3.3 Zastępowanie wyraŜeń 75 3.3.1 Metaznaki zastępowania 75 3.4 Przykłady wyraŜeń regularnych stosowanych w pracy 78 4 METODY KOMPUTEROWEJ EKSCERPCJI INFORMACJI JĘZYKOWEJ ZE ZBIORÓW TEKSTÓW 80 4.1 Podstawa materiałowa pracy 80 4.1.1 Opracowywanie danych wejściowych 81 4.1.2 Uzyskany korpus w świetle zaprezentowanej typologii korpusów 82 4.2 Porównanie wybranych metod ekscerpcji jednostek nowych 84 4.2.1 Wprowadzenie 85 4.2.2 ZałoŜenia 88 4.2.2.1 Korpus 88 4.2.2.2 Wyszukiwanie fraz 89 4.2.2.3 Zastosowanie analizy morfologicznej 91 4.2.2.4 Wyodrębnianie jednostek występujących w języku z niewielką częstością 91 4.2.2.5 Plik random 93 4 4.2.3 Metoda 93 4.2.3.1 Wyszukiwanie fraz 93 4.2.3.2 Analiza morfologiczna 98 4.2.3.3 Wyodrębnianie jednostek leksykalnych o niskiej frekwencji 105 4.2.3.4 Analiza manualna list słów 108 4.2.4 Wynik badań 109 4.2.5 Analiza wyników 120 4.2.6 MoŜliwości rozszerzenia metody 123 4.2.7 MoŜliwości udoskonalenia metody 125 4.2.8 Dyskusja wyników 126 4.2.9 Wykorzystanie wyników do dalszych badań – badanie potencjału słowotwórczego wybranych morfemów 128 4.2.10 Próba przekładu uzyskanych jednostek nowych 131 4.3 Metoda ekscerpcji kolokacji w oparciu o akronimy 135 4.3.1 Kolokacje, zwroty stałe i jednostki wielowyrazowe 135 4.3.2 Opis metody 143 4.3.2.1 Sformułowanie Ŝądania 143 4.2.2.2 ZałoŜenie 145 4.3.2.3 Dane wykorzystane w opisywanej metodzie 145 4.3.2.4 Procedura zastosowana w badaniach 145 4.3.3 Wyniki 148 4.3.3.1 Jednostki dwuwyrazowe 148 4.3.3.2 Jednostki trójwyrazowe 156 4.3.3.3 Jednostki czterowyrazowe 193 4.3.3.4 Jednostki pięciowyrazowe 207 4.3.3.5 Jednostki sześciowyrazowe 209 4.3.4 MoŜliwości rozbudowy metody i dalszych badań 209 4.3.5 Dyskusja wyników 211 4.4 Metoda ekscerpcji kolokacji rzeczownikowych na podstawie obserwacji parametru końcówki liczby mnogiej 214 4.4.1 Podstawowe załoŜenie 214 4.4.2 Dane 215 4.4.3 Przetwarzanie danych i ekscerpcja kolokacji 215 4.4.4 Wyniki 220 4.4.4.1 Lista kolokacji dwuwyrazowych 221 4.4.4.2 Lista kolokacji trójwyrazowych 246 5 4.4.5 Dyskusja wyników 253 4.4.6 MoŜliwości rozwoju metody i dalszych badań 255 4.4.7 Porównanie wyników uzyskanych za pomocą metody ekscerpcji kolokacji w oparciu o akronimy (metoda A) oraz metody ekscerpcji kolokacji rzeczownikowych na podstawie obserwacji parametru końcówki liczby mnogiej (metoda B) 257 4.5 Podsumowanie 262 5 ZAKOŃCZENIE 266 SUMMARY 268 6 BIBLIOGRAFIA 274 6 Wstęp 1 Wstęp Niniejsza praca dotyczy wybranych metod pozyskiwania, czyli ekscerpcji, informacji o charakterze leksykalnym z elektronicznych zbiorów tekstów. Jej celem jest, po pierwsze, sformułowanie nowych, oryginalnych metod, które mogą być uŜyteczne w pozyskiwaniu materiału do analiz leksykalnych, a następnie zbadanie ich na wybranym zbiorze tekstów. Planowano opracowanie metod niewymagających zaawansowanej znajomości programowania komputerowego, a jednocześnie umoŜliwiających uzyskanie wartościowych wyników, gdzie za wartościowość metody uznaje się daną wydajność ekscerpcyjną. Trzy sformułowane metody dopracowano i zoptymalizowano. W rozdziale 2 „Korpus i językoznawstwo korpusowe” przedstawiono zarys historii badań korpusowych oraz informacje dotyczące korpusów językowych (ich cechy, typologię, przykłady oraz narzędzia przydatne w badaniach nad korpusami). W rozdziale 3 znajdują się informacje ogólne dotyczące wyraŜeń regularnych, ich składni itp., w tym szczegółowy opis wyraŜeń zastosowanych w niniejszej pracy. W rozdziale 4, będącym częścią eksperymentalną pracy, opisano zbiór tekstów wykorzystany w badaniach oraz przedstawiono dokładnie – z podziałem na poszczególne kroki − kolejno trzy metody pozyskiwania informacji leksykalnych: 7 Wstęp 1. Metoda ekscerpcji neologizmów, czyli agnonimów słownikowych, które w tekście pracy określa się jako wyrazy nowe 1. 2. Metoda ekscerpcji kolokacji w oparciu o akronimy (metoda akronimowa). 3. Metoda ekscerpcji kolokacji rzeczownikowych. W przypadku kaŜdej metody dokonano omówienia uzyskanych wyników, w tym odniesiono się do nich krytycznie, a takŜe oceniono moŜliwości rozbudowy kaŜdej metody i ewentualnych dalszych badań. Istotnym elementem pracy jest punkt 5. czwartego rozdziału, w którym podsumowano przebieg prac w przypadku trzech zaproponowanych i zastosowanych metod. W rozdziale 5 odniesiono się do spełnienia celu pracy oraz zawarto wnioski ogólne dotyczące moŜliwości wykorzystania wyodrębnionych metod pozyskiwania danych leksykalnych w badaniach korpusowych. Pracę zamyka streszczenie w języku angielskim oraz bibliografia. Praca wpisuje się w nurt badań prowadzonych w obrębie językoznawstwa stosowanego. Oznacza to, Ŝe celem dociekań naukowych jest stworzenie takiej teorii, której głównym komponentem będzie komponent ekscerpcyjny, prowadzący do uzyskania wstępnie przewidywanego wyniku ekscerpcyjnego (w postaci np. kolokacji występujących w tekstach naukowych). 1 Pojawiły się tu dwa terminy: neologizm i agnonim słownikowy. Neologizm to wyraz nowo powstały, zaś agnonim słownikowy to wyraz nieobecny w danym słowniku. Uściślenie to jest o tyle istotne, Ŝe pojęcie neologizmu jest relewantne lingwochronologizacyjnie, a pojęcie angnonimu słownikowego jest pojęciem lingwochronologizacyjnie neutralnym. W pracy, dla uproszczenia wywodu, stosuje się określenie jednostka nowa, mając w pamięci to, Ŝe faktycznie poszukujemy po prostu agnonimów słownikowych. Dopiero specjalnie dedykowana ku temu teoria lingwochronologizacyjna byłaby w stanie orzec o neologiczności względem danej granicy datacji agnonimów słownikowych. 8 Korpus i językoznawstwo korpusowe 2 Korpus i językoznawstwo korpusowe Według Barbary Lewandowskiej-Tomaszczyk językoznawstwo korpusowe : jest jedną z części językoznawstwa komputerowego 2 i zajmuje się analizą języka zgromadzonego w korpusach językowych, czyli komputerowych zbiorach autentycznych tekstów językowych, mówionych i pisanych (Lewandowska-Tomaszczyk 2005: 11). Zbioru tekstów nie moŜna zatem uznać za korpus 3, jeśli nie moŜna go zapisać w sposób elektroniczny i w ten sam sposób odczytywać. Inaczej mówiąc – w tym ujęciu zbiorów tekstów zgromadzonych przed wprowadzeniem do językoznawstwa komputerów nie naleŜy określać mianem korpusów. Jednym z pierwszych podręczników językoznawstwa korpusowego był Aarts i Meijs (1984), chociaŜ pojęcie to zostało uŜyte juŜ wcześniej, na przykład w Aarts i van den Heuvel (1982). Ponadto w literaturze angielskojęzycznej stosuje się takŜe (por. Taylor 2008, szczegółowa analiza występowania nazw dyscypliny w publikacjach naukowych) pojęcia corpus/corpus-based/corpus-driven/corpus assisted + analysis/approach/study , a takŜe wyodrębnia corpus-driven linguistics (Tognini-Bonelli 2001). Znacznie szersze ujęcie definicji korpusu przedstawił wcześniej Kennedy (1998: 1), według którego „korpus jest zbiorem tekstów pisanych lub 2 Na temat językoznawstwa komputerowego por. takŜe Grishman 1986, Boguraev 1995, Clark et al. 2010. 3 Źródłosłów słowa „korpus” jest łaciński i oznacza ciało (pierwsze znaczenie w internetowym Słowniku języka polskiego Wydawnictwa Naukowego PWN opracowanego na bazie Uniwersalnego słownika języka polskiego pod red. S. Dubisza). Znaczenie językoznawcze umieszczono na ostatniej, dziewiątej pozycji. 9 Korpus i językoznawstwo korpusowe transkrypcji wypowiedzi mówionych; na jego podstawie prowadzi się analizy językoznawcze i dokonuje opisu języka”. I kontynuuje: „wprowadzenie komputerów do badań korpusowych nie zmieniło istoty tych badań, mimo Ŝe wielu badaczy tak sądzi, a w Ŝadnym razie komputery nie wyznaczają początku badań korpusowych, mimo Ŝe znacznie je przyspieszyły i ułatwiły”. NaleŜy ponadto pamiętać, Ŝe mimo ogromnego postępu technologicznego w wielu aspektach

2 Korpus I Językoznawstwo Korpusowe 9

2004 DOE/BES Analysis Program Contractors' Meeting

Synthetic Applications of Dienes and Polyenes, Excluding Cycloadditions

Altriciality and the Evolution of Toe Orientation in Birds

Big Historical Foundations for Deep Future Speculations: Cosmic Evolution, Atechnogenesis, and Technocultural Civilization

Predictors of Juvenile Survival in Birds

Nanosystems, Edge Computing, and the Next Generation Computing Systems

Curriculum Vitae

The Nanobank Database Is Available at for Free Use for Research Purposes

Ultrafastlight-2020 Book of Abstracts

The Platypus Is Not a Rodent: DNA Hybridization, Amniote Phylogeny and the Palimpsest Theory

Enhanced Oil Recovery for Emergent Energy Demand: Challenges and Prospects for a Nanotechnology Paradigm Shift

Stability and Possible Production of the Super-Strong AB-Matter