Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására

Total Page:16

File Type:pdf, Size:1020Kb

Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására DOI:10.15774/PPKE.ITK.2013.004 Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására doktori (Ph.D.) disszertáció Pataki Máté Témavezető: Prószéky Gábor, az MTA doktora Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar, Multidiszciplináris Műszaki Tudományok Doktori Iskola Firenze, 2011. Budapest, 2012. DOI:10.15774/PPKE.ITK.2013.004 Tartalomjegyzék 1. BEVEZETÉS ................................................................................................................................... 7 1.1. PLÁGIUM ÉS PLAGIZÁLÁS ................................................................................................................. 8 1.2. MÁSOLÁSVÉDELEM ........................................................................................................................ 9 1.3. PLÁGIUMKERESŐ RENDSZEREK ........................................................................................................ 13 1.4. PLÁGIUMKERESŐ MINT VÉDELEM .................................................................................................... 18 1.5. A JÖVŐBENI KERESŐK VÉDELME....................................................................................................... 20 2. FÉLIG ÁTLAPOLÓDÓ SZAVAS DARABOLÁS .................................................................................. 22 2.1. DARABOLÁSI ELJÁRÁSOK ISMERTETÉSE .............................................................................................. 22 2.1.1. Különböző darabolási eljárások ......................................................................................... 23 2.1.2. Keletkező töredékek mennyisége ....................................................................................... 26 2.1.3. Daraboló-eljárások az irodalomban ................................................................................... 28 2.1.4. Félig átlapolódó szavas darabolás ..................................................................................... 30 2.2. DARABOLÁSI ELJÁRÁSOK ÖSSZEHASONLÍTÁSA ..................................................................................... 33 2.2.1. Hasonlóságok kimutatása .................................................................................................. 33 2.2.2. Átlapolódó hash-kódon alapuló darabolás ........................................................................ 37 2.3. DARABOLÁSI ELJÁRÁSOK – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................................................... 39 3. TÖBBNYELVŰ DOKUMENTUM NYELVÉNEK MEGÁLLAPÍTÁSA ..................................................... 40 3.1. BEVEZETÉS .................................................................................................................................. 40 3.2. AZ EREDETI N-GRAM ALGORITMUS................................................................................................... 44 3.3. TOVÁBBFEJLESZTETT N-GRAM ALGORITMUS....................................................................................... 46 3.4. NYELVFELISMERŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................................... 50 4. ALGORITMUS FORDÍTÁSI PLÁGIUMOK KERESÉSÉRE ................................................................... 51 4.1. BEVEZETÉS .................................................................................................................................. 51 4.2. AZ ALGORITMUS KIALAKÍTÁSA ......................................................................................................... 58 4.2.1. Fordítások összehasonlítása – hasonlósági metrika .......................................................... 67 4.2.2. Implementációs döntések .................................................................................................. 70 4.2.3. A hasonlósági eredmények értelmezése ............................................................................ 79 4.3. AZ ÚJ FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS VIZSGÁLATA ................................................................ 79 4.3.1. Tesztkörnyezet kialakítása ................................................................................................. 80 4.3.2. Keresési idő csökkentése indexált kereséssel ..................................................................... 87 4.3.3. A szótár hatása a fedésre ................................................................................................... 92 4.3.4. A szótár méretének hatása a plágiumkeresésre ................................................................ 94 4.3.5. Az algoritmus eredményének értékelése ........................................................................... 99 2 DOI:10.15774/PPKE.ITK.2013.004 4.4. A HASONLÓSÁGI METRIKÁN ÉS AZ AUTOMATIKUS FORDÍTÓN ALAPULÓ ALGORITMUSOK ÖSSZEHASONLÍTÁSA . 100 4.4.1. Az n-gram paraméterek kiválasztása ............................................................................... 102 4.4.2. Angol-magyar irányú keresések összehasonlítása ........................................................... 108 4.4.3. Angol-német irányú keresések összehasonlítása ............................................................. 113 4.5. FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................... 115 5. MONDAT ALAPÚ HASONLÓSÁG- ÉS PLÁGIUMKERESÉS EGY NYELVEN BELÜL ........................... 116 5.1. BEVEZETÉS ................................................................................................................................ 116 5.2. HASONLÓSÁGI METRIKÁN ALAPULÓ ALGORITMUS TESZTELÉSE AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSÁRA 118 5.3. AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSA – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................. 120 6. AZ ALGORITMUS IMPLEMENTÁLÁSA ÉS HASZNÁLATA A GYAKORLATBAN ............................... 121 6.1. BEVEZETÉS ................................................................................................................................ 121 6.2. A FELHASZNÁLÓI FELÜLET ............................................................................................................ 121 6.2.1. Dokumentum feltöltése .................................................................................................... 122 6.2.2. Dokumentum(ok) kiválasztása ......................................................................................... 122 6.2.3. Keresési lehetőségek kiválasztása .................................................................................... 123 A keresés eredménye ...................................................................................................................... 123 6.3. AZ ALGORITMUS IMPLEMENTÁLÁSÁNAK TAPASZTALATAI .................................................................... 125 7. ÖSSZEFOGLALÁS, TOVÁBBFEJLESZTÉSI LEHETŐSÉGEK .............................................................. 126 8. KÖSZÖNETNYILVÁNÍTÁS ........................................................................................................... 128 9. MELLÉKLETEK ........................................................................................................................... 129 9.1. A SZERETET HIMNUSZA HÁROM FORDÍTÁSBAN ................................................................................. 129 9.2. A BIBLIAI TESZTDOKUMENTUMOK HASONLÓSÁGAI ............................................................................ 130 9.2.1. Átlapolódó szavas darabolás ........................................................................................... 130 9.2.2. Mondatonkénti darabolás ................................................................................................ 131 9.2.3. Hash-kódon alapuló darabolás ........................................................................................ 132 9.2.4. Átlapolódó hash-kódon alapuló darabolás ...................................................................... 133 9.3. SZÖVEGTÁR: GÉPI VS. KÉZI FORDÍTÁS .............................................................................................. 134 9.3.1. Eredeti angol nyelvű Wikipédia szócikk: Johann Haller .................................................... 134 9.3.2. Kézi fordítás magyarra: Johann Haller ............................................................................. 134 9.3.3. Gépi fordítás magyarra: Johann Haller ............................................................................ 135 9.3.4. Magyar kézi fordítás visszafordítása géppel: Johann Haller ............................................ 135 9.3.5. Eredeti angol nyelvű Wikipédia szócikk: London Underground ....................................... 136 9.3.6. Kézi fordítás magyarra: London Underground ................................................................. 137 3 DOI:10.15774/PPKE.ITK.2013.004 9.3.7. Gépi fordítás magyarra: London Underground ................................................................ 138 9.3.8. Magyar kézi fordítás visszafordítása géppel: London Underground ................................ 139 9.3.9. Eredeti angol nyelvű Wikipédia szócikk: Mozartkugel ..................................................... 140 9.3.10. Kézi fordítás magyarra: Mozartkugel .......................................................................... 142 9.3.11. Gépi fordítás magyarra: Mozartkugel ......................................................................... 143 9.3.12. Magyar kézi fordítás visszafordítása géppel: Mozartkugel ......................................... 144 9.4. KÉZZEL ANGOLRÓL
Recommended publications
  • Curriculum Renewal in Translator Training
    Curriculum Renewal in Translator Training: Vocational challenges in academic environments with reference to needs and situation analysis and skills transferability from the contemporary experience of Polish translator training culture John Kearns B.A. (First class hons.), M.A. Thesis submitted for the award of PhD in Applied Language Studies under the supervision of Dr. Heinz Lechleiter, School of Applied Language and Intercultural Studies, Dublin City University. Submitted for examination: July 5th 2006 Declaration I hereby certify that this material, which I now submit for assessment on the programme of study leading to the award of ph.D. in Applied Languages, is entirely my own work and has not been taken from the work of others save and to the extent that such work has been cited and acknowledged within the text of my work. Signed: LL. John Kearns (Candidate) ID number: 52154335 Date: July 5th 2006 2 Dedication For my late mother, who sort of initiated things. 3 Contents Contents 4 Abstract 7 List of Tables and Figures 8 List of Abbreviations 9 Acknowledgements 10 A Note on Terminology 11 URL Activity 12 Introduction 13 Chapter 1 Challenges Facing Translator Training: Current Thoughts on the State of Play 24 1.1 Translator Training and the Rise of Translation Studies 25 1.2 How It Should be Done: Some Attempts to Identify Challenges Facing Translator Training Over Thirty Years 28 1.2.1 Critiques of the 1970s and ’80s: Wolfram Wilss 29 1.2.2 Don Kiraly: Nine Challenges for Translator Training 34 1.2.3 The ECML Report 43 1.2.4 Anthony
    [Show full text]
  • Nawrocki, Berühmte Schweidnitzer /Wybitni Świdniczanie/. Aus: Z Dziejów Świdnicy /Aus Der Geschichte Von Schweidnitz/, Świdnica 1998
    Nawrocki, Berühmte Schweidnitzer /Wybitni świdniczanie/. Aus: Z dziejów Świdnicy /Aus der Geschichte von Schweidnitz/, Świdnica 1998 Übersetzt und mit Anmerkungen versehen von Horst Adler 2013 Schon in der ersten Hälfte des 14. Jahrhunderts war die Mehrzahl der Einwohner der Stadt deutscher Nationalität. .Es darf uns daher nicht wundern, dass die meisten berühmten Schweidnitzer Deutsche waren. Zu den „Schweidnitzern“ (bzw. Schweidnitzerinnen) zähle ich alle in Schweidnitz Geborenen, aber auch jene, die längere Zeit in unserer Stadt zubrachten, etwa weil sie eine der hiesigen Schulen besuchten. Als „berühmt“ sollen alle gelten, die durch ihre politische, gesellschaftliche, gelehrte oder künstlerische Tätigkeit hohes Ansehen erlangten. Zu ihnen gehören natürlich die drei Piastenherzöge der eigenständigen Fürstentümer Schweidnitz-Jauer und ihre Frauen. Die ersten von ihnen waren Bolko I. (* um 1252- 56, + 1301) und seine Gemahlin Beatrix, die Tochter des Markgrafen von Branden- burg, die nach Bolkos Tod bis zur Volljährigkeit ihres Sohnes Bernhard im Dezember 1307 als Vormund herrschte. Der zweite Schweidnitzer Herzog war Bernhard (* um 1288-91, + 1326). Seine Gemahlin Kunigunde war die Tochter des polnischen Königs Władysław Łokietek1. Als letzter Schweidnitzer Piastenherzog regierte Bolko II., (* um 1309-12, + 1368). Nach ihm herrschte bis zu ihrem Tod 1392 seine Witwe Agnes2, die Tochter des Habsburgers Leopold I.3 Zu den berühmten Schweidnitzerinnen muss man auch drei Prinzessinnen zählen: Judith, Beatrix und Anna. Judith war eine Tochter Bolkos I. und heiratete den Wittelsbacher Stephan I.4, der in Niederbayern regierte. Ihre Schwester Beatrix heiratete Ludwig den Bayern5, wurde 1314 mit ihm in Aachen gekrönt und erhielt den Rang einer deutschen6 Königin. Sie starb 1322. Anna, die Nichte Bolkos II., war die Gemahlin Karls IV.
    [Show full text]
  • German Perceptions of Poland and Russia in the Early Modern Period George R
    Clemson University TigerPrints All Theses Theses 5-2016 German Perceptions of Poland and Russia in the Early Modern Period George R. Stevens Jr. Clemson University, [email protected] Follow this and additional works at: https://tigerprints.clemson.edu/all_theses Recommended Citation Stevens, George R. Jr., "German Perceptions of Poland and Russia in the Early Modern Period" (2016). All Theses. 2370. https://tigerprints.clemson.edu/all_theses/2370 This Thesis is brought to you for free and open access by the Theses at TigerPrints. It has been accepted for inclusion in All Theses by an authorized administrator of TigerPrints. For more information, please contact [email protected]. GERMAN PERCEPTIONS OF POLAND AND RUSSIA IN THE EARLY MODERN PERIOD A Thesis Presented to the Graduate School of Clemson University In Partial Fulfillment of the Requirements for the Degree Master of Arts History by George R. Stevens Jr. May 2016 Accepted by: Dr. Caroline Dunn, Committee Chair Dr. Michael L. Meng Dr. Michael S. Silvestri ABSTRACT This thesis examines the views of Germans on the people and institutions of Russia and the Polish-Lithuanian Commonwealth in the Early Modern period. While German opinions of Eastern Europe in the nineteenth and early twentieth centuries have been well researched, there is a gap in the historiography for the sixteenth to eighteenth centuries. German perceptions of the Polish-Lithuanian Commonwealth and Russia ranged from those who stereotyped the East as a backward, uncivilized place to be dominated or changed to those who appreciated and celebrated various aspects of Polish or Russian culture. By analyzing the views of German intellectuals, travelers, rulers and others on Russia and the Polish-Lithuanian Commonwealth, it is possible to understand the complex nature of Early Modern German views of the East before they were influenced by biologically-based racism and ethnic nationalism.
    [Show full text]