Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására

Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására DOI:10.15774/PPKE.ITK.2013.004 Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására doktori (Ph.D.) disszertáció Pataki Máté Témavezető: Prószéky Gábor, az MTA doktora Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar, Multidiszciplináris Műszaki Tudományok Doktori Iskola Firenze, 2011. Budapest, 2012. DOI:10.15774/PPKE.ITK.2013.004 Tartalomjegyzék 1. BEVEZETÉS ................................................................................................................................... 7 1.1. PLÁGIUM ÉS PLAGIZÁLÁS ................................................................................................................. 8 1.2. MÁSOLÁSVÉDELEM ........................................................................................................................ 9 1.3. PLÁGIUMKERESŐ RENDSZEREK ........................................................................................................ 13 1.4. PLÁGIUMKERESŐ MINT VÉDELEM .................................................................................................... 18 1.5. A JÖVŐBENI KERESŐK VÉDELME....................................................................................................... 20 2. FÉLIG ÁTLAPOLÓDÓ SZAVAS DARABOLÁS .................................................................................. 22 2.1. DARABOLÁSI ELJÁRÁSOK ISMERTETÉSE .............................................................................................. 22 2.1.1. Különböző darabolási eljárások ......................................................................................... 23 2.1.2. Keletkező töredékek mennyisége ....................................................................................... 26 2.1.3. Daraboló-eljárások az irodalomban ................................................................................... 28 2.1.4. Félig átlapolódó szavas darabolás ..................................................................................... 30 2.2. DARABOLÁSI ELJÁRÁSOK ÖSSZEHASONLÍTÁSA ..................................................................................... 33 2.2.1. Hasonlóságok kimutatása .................................................................................................. 33 2.2.2. Átlapolódó hash-kódon alapuló darabolás ........................................................................ 37 2.3. DARABOLÁSI ELJÁRÁSOK – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................................................... 39 3. TÖBBNYELVŰ DOKUMENTUM NYELVÉNEK MEGÁLLAPÍTÁSA ..................................................... 40 3.1. BEVEZETÉS .................................................................................................................................. 40 3.2. AZ EREDETI N-GRAM ALGORITMUS................................................................................................... 44 3.3. TOVÁBBFEJLESZTETT N-GRAM ALGORITMUS....................................................................................... 46 3.4. NYELVFELISMERŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................................... 50 4. ALGORITMUS FORDÍTÁSI PLÁGIUMOK KERESÉSÉRE ................................................................... 51 4.1. BEVEZETÉS .................................................................................................................................. 51 4.2. AZ ALGORITMUS KIALAKÍTÁSA ......................................................................................................... 58 4.2.1. Fordítások összehasonlítása – hasonlósági metrika .......................................................... 67 4.2.2. Implementációs döntések .................................................................................................. 70 4.2.3. A hasonlósági eredmények értelmezése ............................................................................ 79 4.3. AZ ÚJ FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS VIZSGÁLATA ................................................................ 79 4.3.1. Tesztkörnyezet kialakítása ................................................................................................. 80 4.3.2. Keresési idő csökkentése indexált kereséssel ..................................................................... 87 4.3.3. A szótár hatása a fedésre ................................................................................................... 92 4.3.4. A szótár méretének hatása a plágiumkeresésre ................................................................ 94 4.3.5. Az algoritmus eredményének értékelése ........................................................................... 99 2 DOI:10.15774/PPKE.ITK.2013.004 4.4. A HASONLÓSÁGI METRIKÁN ÉS AZ AUTOMATIKUS FORDÍTÓN ALAPULÓ ALGORITMUSOK ÖSSZEHASONLÍTÁSA . 100 4.4.1. Az n-gram paraméterek kiválasztása ............................................................................... 102 4.4.2. Angol-magyar irányú keresések összehasonlítása ........................................................... 108 4.4.3. Angol-német irányú keresések összehasonlítása ............................................................. 113 4.5. FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................... 115 5. MONDAT ALAPÚ HASONLÓSÁG- ÉS PLÁGIUMKERESÉS EGY NYELVEN BELÜL ........................... 116 5.1. BEVEZETÉS ................................................................................................................................ 116 5.2. HASONLÓSÁGI METRIKÁN ALAPULÓ ALGORITMUS TESZTELÉSE AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSÁRA 118 5.3. AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSA – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................. 120 6. AZ ALGORITMUS IMPLEMENTÁLÁSA ÉS HASZNÁLATA A GYAKORLATBAN ............................... 121 6.1. BEVEZETÉS ................................................................................................................................ 121 6.2. A FELHASZNÁLÓI FELÜLET ............................................................................................................ 121 6.2.1. Dokumentum feltöltése .................................................................................................... 122 6.2.2. Dokumentum(ok) kiválasztása ......................................................................................... 122 6.2.3. Keresési lehetőségek kiválasztása .................................................................................... 123 A keresés eredménye ...................................................................................................................... 123 6.3. AZ ALGORITMUS IMPLEMENTÁLÁSÁNAK TAPASZTALATAI .................................................................... 125 7. ÖSSZEFOGLALÁS, TOVÁBBFEJLESZTÉSI LEHETŐSÉGEK .............................................................. 126 8. KÖSZÖNETNYILVÁNÍTÁS ........................................................................................................... 128 9. MELLÉKLETEK ........................................................................................................................... 129 9.1. A SZERETET HIMNUSZA HÁROM FORDÍTÁSBAN ................................................................................. 129 9.2. A BIBLIAI TESZTDOKUMENTUMOK HASONLÓSÁGAI ............................................................................ 130 9.2.1. Átlapolódó szavas darabolás ........................................................................................... 130 9.2.2. Mondatonkénti darabolás ................................................................................................ 131 9.2.3. Hash-kódon alapuló darabolás ........................................................................................ 132 9.2.4. Átlapolódó hash-kódon alapuló darabolás ...................................................................... 133 9.3. SZÖVEGTÁR: GÉPI VS. KÉZI FORDÍTÁS .............................................................................................. 134 9.3.1. Eredeti angol nyelvű Wikipédia szócikk: Johann Haller .................................................... 134 9.3.2. Kézi fordítás magyarra: Johann Haller ............................................................................. 134 9.3.3. Gépi fordítás magyarra: Johann Haller ............................................................................ 135 9.3.4. Magyar kézi fordítás visszafordítása géppel: Johann Haller ............................................ 135 9.3.5. Eredeti angol nyelvű Wikipédia szócikk: London Underground ....................................... 136 9.3.6. Kézi fordítás magyarra: London Underground ................................................................. 137 3 DOI:10.15774/PPKE.ITK.2013.004 9.3.7. Gépi fordítás magyarra: London Underground ................................................................ 138 9.3.8. Magyar kézi fordítás visszafordítása géppel: London Underground ................................ 139 9.3.9. Eredeti angol nyelvű Wikipédia szócikk: Mozartkugel ..................................................... 140 9.3.10. Kézi fordítás magyarra: Mozartkugel .......................................................................... 142 9.3.11. Gépi fordítás magyarra: Mozartkugel ......................................................................... 143 9.3.12. Magyar kézi fordítás visszafordítása géppel: Mozartkugel ......................................... 144 9.4. KÉZZEL ANGOLRÓL
