Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására

Algoritmusok Egynyelvű És Különböző Nyelvek Közötti Fordítások És Plágiumok Megtalálására

DOI:10.15774/PPKE.ITK.2013.004 Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására doktori (Ph.D.) disszertáció Pataki Máté Témavezető: Prószéky Gábor, az MTA doktora Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar, Multidiszciplináris Műszaki Tudományok Doktori Iskola Firenze, 2011. Budapest, 2012. DOI:10.15774/PPKE.ITK.2013.004 Tartalomjegyzék 1. BEVEZETÉS ................................................................................................................................... 7 1.1. PLÁGIUM ÉS PLAGIZÁLÁS ................................................................................................................. 8 1.2. MÁSOLÁSVÉDELEM ........................................................................................................................ 9 1.3. PLÁGIUMKERESŐ RENDSZEREK ........................................................................................................ 13 1.4. PLÁGIUMKERESŐ MINT VÉDELEM .................................................................................................... 18 1.5. A JÖVŐBENI KERESŐK VÉDELME....................................................................................................... 20 2. FÉLIG ÁTLAPOLÓDÓ SZAVAS DARABOLÁS .................................................................................. 22 2.1. DARABOLÁSI ELJÁRÁSOK ISMERTETÉSE .............................................................................................. 22 2.1.1. Különböző darabolási eljárások ......................................................................................... 23 2.1.2. Keletkező töredékek mennyisége ....................................................................................... 26 2.1.3. Daraboló-eljárások az irodalomban ................................................................................... 28 2.1.4. Félig átlapolódó szavas darabolás ..................................................................................... 30 2.2. DARABOLÁSI ELJÁRÁSOK ÖSSZEHASONLÍTÁSA ..................................................................................... 33 2.2.1. Hasonlóságok kimutatása .................................................................................................. 33 2.2.2. Átlapolódó hash-kódon alapuló darabolás ........................................................................ 37 2.3. DARABOLÁSI ELJÁRÁSOK – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................................................... 39 3. TÖBBNYELVŰ DOKUMENTUM NYELVÉNEK MEGÁLLAPÍTÁSA ..................................................... 40 3.1. BEVEZETÉS .................................................................................................................................. 40 3.2. AZ EREDETI N-GRAM ALGORITMUS................................................................................................... 44 3.3. TOVÁBBFEJLESZTETT N-GRAM ALGORITMUS....................................................................................... 46 3.4. NYELVFELISMERŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................................... 50 4. ALGORITMUS FORDÍTÁSI PLÁGIUMOK KERESÉSÉRE ................................................................... 51 4.1. BEVEZETÉS .................................................................................................................................. 51 4.2. AZ ALGORITMUS KIALAKÍTÁSA ......................................................................................................... 58 4.2.1. Fordítások összehasonlítása – hasonlósági metrika .......................................................... 67 4.2.2. Implementációs döntések .................................................................................................. 70 4.2.3. A hasonlósági eredmények értelmezése ............................................................................ 79 4.3. AZ ÚJ FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS VIZSGÁLATA ................................................................ 79 4.3.1. Tesztkörnyezet kialakítása ................................................................................................. 80 4.3.2. Keresési idő csökkentése indexált kereséssel ..................................................................... 87 4.3.3. A szótár hatása a fedésre ................................................................................................... 92 4.3.4. A szótár méretének hatása a plágiumkeresésre ................................................................ 94 4.3.5. Az algoritmus eredményének értékelése ........................................................................... 99 2 DOI:10.15774/PPKE.ITK.2013.004 4.4. A HASONLÓSÁGI METRIKÁN ÉS AZ AUTOMATIKUS FORDÍTÓN ALAPULÓ ALGORITMUSOK ÖSSZEHASONLÍTÁSA . 100 4.4.1. Az n-gram paraméterek kiválasztása ............................................................................... 102 4.4.2. Angol-magyar irányú keresések összehasonlítása ........................................................... 108 4.4.3. Angol-német irányú keresések összehasonlítása ............................................................. 113 4.5. FORDÍTÁSIPLÁGIUM-KERESŐ ALGORITMUS – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ..................................... 115 5. MONDAT ALAPÚ HASONLÓSÁG- ÉS PLÁGIUMKERESÉS EGY NYELVEN BELÜL ........................... 116 5.1. BEVEZETÉS ................................................................................................................................ 116 5.2. HASONLÓSÁGI METRIKÁN ALAPULÓ ALGORITMUS TESZTELÉSE AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSÁRA 118 5.3. AZONOS NYELVŰ SZÖVEGEK ÖSSZEHASONLÍTÁSA – ÚJ EREDMÉNYEK ÖSSZEFOGLALÁSA ............................. 120 6. AZ ALGORITMUS IMPLEMENTÁLÁSA ÉS HASZNÁLATA A GYAKORLATBAN ............................... 121 6.1. BEVEZETÉS ................................................................................................................................ 121 6.2. A FELHASZNÁLÓI FELÜLET ............................................................................................................ 121 6.2.1. Dokumentum feltöltése .................................................................................................... 122 6.2.2. Dokumentum(ok) kiválasztása ......................................................................................... 122 6.2.3. Keresési lehetőségek kiválasztása .................................................................................... 123 A keresés eredménye ...................................................................................................................... 123 6.3. AZ ALGORITMUS IMPLEMENTÁLÁSÁNAK TAPASZTALATAI .................................................................... 125 7. ÖSSZEFOGLALÁS, TOVÁBBFEJLESZTÉSI LEHETŐSÉGEK .............................................................. 126 8. KÖSZÖNETNYILVÁNÍTÁS ........................................................................................................... 128 9. MELLÉKLETEK ........................................................................................................................... 129 9.1. A SZERETET HIMNUSZA HÁROM FORDÍTÁSBAN ................................................................................. 129 9.2. A BIBLIAI TESZTDOKUMENTUMOK HASONLÓSÁGAI ............................................................................ 130 9.2.1. Átlapolódó szavas darabolás ........................................................................................... 130 9.2.2. Mondatonkénti darabolás ................................................................................................ 131 9.2.3. Hash-kódon alapuló darabolás ........................................................................................ 132 9.2.4. Átlapolódó hash-kódon alapuló darabolás ...................................................................... 133 9.3. SZÖVEGTÁR: GÉPI VS. KÉZI FORDÍTÁS .............................................................................................. 134 9.3.1. Eredeti angol nyelvű Wikipédia szócikk: Johann Haller .................................................... 134 9.3.2. Kézi fordítás magyarra: Johann Haller ............................................................................. 134 9.3.3. Gépi fordítás magyarra: Johann Haller ............................................................................ 135 9.3.4. Magyar kézi fordítás visszafordítása géppel: Johann Haller ............................................ 135 9.3.5. Eredeti angol nyelvű Wikipédia szócikk: London Underground ....................................... 136 9.3.6. Kézi fordítás magyarra: London Underground ................................................................. 137 3 DOI:10.15774/PPKE.ITK.2013.004 9.3.7. Gépi fordítás magyarra: London Underground ................................................................ 138 9.3.8. Magyar kézi fordítás visszafordítása géppel: London Underground ................................ 139 9.3.9. Eredeti angol nyelvű Wikipédia szócikk: Mozartkugel ..................................................... 140 9.3.10. Kézi fordítás magyarra: Mozartkugel .......................................................................... 142 9.3.11. Gépi fordítás magyarra: Mozartkugel ......................................................................... 143 9.3.12. Magyar kézi fordítás visszafordítása géppel: Mozartkugel ......................................... 144 9.4. KÉZZEL ANGOLRÓL

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    216 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us