Algoritm De Traducere În Limba Română Pentru Terminologia Histologica Și
Total Page:16
File Type:pdf, Size:1020Kb
Universitatea de Medicină și Farmacie “Carol Davila”, București Facultatea de Medicină LUCRARE DE LICENŢĂ “Algoritm de traducere în limba română pentru Terminologia Histologica și utilitare de mentenanță pentru un vocabular controlat” Coordonator științific: Conf. Univ. Dr. Luminița Iliuță Îndrumător: Asist. Univ. Dr. Marius Rac-Albu Absolvent Loredana Cîrstea 2014 DECLARAŢIE Subsemnata Loredana Cîrstea, absolventă a Facultăţii de Medicină din cadrul Universității de Medicină și Farmacie “Carol Davila,”, București, declar pe propria răspundere că lucrarea de licenţă cu titlul „Algoritm de traducere în limba română pentru Terminologia Histologica și utilitare de mentenanță pentru un vocabular controlat” este rezultatul muncii mele, pe baza cercetărilor mele şi pe baza informaţiilor obţinute din surse, inclusiv de pe Internet, care au fost citate şi indicate, conform normelor etice, în note şi în bibliografie. Declar că nu am folosit în mod tacit sau ilegal munca altora şi că nici o parte din lucrare nu încalcă drepturile de proprietate intelectuală ale cuiva, persoană fizică sau juridică. Declar că lucrarea nu a mai fost prezentată sub această formă vreunei instituţii de învăţământ superior din ţară sau străinătate în vederea obţinerii unui grad sau titlu ştiinţific ori didactic. București, 01.09.2014 Absolvent Loredana Cîrstea Cuprins Introducere ………………………………………………………………….. 5 Capitolul 1 - Transformarea mediului online într-un instrument științific de vizualizare, structurare și analiză a datelor …………………………………. 9 1.1. Conceptul de Semantic Web …………………………………………. 9 1.2. Software Liber și Date Deschise - bază pentru dezvoltarea cercetării științifice ……………………………………………………………… 11 1.3. Ontologii și computabilitate - bază pentru Semantic Web …………… 14 Capitolul 2 - O privire spre viitorul unei medicini computabile ……………. 17 Capitolul 3 - Ontologii medicale ……………………………………………. 19 3.1. Proiecte internaționale existente și în curs de dezvoltare …………….. 19 3.2. Ontologii și terminologii morfologice umane ………………………... 21 3.3. Terminologia Histologica și computabilitatea intrinsecă …………….. 24 Capitolul 4 - Limbajul R în cercetarea științifică și necesitatea computabilității calitative …………………………………………………… 26 Capitolul 5 - Alegerea temei ………………………………………………… 27 Capitolul 6 - Materiale și metode …………………………………………… 29 6.1. Ipoteză ………………………………………………………………… 29 6.2. Intenție ………………………………………………………………… 29 6.3. Materiale ………………………………………………………………. 30 6.4. Metode ………………………………………………………………… 34 Capitolul 7 – Rezultate ………………………………………………………. 45 7.1. Analiza lexicală a termenilor românești utilizați ……………………… 45 7.2. Rezultatele algoritmului de creare automată a corespondențelor dintre cuvintele latine și cele în limba română prin metoda distanței Levenshtein …………………………………………………………..... 46 7.3. Rezultatele algoritmului de creare automată a unei traduceri computabile în limba română prin metoda distanței Levenshtein …….. 47 7.4.Compararea variantelor de traducere ………………………………….. 48 Capitolul 8 - Discuții ………………………………………………………… 60 8.1. Interpretarea rezultatelor ……………………………………………… 60 8.2. Observații și discuții pe marginea celor 500 de concepte histologice … 61 8.2.1. Probleme legate de termenii oficiali ai Terminologia Histologica .. 61 8.2.2. Probleme legate de inconsecvența cuvintelor folosite în traducerile din limba română ………………………………………………… 61 8.2.3. Probleme legate de diferențele semantice dintre sensul latin și sensul în limba română ………………………………………….. 62 8.2.4. Probleme legate de definirea diferită a conceptelor în TH versus limba română ……………………………………………………... 62 8.2.5. Probleme legate de folosirea preponderentă a eponimelor în publicațiile românești …………………………………………….. 63 8.2.6. Probleme legate de multitudinea formelor utilizate în limba română ……………………………………………………………. 64 8.2.7. Probleme legate de lipsa de diferențiere pe concepte ale unor termeni identici ca formă …………………………………………. 64 8.3. Interpretare personală a potențialului de computabilitate pentru termenii histologici ……………………………………………………... 65 8.3.1. Criterii de computabilitate a termenilor …………………………... 65 8.3.2. Limba latină - limbă computabilă ………………………………… 66 8.3.3. Efectele computabilității …………………………………………. 67 8.4. Recomandări de extensie ………………………………………………. 68 Concluzii ……………………………………………………………………… 69 Bibliografie …………………………………………………………………… 70 Anexa 1 ……………………………………………………………………….. 77 Anexa 2 ……………………………………………………………………….. 94 Anexa 3 ……………………………………………………………………….. 94 Anexa 4 ……………………………………………………………………….. 95 Anexa 5 ……………………………………………………………………….. 96 Cuvinte cheie …………………………………………………………………. 97 Introducere Scopul prezentei lucrări este acela de a oferi un instrument de utilizare și menținere a Terminologia Histologica (TH), publicată de Federația Internațională a Asociațiilor de Anatomiști (International Federation of Associations of Anatomists - IFAA) (19), într-un format de tip vocabular controlat, contribuind la dezvoltarea proceselor de analiză calitativă a datelor și de indexare a acestora pe entitățile descrise. Pentru demonstrarea procesului, lucrarea de față propune de asemenea, o abordare lingvistico-funcțională pentru traducerea semi-automată a termenilor latini din TH în limba română, utilizând un lot de 500 de concepte. Conceptele au fost traduse utilizând termeni- sinonime din cinci publicații românești. A fost utilizată metoda Levenshtein pentru calcularea diferențelor dintre două șiruri de caractere, în scopul comparării termenilor și cuvintelor, pentru alegerea celui mai potrivit din punct de vedere al computabilității și pentru realizarea corespondențelor automate dintre cuvintele latine și cele în limba română după extragerea acestora din termeni. Motorul de traducere Google Translate1 a fost folosit în crearea a patru variante de traducere bazale și în procesul de creare automată a corespondențelor dintre cuvinte, fiind cel mai dezvoltat și accesibil utilitar de acest gen. Algoritmul va fi prezentat în integralitate în cadrul subcapitolului 6.4. Metode. Variantele de traducere rezultate au fost comparate calculând gradul de computabilitate și eficiență. Instrumentul de mentenanță, analiză și utilizare al ontologiei alcătuite astfel este creat în limbajul R pentru analize statistice (39), folosind interfața RStudio2. Adițional, lucrarea furnizează recomandări pentru crearea ontologiilor folosind computabilitatea morfo-semantică, în vederea realizării unui sistem automat de detectare a relațiilor dintre termeni. Lucrarea de față nu își propune prezentarea unei traduceri perfecte în limba română a celor 500 de termeni, ci dorește mai degrabă să accentueze necesitatea integrării principiilor semantice computaționale în procesul creării acestei traduceri perfecte - ce rămâne în sarcina histologilor și a lingviștilor. În concluzie, scopul lucrării este cel de a aduce în prim plan recomandările (internaționale și personale ) și tendințele bioinformaticii semantice, cu înfățișarea unui instrument de facilitare a întreținerii terminologiilor din punct de vedere computațional și semantic. 1 https://translate.google.com/ 2 http://www.rstudio.com/products/rstudio/download/ 5 Obiectivele generale sunt prezentarea contextului internațional referitor la conceptul de Semantic Web, împreună cu dezvoltarea bioinformaticii semantice, trecerea în revistă a proiectelor existente sau în curs de dezvoltare din aceste domenii, prezentarea standardelor folosite pentru alcătuirea ontologiilor, relevarea aplicațiilor și efectelor ce decurg din dezvoltarea bioinformaticii semantice, prezentarea terminologiei internaționale oficiale pentru domeniul histologiei și citologiei așa cum este astăzi, propunerea alinierii acestei terminologii la standardele bioinformaticii semantice, propunerea unor standarde semantice complementare dar specifice domeniului histologic, acătuirea unui utilitar de mentenanță și utilizare a unei ontologii (set de primitive reprezentaționale precum atribute, clase, relații între membrii claselor etc., prin care se modelează un domeniu de cunoaștere (16)) în limbajul R, cu demonstrarea unui algoritm de traducere semi-automată în limba română a TH bazată pe standarde de computabilitate (500 de concepte din cei 4254 ai TH), compararea computabilității acesteia cu variante obținute prin alte metode de traducere automată și cu traducerea uzuală în limba română a termenilor histologici echivalenți - așa cum sunt utilizați în prezent în mod nestandardizat -, demonstrarea eficienței și computabilității variantei personale de traducere, deschiderea acesteia către peer-review cu transformarea tuturor datelor în date deschise. Prelucrarea și analizarea datelor s-a realizat folosind limbajul R. În plus, lucrarea de față conține drept rezultat un pachet de cod în limbajul R care asigură managementul terminologiei. Acest instrument este primul de acest gen, oferind posibilitatea unei analize calitative a termenilor științifici și indexarea datelor prelucrate în R pe un vocabular controlat. Printre obiectivele adiționale ale prezentei lucrări se numără și prezentarea unui mod de lucru transparent pentru activitățile academice de cercetare, ce include trecerea la date deschise și realizarea unei integrări a științei medicale cu noțiunile de prelucrare a informației cu ajutorul sistemelor automate de calcul, integrare ce cade în domeniul bioinformaticii semantice în acest caz. Motivația alegerii acestei teme este legată de dorința îmbinării științelor medicale cu informatica, de posibilitatea creării unui sistem realmente utilizabil pentru dezvoltarea bioinformaticii semantice în domeniul