Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization
Total Page:16
File Type:pdf, Size:1020Kb
10 Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization Molouk Sadat Hosseini Beheshti PhD in General Linguistics; Assistant Professor; Iranian Research Institute for Information Science and Technology (IranDoc); Tehran, Iran; Corresponding Auther [email protected] Hadi Abdi Ghavidel Msc. Graduate in Computational Linguistics; Sharif University of Technology; Tehran, Iran [email protected] Received: 26, Jan. 2016 Accepted: 2, Aug. 2016 Abstract: One of the most primary phases of automatic text processing is spelling error detection and grapheme normalization. Storing textual Iranian Research Institute for Science and Technology documents faces several problems without passing this phase, which ISSN 2251-8223 causes a disturbance in retrieving the documents automatically. Therefore, eISSN 2251-8231 specialists in the fields of natural language processing and computational Indexed by SCOPUS, ISC, & LISTA linguistics usually make an attempt to sample various data through Vol. 32 | No. 4 | pp. 1143-1170 presenting ideal methods and algorithms in order to reach the normalized Summer 2017 data. Several researches have been conducted on English and some other languages, which have been followed by a certain amount of researches on Farsi too. Sometimes, these several researches have remained to be a pure study and sometimes they have been released as a product. This paper carries out the categorization of the different methods and essential datasets in these researches and depicts each category individually and the evaluation measurements methods generally. Moreover, it describes the performance of the monolingual Farsi systems and the way they meet the Farsi challenges. Keywords: Spelling Error Detection, Grapheme Normalization, Categorization of the Methods, Monolingual Farsi Systems, Farsi Language Challenges xiii طبقه بندی انواع دادگان مورد نياز و روش های خطايابی و استانداردسازی متنی ملوک السادات حسينی بهشتی دكتری زبان شناسی همگانی؛ استاديار؛ پژوهشگاه علوم و فناوري اطﻻعات ايران )اي رانداک(؛ پديدآور رابط [email protected] هادی عبدی قويدل كارشناسی ارشد زبان شناسی رايانشی؛ دانشگاه صنعتی شريف [email protected] دريافت: 06/11/1394 پذيرش: 12/05/1395 مقاله برای اصﻻح به مدت 31 روز نزد پديدآوران بوده است. | چكيــده: يکــی از پايه ایتريــن مراحــل پــردازش خودكار متــن، تشــخیص خطاهای فصلنامه علمی پژوهشی پژوهشگاه علوم و ّفناوری اطﻻعات ايران امﻻيــی و استانداردســازی نويسه هاســت. بــدون گــذر از ايــن مرحلــه، ذخیرهســازی شاپا )چاپی( 2251-8223 مســتندات متنــی بــا مشــکﻻت متعــددی مواجــه شــده و موجــب اختــﻻل در بازيابــی شاپا )الكترونيكی( 2251-8231 نمايه در ISC ،LISTA، و SCOPUS ماشــینی آن هــا می گــردد. بدين ترتیــب، متخصصــان حوزه هــای پــردازش زبــان jipm.irandoc.ac.ir طبیعــی و زبانشناســی رايانشــی همــواره در تــﻻش هســتند تــا بــا ارائــة روش هــا و دورۀ 32 | شمارۀ 4 | ص ص 1170-1143 الگوريتم هــای مطلــوب انــواع داده هــا را در بوتــة پــردازش قــرار داده و بــه داده ای تابستان 1396 اســتاندارد دســت يابنــد. در زبــان انگلیســی و برخــی زبان هــای ديگــر، تحقیقــات متعــددی در ايــن زمینــه انجــام شــده و بهدنبــال آن زبــان فارســی نیــز در ايــن زمینــه مــورد تحقیــق قــرار گرفتــه اســت. ايــن تحقیقــات متعــدد گاهــی در حــد پژوهــش بــه قــوت خــود باقــی مانــده و گاهــی نیــز در قالــب محصــول عرضــه شــده اســت. مقالــة حاضــر بــه طبقه بنــدی انــواع روش هــا و دادگان مــورد نیــاز در ايــن تحقیقــات پرداختــه و فراينــد هــر كــدام از آن هــا را بهطــور خــاص و نحــوة ســنجش میــزان دقــت پــردازش آنهــا را بهطــور عــام شــرح می دهــد. در ايــن مقالــه همچنیــن، نحــوة عملکــرد ســامانه های تکزبانــة فارســی توصیــف شــده و بــه نحــوة برخــورد آنهــا بــا چالش هــای زبــان فارســی اشــاره می گــردد. کليدواژه هــا: تشــخیص خطاهــای امﻻيــی، استانداردســازی نويســه ها، طبقهبنــدی روشهــا، ســامانه های تکزبانــة فارســی، چالش هــای زبــان فارســی 1143 تابستان 1396 | دورة 32 | شمارة 4 1. مقدمه نــگارش متــن همــواره دســتخوش ســلیقههای مختلفــی در طــول تاريــخ بــوده اســت. هیــچ گاه بــر ســر اي نكــه كــدام حالــت نوشــتاری درســت اســت و كــدام غلــط، اتفــاق نظــر كاملــی وجــود نداشــته و تنــوع نــگارش در انــواع متــون بهوفــور ديــده میشــود. گرچــه تنــوع نگارشــی را شــايد حاصــل خﻻقیــت ذهنــی بشــر بدانیــم، امــا ايــن خﻻقیــت پــردازش ماشــینی متــن را بــا چالش هــای متعــددی روبــه رو می كنــد و دقــت پــردازش دادههــا را بــه میــزان چشــمگیری كاهــش میدهــد. در كنــار تنــوع نگارشــی، غلط هــای ســهوی امﻻيــی نیــز وجــود دارد كــه فحــوای متــن را منحــرف كــرده و ماشــین را از انجــام پردازش هــای دقیــق در حوزههايــی نظیــر ترجمــة ماشــینی، پــردازش و تشــخیص گفتــار، بازيابــی اطﻻعــات و غیــره بازمــی دارد. بدي نترتیــب، متخصصــان حوزههــای پــردازش زبــان طبیعــی و زبانشناســی رايانشــی همــواره ســعی دارنــد كــه بــا ارائــة روش هــا و آزمايــش الگوري تمهــای دادهكاوی و پاﻻيــش داده بــه تشــخیص غلط هــای امﻻيــی بپردازنــد و نوي ســههای متنــی را اســتاندارد كننــد. در ايــن صــورت، اســتانداردترين ِمتــن ممکــن بــر طبــق معیارهــای زبانشــناختی توســط ماشــین دريافــت شــده و بــه تبــع آن، محصول هــای دقیقتــری نیــز از نظــر پايايــی و روايــی توســط ماشــین تولیــد میشــود. از طريــق مــاژول استانداردســازی مــواردی ماننــد نــوع نوشــتن تاريــخ، حــروف فارســی و عربــی، فاصلــه و نیمفاصلــه، خــط تیــره، عﻻئــم نگارشــی و كاربردهــای متنــوع آنهــا، واحدهــای اندازه گیــری مثــل كیلوگــرم و kg و يــا ک.گ.، اعــداد )به صــورت حروفــی و عــددی(، فاصلــة حاشــیة پاراگراف هــا و در نهايــت، ســاختار بخشهــای مختلــف مســتندات نظیــر مقــاﻻت و صفحــات وب در سرتاســر دادگان متنــی همگــن و يکنواخــت میشــوند. از طريــق مــاژول خطايابــی امﻻيــی، انــواع خطاهــای امﻻيــی غیرعمــدی شناســايی میشــوند. ايــن خطاهــا را »ژورافســکی و جیمــز« چنیــن طبقهبنــدی كرده انــد: الــف. خطاهــای غیركلمــه ای1: در ايــن نــوع خطاهــا، كلمــة صحیــح بــه كلمــة ناموجــود در فرهنــگ لغــت يــک زبــان تبديــل میشــود؛ ماننــد: مرســه )امــﻻی غلــط كلمــة مدرســه(، المــا )امــﻻی غلــط كلمــة امــﻻ( ب. خطاهــای كلمــه ای2: در ايــن نــوع خطاهــا، دو كلمــه بــه لحــاظ شــباهت امﻻيــی و شــناختی 1. non-word 2. real-word 1144 طبقه بندی انواع دادگان مورد نیاز و روش های خطایابی و استانداردسازی متنی | حسینی بهشتی و عبدی قویدل )آوايــی( بهطــور غلــط جابه جــا می شــوند؛ ماننــد شــعر و شــر )امﻻيــی( و ماننــد ثــواب و صــواب )شــناختی( )Jurafsky and James 2009(. وجــود انبــوه داده در زبان هــای مختلــف، پژوهشــگران متخصــص در علــوم زبانشناســی رايانشــی و پــردازش زبــان طبیعــی را بــر آن داشــته تــا در مســیر خودكارســازی استانداردســازی و خطايابــی دادههــای متنــی گام بردارنــد. تنهــا دلیــل ايــن امــر را میتــوان در صــرف وقــت و هزينــة زيــاد در عملیــات پیش پــردازش داده يافــت. بدي نترتیــب، در زبــان انگلیســی و برخــی زبان هــای ديگــر نظیــر عربــی، چینــی و عبــری، تحقیقــات متعــددی در زمینــة ســاخت استانداردســاز و خطايــاب انجــام شــده اســت و بهدنبــال آن زبــان فارســی نیــز در ايــن زمینــه مــورد تحقیــق قــرار گرفتــه اســت. بســیاری از ايــن تحقیقــات گاه در قالــب پژوهــش آزمــون و خطــا انجــام شــده و گاه در قالــب محصــول تجــاری در بــازار بین الملــل عرضــه شــده اســت. هیچ كــدام از تحقیقــات انجامشــده بهدقــت 100 درصــد نرســیده اســت و بســیاری از پژوهشــگران، اكنــون نیــز بــه ســاختن استانداردســاز و خطايــاب مشــغول هســتند. از ايــن رو، بررســی نحــوة ســاخت داده و همچنیــن، روش هــای انجامشــده می توانــد بهعنــوان مرجعــی هدايتگــر بــرای پژوهشــگران حــال حاضــر عمــل كــرده و مســیر استانداردســازی و خطايابــی متــن را تبییــن نمايــد. در ايــن مقالــه ســعی داريــم ايــن تحقیقــات متعــدد را در قالــب دادگان مــورد نیــاز و روش هــا طبقهبنــدی كــرده و بــه شــرح فراينــد هــر كــدام بهطــور خــاص و نحــوة ســنجش میــزان دقــت پــردازش آن هــا بهطــور عــام بپردازيــم. همچنیــن، قصــد داريــم چالشهــای زبــان فارســی را نیــز طبقهبنــدی كنیــم و نحــوة عملکــرد ســامانه های تک زبانــة فارســی را در راســتای چالشهــای زبــان فارســی شــرح دهیــم. 2. دادگان مورد نياز و روش های خطايابی و استانداردسازی متن 2-1. دادگان مورد نياز در ايــن بخــش بــه طبقه بنــدی انــواع داده و ســاختار آن بــرای استانداردســازی و خطايابــی متنــی می پردازيــم. جــدول 1، بــه ايــن داده هــا و انــواع ســاختار آن اشــاره می كنــد. 1145 تابستان 1396 | دورة 32 | شمارة 4 جدول 1. انواع داده و ساختار آن داده ساختار داده پیکره پیکرة موازی پیکرة غلط فرهنگ لغت فرهنگ لغت نمايه گذاری نشده فرهنگ لغت نمايه گذاری شده در ادامه، هر كدام از انواع داده های موجود در جدول 1، تشريح می شود. 2-1-1. پيكره 2-1-1-1. پيكــرۀ مــوازی1: پیکرههــا ی مــوازی مناســب بــرای انجــام استانداردســازی و خطايابــی، از جمــﻻت درســت و غلــط همترازشــده متشــکل هســتند كــه بــا بهكارگیــری الگوريتم هــای حــوزة ترجمــة ماشــینی آمــوزش داده شــده و قابــل اســتفاده میباشــند )Schlippe et al. 2010(. 2-1-1-2. پيكــرۀ غلــط2: ايــن نــوع پیکــره از مجموعــة متونــی جمــعآوری میشــود كــه به طــور طبیعــی دارای غلــط امﻻيــی هســتند. معروفتريــن ايــن نــوع پیکــره، پیکــرة انگلیســی »بیركبــک«3 دانشــگاه آكســفورد و همچنیــن، مجموعــة غلطهــای امﻻيــی »پیتــر نورويــگ«4 اســت كــه از »ويکی پديــا« و »بیركبــک« اســتخراج شــده اســت. پیکــرة »بیركبــک« دارای 36133 شــکل ِغلــط 6136 كلمــة انگلیســی از گروه هــای ســنی مختلــف اســت. 2-1-2. فرهنگ لغت5 2-1-2-1. فرهنــگ لغــت نمايه گذارینشــده: فرهنــگ لغت هايــی كــه بهطــور بهینــه نمايه گــذاری نشــده باشــند، در زمــرة ايــن گروه هــا قــرار می گیرنــد. اين گونــه فرهنــگ لغت هــا، در كارهــای پردازشــی حجیــم بــه هیچوجــه قابل اســتفاده نیســتند. 2-1-2-2. فرهنــگ لغــت نمايه گذاری شــده: ايــن نــوع فرهنــگ لغتهــا بــا توجــه بــه نــوع تحقیــق و يــا نرمافــزاری كــه در آن بــهكار مــی رود، نمايه