Open Domain Factoid Question Answering Systems
Total Page:16
File Type:pdf, Size:1020Kb
OPEN DOMAIN FACTOID QUESTION ANSWERING SYSTEM TEK YANITLI SORULAR İÇİN AÇIK ALANLI SORU YANITLAMA SİSTEMİ Farhad SOLEIMANIAN GHAREHCHOPOGH Prof.Dr. İlyas ÇİÇEKLİ Supervisor Submitted to Institute of Graduate School in Science and Engineering of Hacettepe University as a Partial Fulfillment to the Requirements for the Award of the Degree of Doctor of Philosophy in Computer Engineering 2015 ETHICS In this thesis study, prepared in accordance with the spelling rules of Institute of Graduate School in Science and Engineering of Hacettepe University, I declare that all the information and documents have been obtained in the base of the academic rules all audio-visual and written information and results have been presented according to the rules of scientific ethics in case of using other Works, related studies have been cited in accordance with the scientific standards all cited studies have been fully referenced I did not do any distortion in the data set And any part of this thesis has not been presented as another thesis study at this or any other university. 10 September 2015 FARHAD SOLEIMANIAN GHAREHCHOPOGH ABSTRACT OPEN DOMAIN FACTOID QUESTION ANSWERING SYSTEM Farhad SOLEIMANIAN GHAREHCHOPOGH Doctor of Philosophy, Department of Computer Engineering Supervisor: Prof.Dr. İlyas ÇİÇEKLİ September 2015, 237 pages Question Answering (QA) is a field of Artificial Intelligence (AI) and Information Retrieval (IR) and Natural Language Processing (NLP), and leads to generating systems that answer to questions natural language in open and closed domains, automatically. Question Answering Systems (QASs) have to deal different types of user questions. While answers for some simple questions can be short phrases, answers for some more complex questions can be short texts. A question with a single is known as a factoid question, and a question answering system that deals with factoid questions is called a factoid QAS. In this thesis, we present a factoid QAS that consists of three phases: question processing, document/passage retrieval, and answer processing. In the question processing phase, we consider a new two- level category structure using machine learning techniques to generate search engine from user questions queries. Our factoid QAS uses the I World Wide Web (WWW) as its corpus of texts and knowledge base in document/passage retrieval phase. Also, it is a pattern-based QAS using answer pattern matching technique in answer processing phase. We also present a classification of existing QASs. The classification contains early QASs, rule based QASs, pattern based QASs, NLP based QASs and machine learning based QASs. Also, our factoid QAS uses two-level category structure which included 17 coarse-grained and 57 fine-grained Categories. The system utilizes from category structure in order to extract answers of questions consists of 570 questions originated from TREC-8, TREC-9 questions as training dataset and 570 other questions and TREC-8, TREC-9, and TREC-10 questions as testing datasets. In our QAS, the query expansion step is very important and it affects the overall performance of our QAS. When an original user question is given as a query, the amount of retrieved relevant documents may not be enough. We present an automatic query expansion approach based on query templates and question types. New queries are generated from query templates of question categories and the category of a user question is found by a Naïve Bayes classification algorithm. New expanded queries are generated by filling gaps in query templates with two appropriate phrases. The first phrase is the question type phrase and it is found directly by the classification algorithm. The second phrase is the question phrase and it is detected from possible question templates by a Levenshtein distance algorithm. Query templates for question types are created by analyzing possible questions in those question types. We evaluated our query expansion approach with two-level category structure with factoid question type’s include in TREC-8, TREC-9 and TREC-10 conference datasets. The results of our automatic query expansion approach outperform the results of manual query expansion approach. II After automatically learning answer patterns by querying the web, we use answer pattern sets for each question types. Answer patterns extracts answers from retrieved related text segments, and answer pattern can be generalization with Named Entity Recognition (NER). The NER is a sub-task of Information Extraction (IE) in answer processing phase and classifies terms in the textual documents into redefined categories of interest such as location name, person name, date of event and etc. The ranking of answers is based on frequency counting and Confidence Factor (CF) values of answer patterns. The results of the system show that our approach is effective for question answering and it accomplishes 0.58 values Mean Reciprocal Rank (MRR) for our corpus fine-grained category class, 0.62 MRR values for coarse-grained category structure and 0.55 MRR values for evaluation by testing datasets on TREC-10. The results of the system have been compared with other QASs using standard measurement on TREC datasets. Keywords: Question Answering Systems, Natural Language Processing, Machine Learning, Pattern Matching, Factoid Question. III ÖZET TEK YANITLI SORULAR İÇİN AÇIK ALANLI SORU YANITLAMA SİSTEMİ Farhad SOLEIMANIAN GHAREHCHOPOGH Doktora, Bilgisayar Mühendisliği Bölümü Danişman: Prof. Dr. İlyas ÇİÇEKLİ Eylül 2015, 237 Sayfa Soru Yanıtlama (SY), Yapay Zeka (YZ), Bilgi Tarama (IR) ve Doğal Dil İşleme (DDİ) bilim dalıdır ve doğal dil içerisindeki açık ve kapalı çalışma alanlarında soruları yanıtlayan sistemleri oluşturmayı otomatik olarak beraberinde getirir. Soru Yanıtlama Sistemleri (SYS) çeşitli kullanıcı sorularına değinmek durumundadır. Bazı basit sorulara verilen cevaplar kısa cümlecikler olurken, daha karmaşık sorular için verilen cevaplar kısa metinler olabilir. Basit cevaplı bir soru tek yanıtlı soru olarak tanımlanır ve tek yanıtlı sorularla ilgilenen soru cevaplama sistemine de tek yanıtlı SYS denir. Bu Tezde, üç aşamadan oluşan tek yanıtlı SYS sunmaktayız: soru işleme, metin tarama ve cevap işleme. Soru işleme aşamasında, otomatik öğrenme teknikleri kullanarak kullanıcıların sorguladıkları sorulardan arama motoru elde etmek için yeni bir iki-aşamalı kategori yapısı ele almaktayız. Tezimizde yer alan tek yanıtlı SYS, metinler IV üzerinde temel yapı olarak internet kullanmakta ve metin tarama aşamasında bilgi odaklı tarama yapmaktadır. Bu aynı zamanda, cevap işleme aşamasında cevap kalıbını eşleştirme tekniği kullanarak şablona dayalı bir SYS’dır. Buna ek olarak, mevcut SYS’lerin sınıflandırmasını da sunmaktayız. Bu sınıflandırma, erken SYS’ler, kurala dayalı SYS’ler, şablona dayalı SYS’ler, NLP odaklı SYS’ler ve otomatik öğrenmeye dayalı SYS’ler gibi olguları kapsar. Kullandığımız tek yanıtlı SYS, aynı zamanda, 17 kaba- taneli ve 57 ince-taneli kategoriyi içeren iki aşamalı kategori yapısı kullanır. Bu sistem, TREC-8 ve TREC-9’dan ilham alınan 570 soru ile eğitilip ve 570 diğer sorular, TREC-8, TREC-9 , ve TREK-10 verilerile test edilmiştir. SYS’mizde, sorguyu genişletme aşaması oldukça önemlidir ve genel olarak tüm performansı etkiler. Orijinal bir kullanıcı sorusu sorgulanmak üzere verildiğinde, elde edilen uygun dökümanlar yeterli olmayabilir. Bu durumda, sorgu şablonları ve soru tiplerine dayanan otomatik sorgu genişletme yaklaşımı sunmaktayız. Yeni sorgular, soru kategorilerinin sorgu şablonlarından elde edilir ve kullanıcı sorusunun kategorisi Naïve Bayes sınıflandırma algoritması tarafından bulunur. Genişletilmiş yeni sorgular, sorgu örüntüdaki boşlukları iki uygun sözcük öbeği ile doldurarak elde edilir. İlk öbek soru tipi öbeğidir ve doğrudan sınıflandırma algoritması tarafından bulunur. İkinci öbek soru öbeğidir ve olası soru şablonlarından Levenshtein uzaklık algoritması ile saptanır. Soru tipleri için sorgu şablonları, o soru tipleri içindeki olası soruları analiz ederek oluşturulur. Bu tezde, sorgu genişletme yaklaşımımızı TREC-8, TREC-9 ve TREC-10 konferans verilerinde yer alan tek yanıtlı soru tipleriyle iki aşamalı değerlendirmekteyiz. Otomatik sorgu genişletme yaklaşımımızın sonuçları elle yapılan sorgu genişletme yaklaşımı sonuçlarından daha iyi çıkmaktadır. Ağı sorgulayarak cevap kalıplarını otomatik olarak öğrendikten sonra, her soru tipi için cevap kalıbı gruplarını kullanmaktayız. Cevap kalıpları, V ilgili metin bölümlerinden bulunan cevapları çekip alır ve bu cevap kalıbı Adlandırılmış Varlık Onayı (AVO) ile genellenebilir. AVO, cevap işleme aşamasındaki Bilgi Taramanın (BT) ikincil işidir ve metinsel dökümanlardaki terimleri yer ismi, kişi ismi, olay tarihi, vb gibi yeniden tanımlanmış kategoriler içerisinde sınıflandırır. Cevapların sıralanması, cevap kalıplarındaki frekans hesabı ve Güvenirlik Faktörü (GF) değerlerine bağlıdır. Sistemin sonuçları, yaklaşımımızın soru cevaplama için etkili olduğunu ve temel ince-taneli kategori sınıfımız için 0.58 Ortalama Karşılıklı Sıra (OKS) değeri, kaba-taneli kategori yapısı için 0.62 OKS değeri ve TREC- 10 üzerinde veri kümelerini test ederek yapılan değerlendirme için 0.55 OKS değeri elde ettiğini gösteriyor. Sistemin sonucu, TREC veri kümeleri üzerinde standart ölçme kullanarak diğer SYS’ler ile kıyaslanmıştır. Anahtar Kelimeler: Soru Yanıtlama Sistemleri, Doğal Dil İşleme, Makine Öğrenmesi, Örüntü Eşleştirme, Tek Yanıtlı Soru. VI ACKNOWLEDGMENT I would like to express my special appreciation and thanks to my