Network Computing Exam Paper

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών (ΕΠΥ) Venuetrack: Μια έ ξυπνη μηχανη αναζη τησης σημέι ων ένδιαφέ ροντος στη Θέσσαλονι κη μέ δυνατο τητές αξιολο γησης βα σέι αναγνω ρισης συναισθημα των σχολι ων Διπλωματική Εργασία του: Υπό την έπίβλέψη του καθηγητή: Παρασκευά Λαγάκη Ανδρέα Λ. Συμεωνίδη ΑΕΜ: 7200 Θέσσαλονίκη, Ιούνιος 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Ευχαριστίες Ξεκινώντας, οφείλω να ευχαριστήσω όσους με βοήθησαν και συνετέλεσαν στην εκπόνηση της διπλωματικής μου εργασίας: Ευχαριστώ καταρχήν θερμά τους επιβλέποντες της διπλωματικής μου εργασίας, τον καθηγητή μου κύριο Αντρέα Συμεωνίδη και τον μεταδιδακτορικό φοιτητή Κυριάκο Χατζηδημητρίου, για την συνεχή καθοδήγηση και υποστήριξή τους με γνώσεις, συμβουλές και βοήθεια όποτε χρειάστηκε. Ιδίως τους ευχαριστώ για την υπομονή και εμπιστοσύνη που επέδειξαν καθ’ όλη τη διάρκεια εκπόνησης της διπλωματικής. Ευχαριστώ πολύ τους γονείς μου για την βοήθεια που μου προσέφεραν όλα αυτά τα χρόνια, για τις συμβουλές τους, την αγάπη τους και την πίστη τους σε μένα για την εκπλήρωση των στόχων μου. Ιδίως ευχαριστώ την μικρή μου αδερφή, που στις δύσκολες και κουραστικές ημέρες ήταν εκεί για να μου φτιάξει τη διάθεση και να μου ανεβάσει το ηθικό. Τέλος, ευχαριστώ τους φίλους μου για την συμπαράσταση και τις όμορφες στιγμές που μου προσέφεραν και την υπομονή που έδειξαν. 2 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Σύνοψη Το διαδίκτυο γνωρίζει την τελευταία δεκαετία μια ραγδαία επέκταση, φτάνοντας σήμερα να χρησιμοποιείται καθημερινά από το 40% του παγκόσμιου πληθυσμού. Τα μέσα κοινωνικής δικτύωσης έπαιξαν καθοριστικό ρόλο για την ανάπτυξη αυτή, καθώς για πολλούς τα κοινωνικά δίκτυα είναι ο κύριος, αν όχι ο μοναδικός λόγος που χρησιμοποιούν το διαδίκτυο. Αυτή η έκρηξη είχε ως αποτέλεσμα την παραγωγή πολύ μεγάλων ποσοτήτων δεδομένων, η ανάλυση των οποίων αποτελεί τεράστια πρόκληση για την επιστημονική κοινότητα. Στα πλαίσια αυτά, η ανάλυση συναισθήματος και η επεξεργασία φυσική γλώσσας βρίσκονται στο κέντρο των ερευνητικών εξελίξεων, παρουσιάζοντας μεγάλο ενδιαφέρον και προσφέροντας πολλές νέες ευκαιρίες. Ιδίως μάλιστα στην Ελλάδα, όπου ακόμη η ενασχόληση με τα εν λόγω πεδία δεν είναι επαρκής. Γι’ αυτό το λόγο, η παρούσα διπλωματική εργασία καταπιάνεται με την εφαρμογή ανάλυσης συναισθήματος με μεθόδους επεξεργασίας φυσικής γλώσσας. Σκοπός αυτής της διπλωματικής, είναι η εφαρμογή ανάλυσης συναισθήματος για την αξιολόγηση σημείων ενδιαφέροντος στη Θεσσαλονίκη, βάσει σχολίων χρηστών τόσο στα αγγλικά όσο και στα ελληνικά. Τα σχόλια αυτά κατηγοριοποιούνται σε σχόλια με θετικό ή αρνητικό συναίσθημα, με βάση έναν ταξινομητή που εκπαιδεύτηκε σε αντίστοιχο σετ δεδομένων. Έτσι, τα σημεία ενδιαφέροντος, ανάλογα με την ταξινόμηση των σχολίων τους, χωρίζονται με βάση την πόλωση σε θετικά (προσφέρουν θετικές εμπειρίες), ή αρνητικά (προσφέρουν αρνητικές εμπειρίες στους χρήστες). Για την ταξινόμηση, το σύστημα που κατασκευάστηκε, εφαρμόζει διάφορες τεχνικές επεξεργασίας φυσικής γλώσσας και προεπεξεργασίας δεδομένων, και παράγει κάποια πειραματικά αποτελέσματα, που θα παρουσιαστούν στα πλαίσια αυτής της διπλωματικής εργασίας. Τέλος, το σύστημα αυτό ενσωματώνεται και χρησιμοποιείται σε μια web εφαρμογή με το όνομα Venuetrack. Το Venuetrack είναι μια έξυπνη μηχανή αναζήτησης, όπου ο χρήστης μπορεί να βρει ένα σημείο ενδιαφέροντος στο χάρτη της Θεσσαλονίκης, και να δει τις βασικές πληροφορίες του σημείου αυτού καθώς και την κριτική (θετική ή αρνητική) στην οποία κατέληξε το σύστημα ταξινόμησης που κατασκευάστηκε. Λέξεις – Κλειδιά: Ανάλυση Συναισθήματος, Επεξεργασία Φυσικής Γλώσσας, Ταξινόμηση, Naive Bayes, Μηχανή Αναζήτησης, Θεσσαλονίκη. Στοιχεία Συγγραφέα: Ο Παρασκευάς Λαγάκης είναι προπτυχιακός φοιτητής του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Διεύθυνση: Σαμακοβίου 13, 40 Εκκλησιές, 54636, Θεσσαλονίκη Email: [email protected] 3 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Abstract Author: Paraskevas Lagakis Title: Venuetrack: a smart search engine of points of interest in Thessaloniki, with evaluation capabilities based on sentiment analysis of comments. The world wide web has been rapidly expanding over the last decade, and today more than 40% of the world population is using it on a daily basis. Social media have played a very important part in this increase of the internet’s popularity, since for many people, social media is one of the few if not the only reason to go online. As a result of this explosion, large quantities of raw data have been produced, and its analysis is a huge challenge for the scientific community. In this context, sentiment analysis and natural language processing are in the center of the scientific status qwo, presenting great interest and vast new opportunities. Especially so in Greece, where these fields are still relatively evolving in a very slow pace. For that reason, this thesis tries to develop a sentiment analysis system, by using natural language processing methods. The aim of this thesis, is to apply sentiment analysis in order to evaluate points of interest (or venues) in the city of Thessaloniki, by evaluating users’ comments. These comments are categorized as positive or negative by a classifier that was developed and trained using a relevant dataset. By using the classifier to evaluate each venue’s comments, we then decide if each venue offers a positive or negative experience to the visitor. The results of this NLP system are presented in a web application named Venuetrack. Venuetrack is a smart and easy-to-use search engine for venues in the city of Thessaloniki, in which users can search for points of interest on the map of Thessaloniki, and check out their information as well as the classification of the NLP classifier created. Keywords: Sentiment Analysis, Natural Language Processing, Classification, Naive Bayes, Search Engine, Thessaloniki. Author’s Personal Information: Paraskevas Lagakis is an undergraduate student in the Faculty of Engineering, Department of Electrical and Computer Engineering of the Aristotle University of Thessaloniki, Greece. Address: Samakoviou 13, 40 Ekklisies, 54636, Thessaloniki Email: [email protected] 4 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Συντομογραφίες – Abbreviations NLP Natural Language Processing SVM Support Vector Machine PSP Positive-sentence Percentage TF‐IDF Term Frequency ‐ Inverse Document Frequency TP True Positive TN True Negative FP False Positive FN False Negative POS Part of Speech GAE Google App Engine API Application Programming Interface 5 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Περιεχόμενα Ευχαριστίες .......................................................................................................................................... 2 Σύνοψη ................................................................................................................................................. 3 Abstract ................................................................................................................................................ 4 Συντομογραφίες – Abbreviations ........................................................................................................ 5 Περιεχόμενα ........................................................................................................................................ 6 Λίστα Εικόνων ...................................................................................................................................... 9 Λίστα Πινάκων ................................................................................................................................... 10 1. Εισαγωγή ........................................................................................................................................ 11 1.1. Διαδίκτυο & Μέσα Κοινωνικής Δικτύωσης ............................................................................ 11 1.2. Σκοπός της Διπλωματικής ....................................................................................................... 11 1.3. Επισκόπηση Διπλωματικής & Οργάνωση Κεφαλαίων ........................................................... 12 2. Επισκόπηση Βιβλιογραφίας ........................................................................................................... 14 2.1. Εισαγωγή ................................................................................................................................. 14 2.2. Ανάλυση Συναισθήματος ........................................................................................................ 15 2.3. Τύποι ανάλυσης συναισθήματος ........................................................................................... 17 2.3.1. Ανάλυση Πόλωσης ........................................................................................................... 18 2.3.2. Αναγνώριση Υποκειμενικότητας/Αντικειμενικότητας..................................................... 19 2.3.3. Αναγνώριση Συναισθημάτων .......................................................................................... 20 2.4. Επίπεδα Ανάλυσης Συναισθήματος.......................................................................................

Network Computing Exam Paper

Modern Greek Dialects

Teaching the Ancients to Type: Better Unicode Text Entry for Ancient Greek

Test the Extended LGR Font Encoding Definitions

Laudio Beccari ¢

Word Processing in Classical Languages

Test-Tuenc-Greek.Tex for the Input Used in the Examples Below

Glossarium Graeco-Arabicum Linguistic Research and Database Design in Polyalphabetic Environments

Proposal for a Greek Script Root Zone Label Generation Ruleset (LGR)

Test LGR Font Encoding Definitions

A Critical Lexicostatistical Examination of Ancient and Modern Greek and Tsakonian1 N

Greece Directed and Designed by Hans Hoefer Edited by Karen Van Dyck

Keeping Greek Typography Alive Yannis Haralambous