Automatic Text Summarization Using Sentence Scoring and Random Forest Algorithm
Total Page:16
File Type:pdf, Size:1020Kb
AUTOMATIC TEXT SUMMARIZATION USING SENTENCE SCORING AND RANDOM FOREST ALGORITHM SKRIPSI Oleh : LA ODE ABD. EL HAFIZH HIDAYAT NIM. 15650059 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG 2020 AUTOMATIC TEXT SUMMARIZATION USING SENTENCE SCORING AND RANDOM FOREST ALGORITHM SKRIPSI Diajukan kepada: Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang Untuk Memenuhi Salah Satu Persyaratan Dalam Memperoleh Gelar Sarjana Komputer (S.Kom) Oleh: LA ODE ABD. EL HAFIZH HIDAYAT NIM. 15650059 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG 2020 i LEMBAR PERSETUJUAN AUTOMATIC TEXT SUMMARIZATION USING SENTENCE SCORING AND RANDOM FOREST ALGORITHM SKRIPSI Oleh: LA ODE ABD. EL HAFIZH HIDAYAT NIM. 15650059 Telah Diperiksa dan Disetujui untuk Diuji Tanggal : 18 Mei 2020 Dosen Pembimbing I Dosen Pembimbing II Dr. Cahyo Crysdian Ainatul Mardhiyah, M.CS NIP. 197404242009011008 NIP. 19860330201608012075 Mengetahui, Ketua Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang Dr. Cahyo Crysdian NIP. 197404242009011008 ii LEMBAR PENGESAHAN AUTOMATIC TEXT SUMMARIZATION USING SENTENCE SCORING AND RANDOM FOREST ALGORITHM SKRIPSI Oleh: LA ODE ABD. EL HAFIZH HIDAYAT NIM. 15650059 Telah Dipertahankan di Depan Dewan Penguji dan Dinyatakan Diterima Sebagai Salah Satu Persyaratan untuk Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Tanggal : 18 Mei 2020 Susunan Dewan Penguji Tanda tangan A'la Syauqi, M.Kom 1. Penguji Utama ( ) NIP. 197712012008011007 Irwan Budi Santoso, M.Kom 2. Ketua Penguji ( ) NIP. 197701032011011004 Dr. Cahyo Crysdian 3. Sekretaris Penguji ( ) NIP. 197404242009011008 Ainatul Mardhiyah, M.CS 4. Anggota Penguji ( ) NIP. 19860330201608012075 Mengetahui, Ketua Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang Dr. Cahyo Crysdian NIP. 197404242009011008 iii iv MOTTO فَ ِاذَا َع َز ْم َت َفتَ َو َّك ْل َعلَى Jهّٰللاِ ۗ ِا َّن Jهّٰللاَ يُ ِح ُّب ْال ُمتَ َو ِّك ِل ْي َن Apabila engkau telah membulatkan tekad, maka bertawakallah kepada Allah. Sungguh, Allah mencintai orang yang bertawakal. (Penggalan QS. Ali Imran : 159) v HALAMAN PERSEMBAHAN بِ ْس ِم ّهّٰللاِ َّالر ْح ِمن َّالر ِح ْيم ْال َح ْمدُ َّهَّللِ َر ِّب ْالعَالَ ِم ْين Karya tulis ini masih jauh dari kata layak untuk dipersembahkan kepada orang-orang tersayang. Tidaklah karya ini dapat disandingkan dengan peluh keringat orangtua dalam mendidik kami. Hanyalah Allah Subhaanahu wata'ala se- baik-baik pembalas kebaikan. Insya Allah karya tulis ini adalah lembaran awal dari sebuah karya-karya besar di masa yang akan datang. vi KATA PENGANTAR Assalamualaikum Warahmatullahi Wabarakatuh. Puji syukur kehadirat Allah Subhaanahu wata'ala atas limpahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan studi serta skripsi. Tujuan dari penyusunan skripsi ini guna memenuhi salah satu syarat untuk bisa menempuh ujian sarjana komputer pada Fakultas Sains dan Teknologi (FSAINTEK) Program Studi Teknik Informatika di Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang. Didalam pengerjaan skripsi ini telah melibatkan banyak pihak yang sangat membantu dalam banyak hal. Oleh sebab itu, disini penulis sam- paikan rasa terima kasih sedalam-dalamnya kepada: 1. Prof. Dr. Abdul Haris, M.Ag selaku Rektor Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang 2. Dr. Sri Harini,M.Si, selaku Dekan Fakultas Sains dan Teknologi Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang. 3. Dr. Cahyo Crysdian, selaku Ketua Jurusan Teknik Informatika sekaligus Dosen Pembimbing I yang telah membimbing dalam penyusunan skripsi ini hingga selesai. 4. Ainatul Mardhiyah, M.CS, selaku Dosen Pembimbing II yang telah membimbing dalam penyusunan skripsi ini hingga selesai. 5. Roro Inda Melani, M.Kom, Selaku Dosen Wali yang senantiasa memberikan banyak nasihat selama menjalani masa-masa perkuliahan. vii 6. A'la Syauqi, M.Kom dan Irwan Budi Santoso, M.Kom, selaku Dosen penguji yang telah memberikan banyak saran untuk kebaikan penulis. 7. Ayah, Ibu, Kakak-kakak serta Adik-adik tercinta yang telah banyak memberikan doa dan dukungan kepada penulis hingga skripsi ini dapat terselesaikan. 8. Teman-teman seperjuangan Teknik Informatika 2015 yang senantiasa membersamai dalam perjalanan menimba ilmu. 9. Para developer open source yang telah memudahkan penulis dalam mengembangkan aplikasi penelitian. 10. Tim peneliti IndoSum yang telah menyediakan dataset untuk menunjang penelitian penulis. 11. Semua pihak yang telah banyak membantu dalam penyusunan skripsi ini yang tidak bisa penulis sebutkan semuanya. Penulis menyadari bahwa dalam penyusunan skripsi ini masih terdapat kekurangan dan penulis berharap semoga skripsi ini bisa memberikan manfaat kepada para pembaca khususnya bagi penulis secara pribadi. Malang, 18 Mei 2020 Penulis viii Table of Contents TITLE PAGE............................................................................................................i LETTER OF APPROVAL.......................................................................................ii LETTER OF VALIDITY........................................................................................iii LETTER OF AUTHENTICITY.............................................................................iv MOTTO....................................................................................................................v LETTER OF GRATITUDE....................................................................................vi PREFACE..............................................................................................................vii LIST OF FIGURES...............................................................................................xii LIST OF TABLES..................................................................................................xv ABSTRACT.........................................................................................................xvii ABSTRAK..........................................................................................................xviii xix.................................................................................................................الملخص CHAPTER I INTRODUCTION..............................................................................1 1.1 Research Background....................................................................................1 1.2 Research Question.........................................................................................3 1.3 Research Objectives......................................................................................3 1.4 Research Scope..............................................................................................4 CHAPTER II LITERATURE REVIEW..................................................................5 2.1 Automatic Text Summarization.....................................................................5 2.1.1 Sentence Scoring...................................................................................7 ix 2.1.2 Evaluation Metrics.................................................................................9 2.2 Ensemble Learning........................................................................................9 2.2.1 Bootstrap Aggregating (Bagging)........................................................12 2.2.2 Random Forest.....................................................................................15 CHAPTER III SYSTEM DESIGN AND IMPLEMENTATION...........................18 3.1 System Design.............................................................................................18 3.1.1 Dataset Customization.........................................................................19 3.1.2 System Development...........................................................................21 3.1.2.1 Preprocessing...............................................................................21 3.1.2.2 Sentence Scoring..........................................................................23 3.1.2.3 Random Forest.............................................................................27 3.2 System Implementation...............................................................................29 3.2.1 Sentence preprocessing........................................................................30 3.2.2 Sentence Weighting.............................................................................36 3.2.3 Ensemble Learning..............................................................................45 3.2.3.1 Bootstrap Aggregating.................................................................46 3.2.3.2 Random Forest.............................................................................50 3.2.4 User Interface & Database...................................................................55 CHAPTER IV RESULTS AND DISCUSSION....................................................64 4.1 Evaluation Metrics.......................................................................................64 4.2 Test Result...................................................................................................66 4.2.1 The Best Split Attribute.......................................................................66 x 4.2.2 OOB Evaluation...................................................................................68 4.2.3 System