Pengenalan Citra Dokumen Sastra Jawa Konsep Dan Implementasinya

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PENGENALAN CITRA DOKUMEN SASTRA JAWA KONSEP DAN IMPLEMENTASINYA Tesis Untuk memenuhi sebagian persyaratan mencapai derajat Sarjana S-2 Program Studi Ilmu Komputer Kelompok Bidang Ilmu Matematika dan Pengetahuan Alam Diajukan oleh: Anastasia Rita Widiarti 21189/I-4/1669/04 Kepada PROGRAM PASCASARJANA UNIVERSITAS GADJAH MADA 2006 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PERNYATAAN Dengan ini saya menyatakan bahwa dalam tesis ini tidak terdapat karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu dalam makalah ini dan disebutkan dalam daftar pustaka. Yogyakarta, 15 Desember 2005 Anastasia Rita Widiarti iii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI LEMBAR PERSEMBAHAN Tesis ini dipersembahkan kepada: Universitas Sanata Dharma Yogyakarta Universitas Gadjah Mada Yogyakarta Ibu (almarhum). Semoga Tuhan membalas semua kebaikan Ibu dengan memberi kedamaian abadi di surga Keluarga besarku, utamanya HiKaNaYa iv PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI KATA PENGANTAR Syukur yang teramat dalam penulis sampaikan kepada Tuhan Yang Maha Pengasih, sehingga pembuatan tesis yang berjudul: “Pengenalan Citra Dokumen Sastra Jawa: Konsep dan Implementasinya” ini bisa selesai. Hanya atas perkenanNya maka tesis ini dapat terwujud. Tesis ini disusun untuk memenuhi sebagian persyaratan mencapai derajat Sarjana S-2 pada Program Studi Ilmu Komputer, Jurusan Ilmu-Ilmu Matematika dan Pengetahuan Alam, Program Pascasarjana, Universitas Gadjah Mada. Pada kesempatan ini penulis juga ingin menyampaikan rasa terima kasih kepada semua pihak yang telah memberikan bantuan materi, pikiran, semangat dan doa, yaitu: 1. Bapak Drs. Retantyo Wardoyo, M.Sc., Ph.D., selaku pengelola program S-2 Ilmu Komputer, terima kasih atas bimbingan yang telah diberikan selama menempuh kuliah. 2. Bapak Drs. Agus Harjoko, M.Sc., Ph.D., selaku dosen pembimbing, terima kasih atas kesabarannya dalam membimbing penyelesaian tesis penulis. 3. Seluruh jajaran Yayasan Sanata Dharma dan Rektorat Universitas Sanata Dharma, terimakasih atas kesempatan yang sangat berharga untuk mengikuti studi lanjut ini. 4. Seluruh staff FMIPA USD, baik teman-teman dosen maupun karyawan, yang telah memberi semangat dan kesempatan untuk studi kepada penulis. 5. Mas Widodo (perpustakaan Artati USD), atas bantuannya menterjemahkan tulisan Jawa, serta semua teman karyawan di perpustakaan USD, v PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6. Mas Sugeng, Mbak Rini, dan Mas Endro, atas pelayanan yang telah penulis terima selama menempuh kuliah, 7. Seluruh keluarga besar penulis yang senantiasa mendorong penulis tanpa mengenal putus asa, Mas Antok, semua bulik dan Om, Simbah dan Eyang, serta Tika, Dena dan Alya. 8. Semua teman seperjuangan di S2 Ilkom UGM serta semua teman yang tidak dapat penulis sebut satu persatu yang selalu membawa kasih dan sukacita. Semoga kebaikan semua pihak menjadi berkat tidak hanya bagi penulis pribadi, namun juga bagi semua yang telah menyalurkan berkat tersebut untuk penulis. Dan semoga tesis ini berguna juga bagi perkembangan ilmu komputer, khususnya bidang pengolahan citra dan budaya jawa. Penulis senantiasa menyadari bahwa penulisan tesis ini masih belum sempurna, untuk itu segala saran dan kritik yang sifatnya membangun sangat penulis harapkan. Yogyakarta, 16 Desember 2005 Penulis vi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI KATA PENGANTAR ……………………………………………………... v DAFTAR ISI ……………………………………………………………….. vii DAFTAR TABEL ………………………………………………………….. x DAFTAR GAMBAR ………………………………………………………. x DAFTAR LAMPIRAN …………………………………………………….. xii INTISARI …………………………………………………………………... xiii ABSTRACT ………………………………………………………………... xiv BAB 1 PENDAHULUAN ……………………………………………… 1 1.1 Latar Belakang Masalah …………………………………… 1 1.2 Perumusan Masalah ………………………………………. 2 1.3 Batasan Masalah …………………………………………... 2 1.4 Keaslian Penelitian ………………………………………… 3 1.5 Tujuan Penelitian…………………………………………... 3 1.6 Faedah Penelitian ………………………………………….. 3 1.7 Metodologi Penelitian ……………………………………... 4 1.8 Tinjauan Pustaka …………………………………………... 6 1.9 Sistematika Penulisan ……………………………………... 7 BAB 2 LANDASAN TEORI …………………………………………… 8 2.1 Pengenalan Pola …………………………………………… 9 2.2 Analisis Citra Dokumen ………..………………………….. 9 2.2.1 Data Capture ……………………………………….. 11 2.2.2 Pengolahan Tingkat Piksel …………………………. 12 2.2.3 Analisis Tingkat Fitur ……………………………… 13 2.2.4 Analisis Teks ………………..…………………….. 13 2.3 Normalisasi Terhadap Orientasi …………………………… 14 2.4 Binarisasi ………………………………………………….. 15 2.4.1 Metode Otsu ……………………………………….. 17 2.5 Pengurangan Noise ……………………………………….. 18 vii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2.5.1 Titik-Titik Tetangga ………………………………... 20 2.6 Perangkaan ………………………………………………… 21 2.6.1 Algoritma Hilditch …………………………….…… 21 2.7 Segmentasi ………………………………………………… 24 2.7.1 Histogram Citra ……………………………………. 25 2.7.2 Profil Proyeksi ……………………………………… 25 2.8 Pengenalan Karakter ………………………………………. 26 2.8.1 Ekstraksi Ciri ………………………………………. 27 2.8.2 Langkah Klasifikasi ……………………………….. 28 BAB 3 PERANCANGAN SISTEM …………………………………… 31 3.1 Spesifikasi Sistem ……………………………………….… 31 3.1.1. Spesifikasi Sistem Pembuat Basis Data ……………. 32 3.1.2. Spesifikasi Sistem Pengenalan Citra Dokumen …….. 32 3.1.3 Proses Pengenalan Citra Karakter Dalam Citra 33 Dokumen ……………………. 3.2 Desain Sistem ……………………………………………... 33 3.2.1 Desain Struktur Data ………………………………... 34 3.2.1 Diagram Aliran Data ………………………………... 35 3.2.1.1 Diagram Aliran Data Sistem Pembuat Basis 35 Data (SPBD) ……………………………….. 3.2.1.2 Diagram Aliran Data Sistem Pengenalan 38 Citra Dokumen (SPCD) ……………………. 3.2.2 Struktur Program ………………………………….. 45 3.2.3 Desain Antar Muka ……………………………….. 47 BAB 4 IMPLEMENTASI SISTEM…………………. ………………… 49 4.1 Antar Muka Pemakai Sistem …………………………….. 49 4.1.1 Antar Muka Pemakai Sistem Pembuat Database …. 49 4.1.2 Antar Muka Pemakai Sistem Pengenal Citra 51 Dokumen ………………………………………….. 4.2 Implementasi …………………………………………….. 53 4.2.1 Modul-Modul Utama Sistem Pembuat Basis Data ... 53 viii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4.2.2 Modul-modul Utama Sistem Pengenalan Citra 57 Dokumen …………………………………………… BAB 5 HASIL DAN PEMBAHASAN ………………………………… 72 5.1 Data Masukan ……………………………………………... 72 5.2 Eksekusi Modul-Modul ……………………………………. 72 5.3 Analisis Output Pengenalan Karakter ……………………... 83 BAB 6 KESIMPULAN DAN SARAN ………………………………… 92 6.1 Kesimpulan ………………………………………………... 92 6.2 Saran ……………………………………………………….. 93 DAFTAR PUSTAKA ……………………………………………………… 94 Lampiran 1. Antar Muka Pemakai Sistem Pengenal Citra Dokumen ……... 96 Lampiran 2. Implementasi Prosedur Dalam Desain Sistem ………..…….. 98 Lampiran 3. Data Dokumen Panji Sekar …………………………..……... 122 ix PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR TABEL Tabel 5.1. Karakteristik File Masukan …………………………………….. 72 Tabel 5.2. Hasil Proses Pengenalan Karakter Dokumen Menak Sorangan I 78 Halaman 3 ..................................................................................….... Tabel 5.3. Contoh Sebagian karakter dalam database karakter Jawa …….... 79 Tabel 5.4. Hasil Proses Pembentukan Kata ................................................. 82 Tabel 5.5. Tabel Karakter Dikenali Dokumen Menak Sorangan I 85 Halaman 3 ......................................................................................... Tabel 5.6. Tabel Karakter Dikenali Dokumen Menak Sorangan I 86 Halaman 4 ......................................................................................... Tabel 5.7. Analisis Output Pengenalan Citra Dokumen Menak Sorangan I 88 Hal. 3.................................................................................................. Tabel 5.8. Analisis Output Pengenalan Citra Dokumen Menak Sorangan I 89 Hal. 4.................................................................................................. Tabel 5.9. Rangkuman Hasil Analisis Output Program .............................. 91 DAFTAR GAMBAR Gambar 1.1 Bagan Proses Analisis Citra Dokumen “Menak Sorangan” .. 4 Gambar 2.1 Hirarki Pemrosesan Dokumen. ............................................... 10 Gambar 2.2 Langkah-langkah Proses Analisis Dokumen .......................... 11 Gambar 2.3. Perputaran citra dengan sudut θ ............................................. 14 x PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Gambar 2.4. Ilustrasi dari karakter na dengan salt-and-pepper noise ........ 19 Gambar 2.5. Ilustrasi piksel yang mempunyai 8 titik tetangga .................. 20 Gambar 2.6. Contoh citra karakter pra sebelum dan sesudah dikenai thin- 21 ning ......................................................................................... Gambar 2.7. Bagian dari sebuah citra ......................................................... 22 Gambar 2.8. Contoh piksel dengan B(PI)<2 dan B(PI)>6 ......................... 23 Gambar 2.9. Contoh piksel dengan A(PI) ≠ 1 ............................................ 23 Gambar 2.10. Contoh piksel dengan P2=P4=P8=1 atau 0 dan A(P2) = 1 24 atau ≠ 1 ................................................................................. Gambar 2.11. Contoh piksel dengan P2 = P4 = P8 ≠ 0 atau 0 dan A(P4) = 1 24 atau ≠ 1 ................................................................................. Gambar 2.12. Profil proyeksi horisontal dan vertikal ................................. 26 Gambar 2.13. Ilustrasi perhitungan ciri karakter jawa: Tarung .................. 28 Gambar 3.1 Gambaran Umum Tujuan Sistem ...........................................

Pengenalan Citra Dokumen Sastra Jawa Konsep Dan Implementasinya

From Arabic Style Toward Javanese Style: Comparison Between Accents of Javanese Recitation and Arabic Recitation

Ka И @И Ka M Л @Л Ga Н @Н Ga M М @М Nga О @О Ca П

M. Ricklefs an Inventory of the Javanese Manuscript Collection in the British Museum

Ahom Range: 11700–1174F

Yi Syllables Range: A000–A48F

Balinese Romanization Table

The Wili Benchmark Dataset for Written Natural Language Identification

Lepcha Range: 1C00–1C4F

G. Drewes the Struggle Between Javanism and Islam As Illustrated by the Serat Dermagandul

Gunjala Gondi Range: 11D60–11DAF

The Unicode Standard, Version 3.0, Issued by the Unicode Consor- Tium and Published by Addison-Wesley

Handley Etal 2014 Pb