PENGENALAN CITRA DOKUMEN AKSARA BATAK DENGAN METODE HIDDEN MARKOV MODELS
SKRIPSI
RIFANDI INDRAYUDHA PRAWIRA 131402081
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2018
Universitas Sumatera Utara PENGENALAN CITRA DOKUMEN AKSARA BATAK DENGAN METODE HIDDEN MARKOV MODELS
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
RIFANDI INDRAYUDHA PRAWIRA 131402081
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2018
Universitas Sumatera Utara ii
Universitas Sumatera Utara
Universitas Sumatera Utara iii
Universitas Sumatera Utara
Universitas Sumatera Utara iv
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada :
1. Bapak Prof. Runtung Sitepu, SH., M.Hum selaku Rektor Universitas Sumatera Utara. 2. Bapak Prof. Dr. Opim Salim Sitompul selaku Dekan Fasilkom-TI USU. 3. Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. 4. Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Dosen Pembimbing I yang telah memberikan bimbingan dan saran kepada penulis. 5. Bapak Ivan Jaya, S.Si., M.Kom selaku Dosen Pembimbing II yang telah memberikan bimbingan dan saran kepada penulis. 6. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini. 7. Bapak Dedy Arisandi, ST., M.Kom selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini. 8. Ayahanda Fahril Syafhaniz dan Ibunda Delia Herlinawati yang selalu memberikan doa, kasih sayang, nasehat, dan dukungan yang tiada putusnya kepada penulis. 9. Kedua adik saya Rinaldi Adithya Nugraha dan Rizky Adiaksa Putra yang selalu memberikan semangat kepada penulis . 10. Keluarga besar Haholongan, Hengky Wijaya, S.Kom., Afin Zaky S.Kom., Fadhil Ramadhan (S.Kom.), Arfan Rahmat S.Kom., Odysius Budhistiani Anwar (S.Kom.), Elsa Trida Sawitri S.Kom., Inu Wulandari S.Kom., Khadija Rina (S.Kom.), Regania Pascha Raschy S.Kom., Chintya Dwi Hevlima S.Kom., Enno Putri Syah Alami S.Kom., dan Suci Dwi Nur, S.Kom. yang menampung segala
Universitas Sumatera Utara
Universitas Sumatera Utara v
hal cerita baik senang, bahagia, sedih, memberikan nasehat selama kuliah dan sebagai saudara yang berbeda orangtua. 11. Bachtiar Muhammad Lubis (S.Kom.), Nandar Cholid Siregar S.Kom., Mhd.Arif Rahman (S.Kom.), Lisa Noprianti Siregar S.Kom, Tuti Simanjuntak S.Kom, teman seperjuangan skripsi aksara Batak yang memberikan dukungan dan semangat kepada penulis. 12. Teman - teman D’Element yang telah memberikan semangat serta berbagi suka dan duka sejak SMP. 13. Sahabat dan saudara Ali Malindo Rajafad S.Kom yang selalu memberikan semangat dan dukungan kepada penulis. 14. Bapak Manguji Nababan selaku dosen dan kepala Pusat Dokumentasi Pengkajian Kebudayaan Batak (PD&PKB) Universitas Nommensen Medan yang telah bersedia memberikan pengajaran aksara Batak dan memberikan data penelitian kepada penulis. 15. Teman-teman Kom A 2013 yang telah memberikan semangat dan dukungan kepada penulis. 16. Teman-teman Teknologi Informasi USU terkhusus angkatan 2013, abangnda dan kakanda angkatan 2012 yang juga memberikan semangat kepada penulis. 17. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu persatu yang telah membantu penyelesaian skripsi ini.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.
Medan, 23 Juli 2018
Penulis
Universitas Sumatera Utara
Universitas Sumatera Utara vi
ABSTRAK
Pengenalan tulisan tangan aksara batak masih dilakukan secara manual dan hanya pakar sajalah yang dapat membaca aksara tersebut. Oleh karena itu, maka diperlukan sebuah sistem untuk mengenali dokumen aksara batak. Sistem ini dibangun dengan menerapkan metode Hidden Markov Models (HMM). Dokumen aksara batak yang telah di scan dengan ekstensi .jpg digunakan sebagai input citra digital. Kemudian pre-processing image dilakukan agar dokumen batak dapat lebih mudah dikenali lalu hasil output sistem akan berupa file dokumen dengan ekstensi .docx yang berisi font aksara batak. Berdasarkan pengujian sistem background pada citra, ukuran huruf aksara dan tidak adanya data training pada dokumen yang dikenali sangat berpengaruh pada tingkat keberhasilan sistem dalam mengenali aksara batak. Metode Hidden Markov Models (HMM) mampu untuk mengenali dokumen aksara batak dengan tingkat keberhasilan sebesar 98.45%.
Kata kunci : Optical Charachter Recognition, aksara Batak, Image Processing, Hidden Markov Models (HMM).
Universitas Sumatera Utara
Universitas Sumatera Utara vii
BATAK SCRIPT DOCUMENT IMAGE RECOGNITION USING HIDDEN MARKOV MODELS METHOD
ABSTRACT
The regocnition of handwriting in the Batak script is still done manually and only experts can read the script. Therefore, a system is needed to identify the Batak script documents. This system was built by applying the Hidden Markov Models (HMM) method. Documents for the Batak script that have been scanned with the .jpg extension are used as digital image input. Then the pre-processing image is done so that the batak document can be more easily recognized then the system output will be a document file with the extension .docx containing the font of the Batak script. Based on testing the system background in the image, the letter size of letters and the absence of training data on the documents identified are very influential on the level of success of the system in recognizing the Batak characters. The Hidden Markov Models (HMM) method is able to recognize the Batak script document with a success rate of 98.45%.
Keyword : Optical Charachter Recognition, Batak script, Image Processing, Hidden Markov Models (HMM).
Universitas Sumatera Utara
Universitas Sumatera Utara viii
DAFTAR ISI
Hal. PERSETUJUAN ii PERNYATAAN iii UCAPAN TERIMA KASIH iv ABSTRAK vi ABSTRACT vii DAFTAR ISI viii DAFTAR TABEL xi DAFTAR GAMBAR xii BAB 1 PENDAHULUAN 1.1 Latar Belakang 1 1.2 Rumusan Masalah 2 1.3 Batasan Masalah 2 1.4 Tujuan Penelitian 2 1.5 Manfaat Penelitian 3 1.6 Metodologi Penelitian 3 1.7 Sistematika Penulisan 4
BAB 2 LANDASAN TEORI 2.1 Aksara 5 2.1.1. Asal Usul Aksara Batak 5 2.1.2. Aksara Batak Karo 6 2.1.3. Aksara (Surat) Batak 7 2.2 Definisi Citra 10 2.3 Jenis Citra 11 2.3.1. Citra Analog 11 2.3.2. Citra Digital 11 2.4 Format File Citra 12
Universitas Sumatera Utara
Universitas Sumatera Utara ix
2.4.1. Format Data Bitmap 13 2.4.2 Format JPEG 14 2.5 Karakteristik File Citra 15 2.5.1. Image Resolution 15 2.5.2. Bit Dept 15 2.6 Citra Warna 16 2.6.1. Mode Warna 16 2.6.2. Pembacaan Nilai Piksel Setiap Sub Image 19 2.7 Pengolahan Citra 19 2.8 Optical Character Recognition (OCR) 20 2.9 Ekstrasi Fitur 20 2.9.1. Modified Direction Feature 20 2.10 Metode Hidden Markov Model 21 2.11 Penelitian Terdahulu 24
BAB 3 ANALISIS DAN PERANCANGAN 3.1 Analis 28 3.1.1. Data Yang Digunakan 28 3.1.2. General Architecture 30 3.1.3. Flowchart Pengenalan Aksara dengan metode HMM 32 3.1.4. Algoritma Hidden Markov Models 33 3.2 Perancangan 33 3.2.1. Perancangan Unified Modelling Language (UML) 34 3.2.2. Use Case Diagram 34 3.2.3. Activity Diagram 34 3.2.4. Perancangan Antarmuka (User interface) 38 3.2.4.1 Rancangan Menu Utama 38 3.2.4.2 Rancangan Pengenalan 40 3.2.4.3 Rancangan Help 40 3.2.4.4 Rancangan About 41
BAB 4 IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Tampilan Antarmuka 42 4.1.1. Tampilan Utama 42
Universitas Sumatera Utara
Universitas Sumatera Utara x
4.1.2. Tampilan Pengenalan Aksara Karo 43 4.1.3. Tampilan Pengenalan Aksara Mandailing 45 4.1.4. Tampilan Pengenalan Aksara Simalungun 46 4.1.5. Tampilan Pengenalan Aksara Toba 47 4.1.5. Tampilan Pengenalan Aksara Pakpak 48 4.2 Pengujian Sistem 49
BAB 5 KESIMPULAN DAN SARAN 5.1 Kesimpulan 53 5.2 Saran 54
DAFTAR PUSTAKA 55
LAMPIRAN 57
Universitas Sumatera Utara
Universitas Sumatera Utara xi
DAFTAR TABEL
Hal.
Tabel 2.1. Aksara Suku Batak 9 Tabel 2.2. Hubungan antara bit per piksel dengan jumlah warna maksimum pada bitmap 14 Tabel 2.3. Hubungan Antara Kedalaman Warna Dan Resolusi Warna 16 Tabel 2.4. Penelitian Terdahulu 26 Tabel 3.1 Dokumen Aksara Batak 29 Tabel 4.1. Hasil Pengujian Sistem 52
Universitas Sumatera Utara
Universitas Sumatera Utara xii
DAFTAR GAMBAR
Hal.
Gambar 2.1. Silsilah Aksara 7 Gambar 2.2. Aksara 8 Gambar 2.3. Kordinat Pada Grafik Matematika 10 Gambar 2.4. Koordinat Pada Citra 11 Gambar 2.5. Proses Sampling dan Kuantisasi 12 Gambar 2.6. Kombinasi Warna RGB 17 Gambar 2.7. Kombinasi Warna CMYK 18 Gambar 2.8. Proses Pengolahan Citra 19 Gambar 2.9. Markov Model 22 Gambar 2.10. Representasi Parameter HMM 23 Gambar 2.11. Flowchart training HMM 24 Gambar 3.1. General Architecture 31 Gambar 3.2. Flowchart Pengenalan 32 Gambar 3.3. Use case Diagram 34 Gambar 3.4. Activity Diagram Menu Utama 35 Gambar 3.5. Activity Diagram Pengenalan 36 Gambar 3.6. Activity diagram Help 37 Gambar 3.7. Activity diagram About 38 Gambar 3.8. Rancangan Menu Utama 39 Gambar 3.9. Rancangan Pengenalan 40 Gambar 3.10. Rancangan Help 41 Gambar 3.11. Rancangan About 41 Gambar 4.1. Tampilan Menu 43 Gambar 4.2. Tampilan Pengenalan Aksara Karo 44 Gambar 4.3. Tampilan Hasil Pengenalan Aksara Karo 44 Gambar 4.4. Tampilan Pengenalan Aksara Mandailing 45 Gambar 4.5. Tampilan Hasil Pengenalan Aksara Mandailing 45
Universitas Sumatera Utara
Universitas Sumatera Utara xiii
Gambar 4.6. Tampilan Pengenalan Aksara Simalungun 46 Gambar 4.7. Tampilan Hasil Pengenalan Aksara Simalungun 46 Gambar 4.8. Tampilan Pengenalan Aksara Toba 47 Gambar 4.9. Tampilan Hasil Pengenalan Aksara Toba 47 Gambar 4.10. Tampilan Pengenalan Aksara Pakpak 48 Gambar 4.11. Tampilan Hasil Pengenalan Aksara Pakpak 48 Gambar 4.12. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Karo 49 Gambar 4.13. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Mandailing 49 Gambar 4.14. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Simalungun 50 Gambar 4.15. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Toba 50 Gambar 4.16. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak 51
Universitas Sumatera Utara
Universitas Sumatera Utara 1
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Indonesia merupakan negara dengan berbagai macam budaya. Budaya-budaya tersebut antara lain seperti bahasa, lagu, tarian serta masih banyak lagi. Selain bahasa yang beraneka ragam untuk setiap daerah, huruf yang digunakan pada setiap bahasa juga berbeda. Salah satu bahasa yang memiliki huruf yang unik adalah bahasa Batak. Huruf yang digunakan dalam bahasa Batak bukan huruf latin dan biasa disebut dengan aksara Batak. Penggunaan aksara Batak saat ini sudah dimulai ditinggalkan oleh masyarakat Batak. Orang Batak yang mengerti bentuk-bentuk aksara Batak sudah sangat sedikit. Usaha-usaha untuk melestarikan aksara tersebut sudah ada namun mengalami kendala, salah satunya adalah kurangnya alat bantu untuk mengakomodasi pemikiran-pemikiran yang menggunakan aksara Batak. Oleh karena itu, penerapan pada teknologi diperlukan sebagai salah satu upaya pelestarian budaya Batak khususnya aksara Batak dimana teknologi ini dapat mengenali aksara Batak melalui sebuah citra seperti arsip budaya Batak yang telah di-scan dan mengubahnya ke dalam file teks. Pengenalan pola huruf dengan klasifikasi Hidden Markov Models (HMM) telah digunakan pada penelitian-penelitian sebelumnya terutama pengenalan pola huruf Arab. Pengenalan pola huruf merupakan bagian dari bidang pembelajaran mesin yang mencoba memanfaatkan karakteristik unik pada karakter untuk dapat dinyatakan dalam serangkaian objek pengamatan, kemudian dikenali oleh suatu sistem. Beberapa penelitian dalam bidang pengenalan wajah juga telah dilakukan, namun sebagian besar penelitian hanya fokus pada deteksi salah satu ciri wajah saja. Inti dari sistem deteksi pada huruf yang cacat ini terdiri dari tahapan ekstraksi ciri dan klasifikasi. Untuk tahap klasifikasi digunakan Hidden Markov Models (HMM) yang telah diimplementasikan pada beberapa kasus pengenalan karakter menggunakan akuisisi
Universitas Sumatera Utara
Universitas Sumatera Utara 2
citra secara online maupun offline dalam proses klasifikasinya. HMM merupakan sebuah model statistik, dimana model sistem diasumsikan sebagai Markov proses dengan parameter yang tersembunyi. Tujuannya adalah untuk menentukan parameter- parameter yang dapat diamati. Adapun proses pengenalannya dilakukan dengan mencari karakter yang memberikan peluang terbesar terhadap kemunculan urutan pengamatan tersebut pada model HMM. Dengan melihat latar belakang diatas maka penulis mengangkat judul penelitian ini dengan Pengenalan Citra Dokumen Aksara Batak dengan Metode Hidden Markov Models.
1.2 Rumusan Masalah
Masalah yang akan dibahas adalah bagaimana sistem dapat melakukan pengenalan tulisan tangan aksara batak dan berapa % keakuratan pengenalan dokumen dengan menggunakan metode Hidden Markov Models.
1.3 Batasan Masalah
Pada penelitian ini yang menjadi batasan masalah adalah: 1. Sistem yang dibangun berbasis desktop. 2. Dokumen yang diinput hasil scan dokumen asli yang berformat citra (JPG). 3. Jenis aksara yang dibahas adalah Batak Karo, Simalungun, Mandailing, Pakpak serta Toba. 4. Output aplikasi berupa dokumen yang berformat docx.
1.4 Tujuan Penelitian
Adapun tujuan penelitian ini adalah mengenali citra atau gambar aksara Batak dan mengubahnya dalam bentuk dokumen yang berformat docx dengan metode Hidden Markov Models.
Universitas Sumatera Utara
Universitas Sumatera Utara 3
1.5 Manfaat Penelitian
Manfaat penelitian ini adalah: 1. Pengguna dapat lebih mudah memahami aksara Batak yang ditulis tangan dan dapat mengubahnya dalam bentuk file teks. 2. Pembaca dapat lebih memahami cara kerja metode Hidden Markov Models.
1.6 Metodologi Penelitian
Dalam penelitian ini ada beberapa tahapan yang dilakukan, yaitu : 1. Data Collection Penelitian ini dimulai dengan melakukan pengumpulan data, yaitu proses pengambilan data sebagai bahan referensi baik dari buku, artikel, jurnal, makalah, situs internet yang berkaitan dengan penelitian. 2. Data Preparation Pada tahap ini dilakukan persiapan data yang sudah dikumpulkan untuk bahan masukkan aplikasi komputer. 3. Analisis dan Perancangan Sistem Pada tahap ini dilakukan analisis tentang pengolahan citra, metode Hidden Markov Models dalam pengenalan aksara Batak serta perancangan antar muka aplikasi. 4. Pengujian Pada tahap ini dilakukan pengujian sistem yang telah dibuat apakah sitem tersebut berjalan sesuai dengan apa yang diinginkan. 5. Implementasi Sistem Pada tahap ini sistem yang telah dirancang kemudian diimplementasikan untuk pengenalan dokumen aksara Batak. 6. Dokumentasi Data yang telah diperoleh dengan aplikasi tersebut disimpan dalam bentuk dokumen atau laporan sebagai bahan referensi tugas akhir.
Universitas Sumatera Utara
Universitas Sumatera Utara 4
1.7 Sistimatika Penulisan
BAB 1 : PENDAHULUAN Pada bab ini merupakan bagian yang berisi mengenai latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, serta sistematika penulisan. BAB 2 : LANDASAN TEORI Bab ini akan membahas teori-teori yang berhubungan dengan pokok pembahasan dalam penelitian ini. Pada bab ini akan dijelaskan tentang landasan teori tentang pengolahan citra, aksara Batak, metode Hidden Markov Models serta penelitian terdahulu.
BAB 3 : ANALISIS DAN PERANCANGAN
Bab ini membahas mengenai metode pengenalan aksara Batak menggunakan metode Hidden Markov Models, flow chart sistem serta perancangan antar muka aplikasi.
BAB 4 : IMPLEMENTASI DAN PENGUJIAN SISTEM
Pada bab ini berisi tentang hasil koding pengenalan aksara Batak menggunakan metode Hidden Markov Models serta hasil pengujian terhadap parameter yang digunakan. BAB 5 : KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan hasil rancangan aplikasi yang telah dibuat dan disertai dengan saran yang diberikan oleh penulis apabila aplikasi ini ingin dikembangkan lebih lanjut.
Universitas Sumatera Utara
Universitas Sumatera Utara 5
BAB 2 LANDASAN TEORI
2.1 Aksara
Aksara adalah sebuah simbolisasi visual yang tertera pada media tulis berupa kertas, kayu, bambu, daun, batu, logam dan media prasasti lainnya. Simbol visual difungsikan untuk mengutarakan ataupun menterjemahkan unsur-unsur ekspresif dari suatu bahasa lisan menjadi tulisan, dengan ketentuan disepakati dan dimengerti oleh para penggunanya. Di Indonesia terdapat beragam macam bentuk aksara yang mewakili setiap daerahnya masing-masing. Aksara di Indonesia kebanyakan dipengaruhi oleh bentuk aksara dari India. Ini berawal semenjak mulai masuknya penyebaran agama Hindu-Budha ke Indonesia.
2.1.1 Asal Usul Aksara Batak Keterangan tentang asal usul aksara batak ini merujuk penelitian Kozok, 1999. Dalam buku Warisan Leluhur dan sastra lama, surat Batak sering diklasifikasikan sebagai sebuah silabogram, namun ini jelas keliru karena aksara Batak sebagaimana juga aksara-aksara lainnya di Nusantara merupakan bagian dari rumpun tulisan Brahmi (India) yang lebih tepat dapat diklasifikasikan sebagai abugida (paduan antara silabogram dan abjad). Sebuah abugida terdiri dari aksara yang melambangkan sebuah konsonan sementara vokal dipasang pada aksara sebagai diakritik. Abugida adalah jenis tulisan yang bersifat fonetis dalam arti bahwa setiap bunyi bahasanya dapat dilambangkan secara akurat. Paleografi adalah ilmu tentang tulisan-tulisan kuno. Dibanyak masyarakat yang mengenal tulisan terdapat naskah-naskah kuno yang umurnya dapat mencapai ratusan atau bahkan ribuan tahun. Aksara yang terdapat pada naskah-naskah kuno pada umumnya berbeda dengan aksara yang terdapat dalam naskah yang lebih baru. Dengan cara memperbandingkan aksara-akasara yang terdapat dalam naskah-naskah lama, kita dapat menyusun semacam silsilah aksara.
Universitas Sumatera Utara
Universitas Sumatera Utara 6
Sebagian besar sistem tulisan yang ada di Afrika, Eropa, dan Asia berasal dari satu sumber, yakni aksara Semit kuno yang menjadi nenek moyang tulisan-tulisan Asia (Arab, Ibrani dan India) maupun Eropa (Latin, Yunani dsb.) Aksara Batak termasuk keluarga tulisan India. Aksara India yang tertua adalah aksara Brahmi yang menurunkan dua kelompok tulisan yakni India Utara dan India Selatan. Aksara Nagari dan Palawa masing-masing berasal dari kelompok utara dan selatan dan kedua-duanya pernah dipakai diberbagai tempat Asia Tenggara, termasuk Indonesia (Casparis 1975). Yang paling berpengaruh adalah aksara Palawa. Semua tulisan asli Indonesia berinduk pada aksara tersebut. Pada Gambar 2.1 dapat dilihat dimana secara garis besar tempatnya aksara Batak dalam silsilah tulisan sedunia. Aksara batak terbagi lagi atas wilayahnya masing-masing, yaitu Angkola Mandailing, Simalungun, Pakpak Dairi, Toba dan Karo. Dari setiap aksara Batak ini memiliki bentuk aksara yang hampir sama, yang membedakannya hanya pada cara pengucapan, bahasa dan beberapa bentuk yang berbeda. Aksara Batak Karo merupakan salah satu aksara Batak yang ada di daratan tinggi tanah Karo.
2.1.2 Aksara Batak Karo
Aksara Batak Karo adalah salah satu aksara kuno yang ada di Indonesia. Aksara Batak Karo ini merupakan peninggalan budaya dari masyarakat (etnis) Karo yang berbentuk tulisan simbol-simbol yang dimiliki olehmasyarakat Karo kuno. Tulisan atau aksara Batak Karo ini tumbuh dan berkembang di masyarakat (etnis) Karo serta tersebar luas. Aksara Batak Karo digunakan dan diajarkan pada wilayah daerah Karo yang dahulunya meliputi pesisir timur di Sumatera bagian Utara dan daratan tinggi Karo yang terbentang luas di atas pegunungan bukit Barisan. Aksara Batak Karo sama halnya dengan aksara-aksara Batak yang lainnya, karena pada aksara terdapat kumpulan dari tanda-tanda (karakter/simbol-simbol) yang memiliki arti untuk menyatakan sesuatu dan pemakaiannya dimengerti dan disepakati oleh masyarakat penggunanya. Dahulu, aksara Batak Karo digunakan masyarakat Batak Karo sebagai alat untuk berkomunikasi, menuliskan ramuan obat, mantera dan cerita-cerita. Masyarakat Batak Karo menuliskan aksara Batak Karo pada kulit kayu, tulang dan bambu. Alat untuk menulisnya terbuat dari bambu atau kayu yang ujungnya
Universitas Sumatera Utara
Universitas Sumatera Utara 7
diruncingkan sehingga menyerupai seperti pena atau pensil, dan tintanya terbuat dari minyak kayu yang dibakar.
2.1.3 Aksara (Surat) Batak Surat Batak sering diklasifikasikan sebagai sebuah silabogram, namun ini jelas keliru karena aksara Batak sebagaimana juga aksara-aksara lainnya di Nusantara merupakan bagian dari rumpun tulisan Brahmi (India) yang lebih tepat dapat diklasifikasikan sebagai abugida (paduan antara silabogram dan abjad). Sebuah abugida terdiri dari aksara yang melambangkan sebuah konsonan sementara vokal dipasang pada aksara sebagai diakritik. Abugida adalah jenis tulisan yang bersifat fonetis dalam arti bahwa setiap bunyi bahasanya dapat dilambangkan secara akurat (Kozok, 2017). Aksara Batak termasuk keluarga tulisan India. Aksara India yang ter•tua adalah aksara Brahmi yang menurunkan dua kelompok tulisan yakni In•dia Utara dan India Selatan. Aksara Nagari dan Palawa masing-masing ber•asal dari kelompok utara dan selatan dan kedua-duanya pernah dipakai di berbagai tem•pat di Asia Tenggara, termasuk Indonesia (Casparis, 1975). Yang paling berpengaruh adalah aksara Palawa. Semua tulisan asli Indonesia berinduk pada aksara tersebut.
Universitas Sumatera Utara
Universitas Sumatera Utara 8
Gambar 2.1 Silsilah Aksara Sumber: Uli Kozok, 2017 Surat Batak terdiri dari 19 ina ni surat dan 5 anak ni surat. Abjadnya mempunyai beberapa urutan, salah satunya dipakai dalam gambar sebelah kiri. Urutan lain adalah: a ha ma na ra ta sa pa la ga ja da nga ba wa ya nya i u
Di samping itu masih ada beberapa versi urutan abjad yang lain. Sebagaimana halnya dengan semua aksara keturunan India maka Surat Batak juga terdiri dari aksara yang selalu berakhir dengan vokal a, dan tanda diakritis yang dalam bahasa Batak disebut anak ni surat. Jumlah anak ni surat bervariasi dan di Toba berjumlah enam. Keenam anak ni surat digunakan untuk mengubah ina ni surat dengan a. menggantikan nilai /a/ yang melekat pada setiap aksara dengan vokal /ə/ (e- pepet ini hanya terdapat di Karo & Pakpak), /e/, /i/, /o/, atau /u/. b. dengan menambahkan bunyi sengau /ŋ/ (ng) pada sebuah aksara. c. dengan menambahkan bunyi desir /h/ pada sebuah aksara (khususnya Karo, Pakpak & Simalungun). d. dengan menghapus bunyi /a/ pada aksara induk. Kedelapan anak ni surat masing-masing memiliki nama tersendiri dan kadang-kadang terdapat lebih dari satu nama tergantung pada daerah atau tradisi masing-masing.
Ina ni Surat Anak Ni Surat
Universitas Sumatera Utara
Universitas Sumatera Utara 9
Gambar 2.2 Aksara Sumber: Uli Kozok Suku Batak terdiri dari beberapa kelompok yaitu Batak Toba, Simalungun, Karo, Pakpak, Mandailing, dan Angkola. Setiap etnik batak menjunjung nilai-nilai sosial budaya yang hampir sama dengan sub etnik lainnya yang pada dasarnya memiliki kesamaan dalam kebudayaan seperti halnya dalam penulisan aksara batak, hanya saja memiliki sedikit perbedaaan. Berikut ini adalah tabel dari setiap aksara suku Batak.
Tabel 2.1 Aksara Suku Batak
Universitas Sumatera Utara
Universitas Sumatera Utara 10
2.2 Definisi Citra
Suatu citra adalah fungsi intensitas 2 dimensi f (x,y), dimana x dan y adalah koordinat spasial dan f pada titik (x,y) merupakan tingkat kecerahan (brightness) suatu citra pada suatu titik. Suatu citra diperoleh dari penangkapan kekuatan sinar yang dipantulkan oleh objek. Citra digital tersusun atas sejumlah berhingga elemen, masing-masing memiliki lokasi dan nilai/intensitas tertentu. Elemen-elemen ini disebut elemen gambar, elemen citra, pels, dan juga piksel yang dinyatakan dalam bilangan bulat. Tingkat ketajaman atau resolusi warna pada citra digital tergantung pada jumlah ”bit” yang digunakan oleh komputer untuk merepresentasikan setiap piksel tersebut. Tipe yang sering digunakan untuk merepresentasikan citra adalah ”8- bit citra” (256 colors (0 untuk hitam - 255 untuk putih)), tetapi dengan kemajuan teknologi perangkat keras grafik, kemampuan tampilan citra di komputer hingga 32 bit (232 warna) (Gonzalez, 2003). Piksel (0,0) terletak pada sudut kiri atas pada citra, indeks x begerak ke kanan dan indeks y bergerak ke bawah. Konvensi ini dipakai merujuk pada cara penulisan larik yang digunakan dalam pemrograman komputer. Letak titik origin pada koordinat grafik citra dan koordinat pada grafik matematika terdapat perbedaan. Hal yang berlawanan untuk arah vertikal berlaku pada kenyataan dan juga pada sistem grafik dalam matematika yang sudah lebih dulu dikenal. Gambar 2.3 berikut memperlihatkan perbedaan kedua sistem ini.
Titik (0,0)
Gambar 2.3 Koordinat pada grafik matematika (Gonzalez, 2003)
Universitas Sumatera Utara
Universitas Sumatera Utara 11
Titik (0,0)
Gambar 2.4 Koordinat pada citra (Gonzalez, 2003).
2.3 Jenis Citra
Jenis-jenis citra dapat dibagi menjadi citra analog dan citra digital, yaitu:
2.3.1 Citra Analog
Citra analog adalah citra yang terdiri dari sinyal – sinyal frekuensi elektromagnetis yang belum dibedakan sehingga pada umumnya tidak dapat ditentukan ukurannya. Analog berhubungan dengan hal yang kontinu dalam satu dimensi, contohnya adalah bunyi diwakili dalam bentuk analog, yaitu suatu getaran gelombang udara yang kontinu dimana kekuatannya diwakili sebagai jarak gelombang. Hampir semua kejadian alam boleh diwakili sebagai perwakilan analog seperti bunyi, cahaya, air, elektrik, angin dan sebagainya (Putra, 2010).
2.3.2 Citra Digital
Citra digital merupakan representatif dari citra yang diambil oleh mesin dengan bentuk pendekatan berdasarkan sampling dan kuantisasi. Sampling menyatakan besarnya kotak-kotak yang disusun dalam baris dan kolom. Dengan kata lain, sampling pada citra menyatakan besar kecilnya ukuran pixel (titik) pada citra, dan kuantisasi menyatakan besarnya nilai tingkat kecerahan yang dinyatakan dalam nilai tingkat keabuan (grayscale) sesuai dengan jurnlah bit biner yang digunakan oleh mesin, dengan kata lain kuantisasi pada citra menyatakan jumlah warna yang ada pada citra. (Sutoyo, 2009). Sampling adalah proses untuk menentukan warna pada pixel tertentu pada citra dari sebuah gambar yang kontinu. Pada proses sampling biasanya
Universitas Sumatera Utara
Universitas Sumatera Utara 12
dicari warna rata-rata dari gambar analog yang kemudian dibulatkan. Proses sampling sering juga disebut proses digitisasi seperti pada Gambar 2.5.
Gambar 2.5 Proses Sampling dan Kuantisasi (Gonzalez, 2003)
Sampling menyatakan banyaknya pixel (blok) untuk mendefinisikan suatu gambar. Sedangkan kuantisasi meunjukkan banyaknya derajat nilai pada setiap pixel (menunjukkan jumlah bit pada gambar digital, misal b/w dengan dua bit, grayscale dengan delapan bit, true color dengan 24 bit). (Gonzalez, 2003).
2.4 Format File Citra
Sebuah format citra harus dapat menyatukan kualitas citra, ukuran file dan kompatibilitas dengan berbagai aplikasi. Saat ini tersedia banyak format grafik dan format baru tersebut yang sudah dikembangkan, diantaranya yang terkenal adalah BMP, JPEG, dan GIF. Setiap program pengolahan citra biasanya memiliki format citra tersendiri. Format dan metode dari suatu citra yang baik juga sangat bergantung pada jenis citranya. Setiap format file citra memiliki kelebihan dan kekurangan masing – masing dalam hal citra yang disimpan. Citra tertentu dapat disimpan dengan baik (dalam arti ukuran file lebih kecil dan kualitas gambar tidak berubah) pada format file citra tertentu, apabila disimpan pada format lain kadang kala dapat menyebabkan ukuran file menjadi lebih besar dari aslinya dan kualitas citra dapat menurun oleh karena itu, untuk menyimpan suatu citra harus diperhatikan citra dan Universitas Sumatera Utara
Universitas Sumatera Utara 13
format file citra apa yang sesuai. Misalnya format citra GIF sangat tidak cocok untuk citra fotografi karena biasanya citra fotografi kaya akan warna, sedangkan format GIF hanya mendukung sejumlah warna sebanyak 256 (8 bit) saja. Format JPEG merupakan pilihan yang tepat untuk citra – citra fotografi karena JPEG sangat cocok untuk citra dengan perubahan warna yang halus (Gonzalez, 2003).
2.4.1 Format Data Bitmap
Pada format bitmap, citra disimpan sebagai suatu matriks di mana masing – masing elemennya digunakan untuk menyimpan informasi warna untuk setiap piksel. Jumlah warna yang dapat disimpan ditentukan dengan satuan bit-per-piksel. Semakin besar ukuran bit-per-piksel dari suatu bitmap, semakin banyak pula jumlah warna yang dapat disimpan. Format bitmap ini cocok digunakan untuk menyimpan citra digital yang memiliki banyak variasi dalam bentuknya maupun warnanya, seperti foto, lukisan, dan frame video. Format file yang menggunakan format bitmap ini antara lain adalah BMP, DIB, PCX, GIF, dan JPG. Format yang menjadi standar dalam system operasi Microsoft Windows adalah format bitmap BMP atau DIB. (Sutoyo, 2009) Karakteristik lain dari bitmap yang juga penting adalah jumlah warna yang dapat disimpan dalam bitmap tersebut. Ini ditentukan oleh banyaknya bit yang digunakan untuk menyimpan setiap titik dari bitmap yang menggunakan satuan bpp (bit per piksel). Dalam Windows dikenal bitmap dengan 1, 4, 8, 16, dan 24 bit per piksel. Jumlah warna maksimum yang dapat disimpan dalam suatu bitmap adalah n sebanyak 2 , dimana n adalah banyaknya bit yang digunakan untuk menyimpan satu titik dari bitmap. (Kumar, 2014) Berikut ini tabel yang menunjukkan hubungan antara banyaknya bit per piksel dengan jumlah warna maksimum yang dapat disimpan dalam bitmap, dapat dilihat pada Tabel 2.2.
Tabel 2.2 Hubungan antara bit per piksel dengan jumlah warna maksimum pada bitmap No Jumlah bit per Jumlah warna piksel maksimum
1 1 2
Universitas Sumatera Utara
Universitas Sumatera Utara 14
2 4 16
3 8 256
4 16 65536
5 24 16777216
2.4.2 Format JPEG
JPEG adalah suatu desain untuk mengkompresi citra baik gray-level maupun citra full-color. JPEG tidak hanya menangani data dalam bentuk citra, tetapi juga dapat berhubungan dengan gambar yang disebut dengan motion picture (MPEG). JPEG merupakan singkatan dari Joint Photographic Experts Group, merupakan suatu komite yang menyusun standar citra pada akhir tahun 80-an dan awal tahun 90-an. Kata “Joint” pada JPEG melambangkan status data di dalam kerja sama panitia ISO dan ITU_T. Format yang dihasilkan merupakan standar ISO IS-10918. Format file ini dikembangkan oleh C-Cube Microsystems untuk memberikan sebuah metode yang efisien untuk menyimpan citra dengan jumlah warna yang sangat banyak seperti foto kamera. (Kadir, 2013) Perbedaan utama antara format JPEG dengan format citra yang lainnya adalah bahwa file JPEG menggunakan metode lossy untuk proses pemampatannya. Pemampatan secara lossy akan membuang sebagian data citra untuk memberikan hasil kompresi yang baik. Hasil file JPEG yang di-dekompres tidak begitu sesuai dengan citra aslinya, tetapi perbedaan ini sangat sulit dideteksi oleh mata manusia. (Kadir, 2013).
2.5 Karakteristik File Citra
Karakteristik file citra ditentukan oleh resolusi (resolution) dan kedalaman bit (bit depth). Karakteristik-karakteristik ini akan menentukan tawar-menawar antara kualitas file citra dan jumlah bit yang dibutuhkan untuk menyimpan atau mentransmisikannya.
Universitas Sumatera Utara
Universitas Sumatera Utara 15
2.5.1 Image Resolution
Image resolution adalah jumlah piksel per inci (kepadatan piksel per inci) yang dinyatakan dengan piksel x piksel. Semakin tinggi resolusi citra, maka semakin baik kualitas citra tersebut, dalam arti bahwa dalam ukuran fisik yang sama, citra dengan resolusi tinggi akan lebih detil serta jika citra diperbesar maka detil citra masih jelas. Namun, resolusi yang tinggi akan mengakibatkan jumlah bit yang diperlukan untuk menyimpan atau mentransmisikannya meningkat (Kadir, 2013).
2.5.2 Bit Depth
Bit depth merupakan jumlah bit yang digunakan untuk merepresentasikan tiap piksel. Bit depth adalah jumlah bit untuk tiap piksel. Semakin banyak jumlah bit yang digunakan untuk merepresentasikan sebuah piksel, yang berarti semakin tinggi kedalaman piksel-nya, maka semakin tinggi pula kualitasnya, dengan resiko jumlah bit yang diperlukan menjadi lebih tinggi (Putra, 2010). Dengan 1 byte (8 bit) untuk tiap piksel, diperoleh 28 atau 256 level intensitas. Dengan level intensitas sebanyak itu, umumnya mata manusia sudah dapat dipuaskan. Kedalaman piksel paling rendah terdapat pada binary-value image yang hanya menggunakan 1 bit untuk tiap piksel, sehingga hanya ada dua kemungkinan bagi tiap piksel, yaitu 0 (hitam) atau 1 (putih). Color resolution merupakan jumlah warna yang dapat ditampilkan pada sebuah citra. Sedangkan color depth adalah jumlah maksimum warna pada citra berdasarkan bit depth dari citra dan layar monitor komputer. Tabel 2.3 berikut menunjukkan hubungan antara bit depth dan color resolution.
Tabel 2.3 Hubungan Antara Kedalaman Warna Dan Resolusi Warna Kedalaman Warna Resolusi Warna Kalkulasi
1 bit 2 warna 21 (2) 2 bit 4 warna 22 (2x2) 3 bit 8 warna 23 (2x2x2) 4 bit 16 warna 24 (2x2x2x2)
Universitas Sumatera Utara
Universitas Sumatera Utara 16
5 bit 32 warna 25 (2x2x2x2x2) 6 bit 64 warna 26 (2x2x2x2x2x2) 7 bit 128 warna 27 (2x2x2x2x2x2x2) 8 bit 256 warna 28 (2x2x2x2x2x2x2x2) 16 bit 65.536 warna 216 24 bit 16.777.216 warna 224 32 bit 4.294.967.296 warna 232
2.6 Citra Warna
Setiap piksel pada citra warna mewakili warna yang merupakan kombinasi dari tiga warna dasar (RGB = Red Green Blue). Setiap warna dasar menggunakan penyimpanan 8 bit = 1 byte, yang berarti setiap warna mempunyai gradasi sebanyak 255 warna. Berarti setiap piksel mempunyai kombinasi warna sebanyak 28 x 28 x 28 = 224 =16 juta warna lebih. Itulah sebabnya format ini dinamakan true color karena mempunyai jumlah warna yang cukup besar sehingga bisa dikatakan hampir mencakup semua warna di alam (Gonzalez, 2003).
2.6.1 Mode Warna
Menampilkan sebuah citra pada layar monitor diperlukan lebih dari sekedar informasi tentang letak dari piksel-piksel pembentuk citra. Untuk memperoleh gambar yang tepat dibutuhkan juga informasi tentang warna yang dipakai untuk menggambarkan sebuah citra digital. Beberapa mode warna yang sering digunakan adalah: 1. Bitmap mode memerlukan 1 bit data untuk menampilkan warna dan warna yang dapat ditampilkan hanya warna hitam dan putih (biner) 2. Indexed Color Mode, mengurutkan warna dalam jangkauan 0-255 (8 bit) 3. Grayscale Mode, menampilkan citra dalam 256 tingkat keabuan. 4. RGB Mode, menampilkan citra dalam kombinasi 3 warna dasar (Red, Green, Blue) tiap warna dasar memiliki intensitas warna 0-255 (8 bit) 5. CMYK Mode, menampilkan citra dalam kombinasi 4 warna dasar (cyan, magenta, yellow, black) tiap warna dasar memiliki intensitas warna 0-255 (8 bit).
Universitas Sumatera Utara
Universitas Sumatera Utara 17
Mode warna RGB menghasilkan warna menggunakan kombinasi dari tiga warna primer merah, hijau, biru. RGB adalah model warna penambahan, yang berarti bahwa warna primer dikombinasikan pada jumlah tertentu untuk menghasilkan warna yang diinginkan. RGB dimulai dengan warna hitam (ketiadaan semua warna) dan menambahkan merah, hijau, biru terang untuk membuat putih. Kuning diproduksi dengan mencampurkan merah, hijau; warna cyan dengan mencampurkan hijau dan biru; warna magenta dari kombinasi merah dan biru. Monitor komputer dan televisi memakai RGB. Sorotan electron menghasilkan sinyal merah, hijau, biru yang dikombinasikan untuk menghasilkan berbagai warna yang dilihat pada layar. Kombinasi warna RGB dapat dilihat pada Gambar 2.6.
Gambar 2.6 Kombinasi Warna RGB (Chuks, 2010)
Warna campuran (selain dari putih) dihasilkan dengan menambahkan warna komponen RGB individual dengan berbagai tingkat saturasi, dengan tingkatan mulai dari 0.0 hingga 1.0 (0 berarti tidak menggunakan warna tersebut; 1 berarti menggunakan warna tersebut pada saturasi penuh). (Gonzalez, 2003). Warna didefenisikan dengan memasukkan intensitas untuk setiap komponen dalam matriks. Tiap komponen memiliki matriksnya sendiri-sendiri dan matriks tersebut bisa dijumlahkan. Sebagai contoh, untuk menghasilkan merah saturasi sempurna, masukan (1,0,0) : 100% merah 0% hijau dan 0% biru. Pada saat ketiga komponen warna tersebut dikombinasikan dalam 100% saturasi (1,1,1) hasilnya adalah putih (seperti diperlihatkan berikut):
Hijau (0,1,0) + Biru (0,0,1) = Cyan (0,1,1) Cyan (0,1,1) + Merah (1,0,0) = Putih (1,1,1)
Warna yang berlawanan satu sama lain dengan model warna RGB disebut warna pelengkap. Jika dicampurkan, warna pelengkap selalu menghasilkan putih. Contoh warna pelengkap adalah Cyan dan Merah, Hijau dan Biru, Magenta dan Hijau. CMYK
Universitas Sumatera Utara
Universitas Sumatera Utara 18
mengacu ke sistem warna yang terbuat dari cyan, magenta, kuning dan hitam. Cyan, magenta dan kuning adalah tiga warna primer pada model warna ini dan merah, hijau, biru adalah model tiga warna sekunder. CMYK memainkan peranan penting pada grafik komputer umum, terutama pada desktop publishing. Hasil percetakan atau gambar lainnya pada kertas menggunakan CMYK yang merupakan model warna pengurangan yaitu pigmen warna menyerap atau menyaring warna putih dan cahaya yang dipantulkan menentukan warna dari gambar. Kombinasi warna CMYK dapat dilihat pada Gambar 2.7 (Gonzalez, 2003).
Gambar 2.7 Kombinasi Warna CMYK (Chuks, 2010)
Pencampuran tinta cyan, magenta dan kuning secara seimbang pada kertas akan menghasilkan warna coklat gelap. Oleh karena itu hitam ditimpahkan ke area yang gelap untuk memberikan penampilan yang lebih baik (hitam adalah K pada CMYK). Konversi ini menggunakan hitam untuk mengompensasi mendapatkan kelakuan nyata dari warna, membuatnya menjadi sangat rumit. Formula sederhana berikut menterjemahkan model RGB ke model CMY:
C = 1 – R M = 1 – G Y = 1 – B Formula tersebut hanya merupakan titik awal. Bagaimanapun pada prakteknya kalibrasi intensif dari piranti dibutuhkan karena pigmen warna khas umumnya tidak bekerja seperti yang diperkirakan dari perhitungan.
2.6.2 Pembacaan Nilai Piksel Setiap Sub Image
Pembacaan nilai piksel dilakukan pada setiap komponen warna (RGB) dengan menggunakan rumus: (Gozales, 2003). Nilai R = c and 255
Universitas Sumatera Utara
Universitas Sumatera Utara 19
Nilai G = (c and 65,280)/256 Nilai B = ((c and 16,711,680)/256)/256 Citra biner adalah representasi citra dengan hanya dua intensitas warna pada tiap pixel-nya yaitu 1 dan 0, dimana nilai 0 mewakili warna hitam dan nilai 1 warna putih. Citra biner merupakan tingkat abu-abu terendah yang dicapai dalam pembentukan citra. Alasan masih digunakannya citra biner dalam pengolahan citra digital karena prosesnya lebih cepat karena jumlah bit untuk tiap pixel-nya lebih sedikit. Citra grayscale diperoleh citra RGB (warna) dengan menggunakan rumus (Moeslund, 2012):
f(x) = (R+G+B)/3
2.7 Pengolahan Citra
Pengolahan citra (image processing) merupakan proses mengolah piksel-piksel di dalam citra digital untuk tujuan tertentu. Pada awalnya pengolahan citra ini dilakukan untuk memperbaiki kualitas citra, namun dengan berkembangnya dunia komputasi yang ditandai dengan semakin meningkatnya kapasitas dan kecepatan proses komputer serta munculnya ilmu-ilmu komputasi yang memungkinkan manusia dapat mengambil informasi dari suatu citra. Proses pengolahan citra secara diagram proses dimulai dari pengambilan citra, perbaikan kualitas citra, sampai dengan pernyataan representatif citra yang dicitrakan seperti pada Gambar 2.8.
Akusisi Citra Perbaikan Kualitas Proses Representatif (Pengambilan Citra) Citra Citra
Gambar 2.8 Proses Pengolahan Citra
Dalam perkembangan lebih lanjut, image processing dan computer vision digunakan sebagai mata manusia, dengan perangkat input image capture seperti kamera dan scanner dijadikan sebagai mata dan mesin komputer (dengan program komputasinya) dijadikan sebagai otak yang mengolah informasi. Sehingga muncul beberapa pecahan bidang yang menjadi penting dalam computer vision, antara
Universitas Sumatera Utara
Universitas Sumatera Utara 20
lain: pattern recognition (pengenalan pola), biometric pengenalan identifikasi manusia berdasarkan ciri-ciri biologis yang tampak pada badan manusia), content based image and video retrieval (mendapatkan kembali citra atau video dengan informasi tertentu), video editing, dan lain-lain (Tu, L & Dong, C. 2013).
2.8 Optical Character Recognition (OCR)
Optical Character Recognition (OCR) adalah sebuah aplikasi komputer yang digunakan untuk mengidentifikasi citra huruf maupun angka untuk dikonversi ke dalam bentuk file tulisan. Sistem pengenal huruf ini dapat meningkatkan fleksibilitas atau kemampuan dan kecerdasan sistem komputer. Sistem pengenal huruf yang cerdas sangat membantu usaha besar- besaran yang saat ini dilakukan banyak pihak yakni usaha digitalisasi informasi dan pengetahuan, misalnya dalam pembuatan koleksi pustaka digital, koleksi sastra kuno digital, dan lain-lain (Hartanto et al., 2014).
2.9 Ekstrasi Fitur
Feature Extraction (Ekstraksi Fitur) adalah suatu pengambilan ciri (Feature) dari suatu bentuk yang nantinya nilai yang didapatkan akan dianalisis untuk proses selanjutnya. Ekstrasi Fitur dilakukan dengan cara menghitung jumlah titik atau pixel yang ditemui dalam setiap pengecekan, dimana pengecekan dilakukan dalam berbagai arah tracing pengecekan pada koordinat kartesian dari citra digital yang dianalisis, yaitu vertikal, horizontal, diagonal kanan, dan diagonal kiri.
2.9.1 Modified Direction Feature
Metode yang digunakan untuk ekstrasi fitur kali ini adalah metode MDF (Modified Direction Feature). MDF adalah kombinasi dari metode Direction Feature (DF) dan Transition Feature (TF), yaitu mengambil dan menghitung nilai ciri berdasarkan goresan (stroke) karakter dari berbagai arah sehingga ciri karakter bersifat unik (Eka Farda Yuwitaning, 2013). Hasil ekstraksi ciri didasarkan pada nilai transisi dan juga ditentukan nilai arah yang terdapat pada citra karakter tersebut. Ekstraksi ciri dengan menggunakan MDF otomatis harus mencari nilai DT dan TF sebelumnya secara terpisah.
Universitas Sumatera Utara
Universitas Sumatera Utara 21
2.10 Metode Hidden Markov Model
Metode Hidden Markov Model merupakan pemodelan probabilitas suatu sistem dengan mencari parameter-parameter markov yang tidak diketahui untuk memperoleh analisis sistem tersebut. Metode Hidden Markov Model (HMM) mampu menangani perubahan statistik dari gambar, dengan memodelkan elemen-elemen menggunakan probabilitas. Salah satu aplikasinya adalah pada image processing, HMM memiliki tiga parameter utama yang harus dicari nilainya terlebih dahulu, ketiga parameter tersebut sebagai berikut. Parameter A yang disebut juga probabilitas transisi state dalam HMM dinyatakan dalam sebuah matriks dengan ukuran N x N dengan N adalah jumlah state yang ada. Matriks A yang terbentuk ditunjukkan oleh persamaan berikut
Keterangan :
= probabilitas transisi dari state i ke state j qt = kondisi saat t P = peluang/probabilitas
Sj = state ke j qt-1= kondisi sesudah qt
Si=state ke i N = jumlah state Parameter B disebut sebagai probabilitas observasi, matriks B yang terbentuk ditunjukkan oleh persamaan berikut
Keterangan
Bj(k) = probabilitas distribusi matriks observasi P = peluang/probabilitas
Vk = probabilitas simbol pengamatan pada state j
Qt = kondisi saat t
Sj= state ke j
Universitas Sumatera Utara
Universitas Sumatera Utara 22
Parameter π, disebut sebagai parameter awal, merupakan probabilitas kemunculan suatu state di awal. Parameter π ditunjukkan dalam persamaan dibawah ini
Hidden markov model dapat dituliskan sebagai λ = (A,B,∏) Setelah ciri karakter didapat, maka diklasifikasi dengan Hidden Markov Model (HMM), yang merupakan perluasan dari rantai Markov di mana state-nya tidak dapat diamati secara langsung (tersembunyi), tetapi hanya dapat mengamati variabel- variabel yang terpengaruh oleh state (Daramola, A. 2010). Hidden Markov Models (HMM) adalah pengembangan dari Markov Model yang ditemukan oleh A.A Markov pada tahun 1906. Berbeda dengan Markov biasa dimana statenya dapat langsung diamati, sehingga probabilitas transisi antar state menjadi satu-satunya parameter. HMM juga dapat disebut suatu model probabilitas yang menggambarkan hubungan statistik antara urutan pengamatan atau observasi O dan urutan state yang tersembunyi (hidden), sehingga dapat diamati secara tidak langsung melalui urutan observasi O. Setiap state pada HMM memiliki distribusi peluang output yang mungkin muncul sebagai suatu set proses stokastik yang akan membentuk suatu deretan observasi.
0. 3 0. 3 0. 2 Cerah 0. 4 Hujan X3 X1 0. 5 0. 3 0. 1 0. 7 Mendung X2
0. 2
Gambar 2.9 Markov Model
Pada Markov Model atau Markov Chain (Gambar 2.9), setiap state terlihat jelas dan hanya memiliki transisi state untuk parameternya. Sedangkan pada HMM, state
Universitas Sumatera Utara
Universitas Sumatera Utara 23
tidak secara langsung terlihat, namun output yang bergantung pada state terlihat. Pada HMM, setiap state memiliki distribusi probabilitas dari setiap output yang mungkin.
Gambar 2.10 Representasi Parameter HMM Penjelasan Gambar 2.10. X = kondisi Y = observasi yang mungkin a = kemungkinan keadaan transisi b = kemungkinan output
Deretan indeks Codebook yang dihasilkan pada proses vector quantization kemudian digunakan sebagai inputan untuk proses training HMM. Indeks ini dapat disebut sebagai simbol observasi HMM. Pada proses training ini akan digunakan untuk memodelkan sejumlah huruf yang nantinya dapat digunakan pada proses testing. Training merupapan masalah Hidden Markov Model yang paling sulit dipecahkan. Pada proses training ini menggunakan algoritma Baumwelch. Model HMM yang dihasilkan pada proses training ini adalah 휆 = (퐴, 퐵, 휋), keterangan dari hasil tersebut adalah A seb agai matriks peluang transisi antar state, B matriks peluang simbol observasi, dan 휋 adalah peluang inisial state. Jenis HMM yang digunakan pada Makalah ini adalah diskrit ergodic. Parameter-parameter HMM seperti A, B, dan 휋 dibangkitkan secara random dengan nilai yang dinormalisasi ke satu. Yang kemudian parameter- parameter tersebut di perkirakan ulang sampai mendapat nilai yang optimal pada proses training. Kemudian untuk parameter HMM yang lain diambil berdasarkan banyaknya state (N) dan jumlah simbol observasi tiap state (M). Pada HMM, yang bersifat hidden adalah statenya, dimana state tersebut adalah jenis suara itu sendiri, sedangkan bagian yang akan diobservasi adalah ciri dari sinyal suara. Parameter HMM yang di reestimasi merupakan hasil implementasi dari algoritma Universitas Sumatera Utara
Universitas Sumatera Utara 24
Baumwelch atau nama lainnya Expection Maximum (EM). Hasil dari reestimasi parameter HMM adalah nilai baru dari elemen-elemen matriks A, B dan 휋. Iterasi pada reestimasi berhenti apabila iterasi sudah maksimal atau jika model baru tidak memberikan perbaikan nilai yang cukup berarti. Sebelum menyelesaikan permasalahan reestimasi terlebih dahulu dihitung variable forward (훼) dan backward (훽). Flowchart training HMM dapat dilihat pada Gambar 2.11.
Gambar 2.11 Flowchart training HMM
Setelah dilakukan inisialisasi parameter model HMM 휆 = (퐴, 퐵, 휋) yang dibangkitkan secara random dengan nilai yang dinormalisasi ke satu, kemudian dilakukan perhitungan ( ) dan 훽푡 (푖) dengan algoritma forward dan backward. Perhitungan (푖) dapat dihitung secara induktif dengan tiga tahap menggunakan forward algorithm yaitu: 1. Inisialisasi 2. Induksi 3. Akhir
2.11 Penelitian Terdahulu
Ada beberapa penelitian sebelumnya yang pernah dilakukan, diantaranya yaitu Deteksi Baris Teks Manuskrip Arab Tulisan Tangan dengan menggunakan Markov Decision Processes. Penelitian ini menghasilkan sebuah pendekatan berdasarkan Markov Decision Processes untuk mengekstrak teks dari gambar biner dokumen tulisan tangan Arab. Metode yang didasarkan pada analisis ini menggunakan informasi geometris seperti bentuk, orientasi, posisi, dan ukuran karakter untuk mengelompokkannya dalam barisan. Metode ini lebih sesuai untuk dokumen kompleks dibandingkan metode berdasarkan Proyeksi Profil (PP), walaupun dapat Universitas Sumatera Utara
Universitas Sumatera Utara 25
sensitif terhadap perubahan struktur ukuran dan komponen. Dengan metode ini peneliti memperoleh tingkat akurasi sebesar 90.5% (Boulid, Y. 2013). Selanjutnya dilakukan penelitian untuk pengenalan karakter Gurmukhi dari tulisan tangan dengan metode k-Nearest Neighbor secara offline. Sistem pengenalan karakter Gurmukhi dari tulisan tangan ini berdasarkan fitur diagonal dan transisi fitur menggunakan k-NN classifier. Bentuk diagonal dan transisi karakter telah dihitung berdasarkan distribusi titik pada gambar bitmap dari karakter. Dalam metode k-NN, jarak Euclidean antara titik pengujian dan titik referensi dihitung untuk menemukan k- NN. Sistem ini mampu memperoleh akurasi pengenalan karakter maksimum 94,12% (Munish et al, 2011). Pernah juga dilakukan penelitian pengenalan karakter huruf tulisan tangan menggunakan metode Principal Components Analysis yang mana penelitian menggunakan sampel karakter huruf kapital A-Z yang diambil dari 10 orang yang berbeda dimana masing-masing orang menulis 1 karakter huruf dengan 3 bentuk yang berbeda. Besarnya tingkat keberhasilan atau akurasi dipengaruhi oleh banyaknya data training dan data uji yang digunakan. Tingkat keberhasilan atau akurasi terbesar pada penelitian ini mencapai 88,46% (Faridh, M. M. 2013). Pada tahun 2014, dilakukan penelitian pengenalan karakter teks menggunakan metode Neural Network Backpropagation. Untuk mendapatkan pola pada setiap karakter diperlukan beberapa fitur dari karakter itu sendiri. Fitur yang diambil pada sebuah karakter meliputi jumlah segmen pembentuk karakter dan bentuk segmennya yang secara garis besar dibedakan menjadi garis, kurva, atau loop. Pengambilan fitur menggunakan metode fuzzy untuk dapat membedakan bentuk-bentuk segmennya sesuai dengan parameter yang diberikan. Sistem pengenalan karakter ini memiliki prosentase keberhasilan dalam pengenalan karakter sekitar 80.12% (Hayuning, T. 2014).
Universitas Sumatera Utara
Universitas Sumatera Utara 26
Tabel 2.4 Penelitian Terdahulu
No. Judul Peneliti Tahun Metode Akurasi 1. Detection of Text Youssef Boulid 2013 Markov Decision 90.5% Lines of Processes Handwritten Arabic Manuscripts using Markov Decision Processes 2. Offline Munish et al. 2011 k-Nearest 94,12% Handwritten Neighbor Gurmukhi Character Recognition: A Review 3. Pengenalan Muhammad 2013 Principal 88,46% Karakter Huruf Miftah Faridh Components Tulisan Tangan H Analysis Menggunakan Metode Principal Components Analysis 4. Pengenalan Titis Hayuning 2014 Neural Network 80.12% Karakter Teks Backpropagation Menggunakan Metode Neural Network Backpropagation 5. Implementasi Yuwitaning, E. 2014 Hidden Markov 74,72% Metode Hidden F. Model Markov Model Untuk Deteksi Tulisan Tangan
Universitas Sumatera Utara
Universitas Sumatera Utara 27
Tabel 2.4 Penelitian Terdahulu (Lanjutan) No. Judul Peneliti Tahun Metode Akurasi 6. Perbandingan Syakhala, A. R., 2015 Principal 86,6% Metode Principal Puspitaningrum, Component Component D. & Analysis & Analysis (PCA) Purwandari, E. Hidden Markov Dengan Metode P Model Hidden Markov Model (HMM) Dalam Pengenalan Identitas Seseorang Melalui Wajah 7. Algoritma Prasetyo, H. B., 2016 Linear Predictive 58.93% Pengenalan Adiwijaya, Coding (LPC) Ucapan Huruf Wisesty, U. N. dan Hidden Hijaiyah Bertanda Markov Model Baca Dengan (HMM) Linear Predictive Coding (LPC) dan Hidden Markov Model (HMM)
Universitas Sumatera Utara
Universitas Sumatera Utara 28
BAB 3
ANALISIS DAN PERANCANGAN
3.1 Analisis
Bab ini membahas tentang implementasi algoritma yang digunakan untuk pengenalan dokumen aksara Batak. Adapun dua tahap yang akan dibahas pada bab ini, yaitu tahap analisis dan tahap perancangan sistem. Pada tahap analisis akan dilakukan analisa terhadap data yang digunakan untuk diproses dan dianalisis terhadap teknik maupun metode yang digunakan pada setiap langkah pemrosesan data. Pada tahap perancangan sistem akan dibahas mengenai perancangan tampilan antarmuka sistem.
3.1.1 Data Yang Digunakan Pada penelitian ini, data yang digunakan berupa file dokumen berekstensi .jpg yaitu data aksara Toba dan Karo diperoleh dari Bapak Manguji Nababan yang menjabat sebagai dosen dan Kepala Pusat Dokumentasi Pengkajian Kebudayaan Batak (PD & PKB) Universitas Nommensen Medan, Sumatera Utara. Pengenalan Dokumen Aksara Batak pada penelitian ini merupakan teks asli naskah No.IC 39908a dari koleksi Museum Antropologi (Museum fur Volkerkunde) Berlin yang bersumber dari buku Surat Batak Sejarah Perkembangan Tulisan Batak yang ditulis oleh Uli Kozok, 2009. Selanjutnya, data etnik Mandailing, Simalungun dan Pakpak bersumber dari buku “BATAKSCH LEESBOEK” yang didapat dari Museum Daerah yang ada di H.M. Joni No.51 Medan Sumatera Utara. Lalu file dokumen berekstensi .jpg tersebut di scan kemudian mengubahnya ke dalam bentuk font .docx. Dokumen aksara batak yang lebih lengkap dapat dilihat pada Lampiran 1. Pengenalan aksara Batak Pada pada penelitian ini dilakukan menggunakan algoritma Hidden Markove Model (HMM) dengan tahap-tahap sebagai berikut:
Universitas Sumatera Utara
Universitas Sumatera Utara 29
a) Scan dokumen aksara Batak Pada berkas dokumen aksara Batak dilakukan digitalisasi dengan cara scan yang menghasilkan file citra digital. Contoh beberapa dokumen aksara batak dapat dilihat pada Tabel 3.1
Tabel 3.1. Dokumen Aksara Batak
Etnis Nama_dok Gambar Karo dok_karo6
Toba dok_manda iling1
Universitas Sumatera Utara
Universitas Sumatera Utara 30
Dokumen aksara batak yang lebih lengkap dapat dilihat pada Lampiran 1. b) Praprosesing citra. Sebelum dilakukan pengenalan aksara Batak dari file citra digital, citra dokumen terlebih dahulu diproses binerisasi, invert, segmentasi, thinning serta resize. 1. Binerisasi Binerisasi adalah pengubahan nilai piksel dari citra warna RGB menjadi citra biner dengan nilai piksel 1 atau 0. 2. Invert adalah salah satu metode pengolahan citra. Proses invert membuat citra gambar menjadi tampak negatife pada susunan warna RGB, namun berbeda dengan proses gambar negatif. Invert dihasilkan dari nilai maksimum dari RGB (255,255,255) dikurang nilai intensitas warna RGB pada citra. 3. Segmentasi Segmentasi adalah proses pemisahan objek-objek pada citra dengan latar belakangnya c) Proses Identifikasi dengan Hidden Markov Model (HMM). Proses Identifikasi dengan metode HMM bertujuan untuk melakukan pengenalan aksara Batak. d) Proses output Dokumen teks. Pada proses ini dilakukan pengubahan hasil identifikasi aksara Batak ke dalam bentuk dokumen teks (.docx).
3.1.2 General Architecture
Pada penelitian ini akan dilakukan proses pengenalan citra aksara Batak yang dimulai dengan pemasukan arsip dokumen sampai menjadi file teks yang berformat docx yang dapat dilihat seperti pada Gambar 3.1.
Universitas Sumatera Utara
Universitas Sumatera Utara 31
INPUT PRA PROSESING
Dokumen Aksara Reduksi Noise Batak
Binerisasi Scan Dokumen
Invert File Citra Digital
Segmentasi
PROSES Ekstraksi Fitur HMM
Identifikasi HMM
OUTPUT File Teks (.docx)
Gambar 3.1 General Architecture
Pada General Architecture diatas terdapat 3 tahap proses yaitu: a. Input dokumen aksara Batak, yaitu pemasukan data dokumen aksara Batak dengan terlebih dahulu melakukan scan dokumen ke dalam format digital agar dapat diproses oleh komputer. b. Pra Prosesing data, yaitu melakukan pengolahan citra dokumen aksara Batak untuk membersihkan dari noise yang dapat mengganggu, mengubah objek menjadi biner serta pemisahan objek. c. Proses, yaitu melakukan pembuatan ekstraksi fitur, identifikasi serta pengenalan aksara. d. Output, yaitu proses pengenalan aksara dan menampilkan aksaranya dalam format Docx.
Universitas Sumatera Utara
Universitas Sumatera Utara 32
3.1.3 Flowchart Pengenalan Aksara dengan metode HMM
Adapun flowchart Pengenalan Aksara dengan metode HMM dapat dilihat seperti pada Gambar 3.2.
Mulai
Masukkan file dokumen aksara .jpg
Membaca file dokumen input
Menampilkan dokumen input
Reduksi Noise Binerisasi
Segementasi Invert
Pengenalan HMM
Menampilkan hasil pengenalan .docx
Selesai
Gambar 3.2 Flowchart Pengenalan
Universitas Sumatera Utara
Universitas Sumatera Utara 33
Keterangan: 1. Input citra aksara Batak 2. Pre Prosesing Citra aksara 3. Ekstraksi ciri. 4. Baca database HMM. 5. Komputasi Probabilitas Model 6. Identifikasi dengan metode HMM dengan nilai Likelihood. 7. Tampilkan hasil pengenalan. 8. Selesai.
3.1.4 Algoritma Hidden Markov Models
Algoritma Hidden Markov Models berfungsi untuk melakukan pengenalan aksara Batak dengan tahap-tahap: A. Training a. Citra dokumen di blok-blok (block extraction) b. Pengambilan fitur (feature extraction) c. Pembentukan model inisialisasi d. Pembentukan model Estimasi e. Pembentukan parameter Hidden Markov Models B. Pengenalan (testing) a. Baca Parameter HMM b. Komputasi Probabilitas Model-1 sampai ke n c. Hitung maksimum Likelihood sebagai objek yang paling mirip dengan citra uji.
3.2 Perancangan
Pada tahap perancangan ini akan dibahas mengenai arsitektur umum, perancangan Use case diagram, Activity diagram, Class diagram, Squence diagram serta User Interface.
Universitas Sumatera Utara
Universitas Sumatera Utara 34
3.2.1 Perancangan Unified Modelling Language (UML) Unified Modelling Language (UML) merupakan bentuk perancangan dan dokumentasi perangkat lunak berbasis pemrograman berorientasi objek. Pada penelitian ini, bentuk perancangan UML menggunakan beberapa diagram, yaitu Use case Diagram, Activity Diagram serta Sequence Diagram.
3.2.2 Use case Diagram Use case adalah salah satu pemodelan yang digunakan untuk memodelkan persyaratan sistem. Dengan use case ini digambarkan siapa saja yang berinteraksi dengan sistem dan apa saja yang dapat dilakukan dengan sistem. Diagram menunjukkan interaksi antara pengguna dan entitas eksternal lainnya dengan sistem yang sedang dikembangkan. Lebih jelasnya Use Case Diagram digunakan untuk menggambarkan interaksi antara user dengan sistem. Pada aplikasi ini user menginputkan perintah- perintah untuk melakukan proses pengenalan aksara Batak dengan algoritma Hidden Markov Models. Use Case Diagram dapat dilihat seperti pada Gambar 3.3.
<
Menu Utama Menampilkan Menu Utama
<
<< include >> Help Menampilkan Help USER <
Gambar 3.3 Use case Diagram
3.2.3 Activity Diagram
Universitas Sumatera Utara
Universitas Sumatera Utara 35
Activity diagram menurut Martin Fowler (2005: 163) adalah teknik untuk menggambarkan logika procedural, proses bisnis, dan jalur kerja. Dalam beberapa hal, activity diagram memainkan peran mirip diagram air, tetapi perbedaan prinsip antara notasi diagram air adalah activity diagram mendukung behaviour paralel. Node pada sebuah activity diagram disebut sebagai action, sehingga diagram tersebut menampilkan activity yang tersusun dari action. Berikut ada 5 aktivitas diagram dari sistem pengenalan dokumen aksara batak, yaitu : 1. Activity Diagram Menu Utama Aktivitas yang dilakukan pada tahap ini, yaitu user membuka aplikasi, kemudian sistem menampilkan halaman menu utama dan kembali ke user untuk memilih pilihan menu yang ingin di proses ke tahap selanjutnya. Activity diagram Menu Utama dapat dilihat pada Gambar 3.4.
USER SISTE M
Membuka Aplikasi
Menampilkan halaman Menu Utama
Terdapat menu pilihan
Gambar 3.4. Activity Diagram Menu Utama
2. Activity Diagram Pengenalan Pada tahap ini menjelaskan alur kerja pada menu Pengenalan. Ketika user menjalankan sistem dan memilih menu Pengenalan, maka sistem akan menampilkan halaman Pengenalan Aksara Batak lalu user akan mencari file dokumen yang ingin di proses, kemudian dokumen tersebut akan di proses melalui
Universitas Sumatera Utara
Universitas Sumatera Utara 36
beberapa tahap pre-processing image, hasil dokumen nya nanti akan berekstensi .docx dan secara otomatis akan tersimpan pada penyimpana yang sudah di tentukan. Activity Diagram Pengenalan dapat dilihat pada Gambar 3.5.
USER SISTE
Membuka sistem Menampilkan halaman Menu Utama
Memilih menu Pengenakan Aksara
Menampilkan halaman Pengenalan
Klik tombol Browse
Menampilkan halaman dan memilih file
Memilih file dan klik tombol Open
Menampilkan file dokumen aksara batak berekstensi .jpg dan Nama file dokumen memilih file akan muncul secara otomatis
Klik tombol Training, Reduksi noise, Binerisasi, Invert, Segmentasi dan Menampilkan hasil Pengenalan pengenalan dalam bentuk .docx
Hasil dokumen otomatis akan tersimpan
Universitas Sumatera Utara
Universitas Sumatera Utara 37
Gambar 3.5. Activity Diagram Pengenalan
3. Activity Diagram Help Pada tahap ini menjelaskan alur kerja pada menu Help. Ketika user menjalankan sistem dan memilih menu Help, maka sistem akan menampilkan halaman yang berisi bagaimana tata cara pengoperasian sistem pengenalan dokumen aksara batak. Activity diagram Help dapat dilihat pada Gambar 3.6.
USER SISTE
M
Membuka sistem
Menampilkan halaman home
Memilih menu help
Menampilkan halaman yang berisi bagaimana tata cara pengoperasian sistem
Gambar 3.6. Activity diagram Help
4. Activity Diagram About Pada tahap ini menjelaskan alur kerja pada menu about. Ketika user menjalankan sistem dan memilih menu About, maka sistem akan menampilkan halaman yang berisi tentang beberapa informasi dari aplikasi pengenalan dokumen batak. Activity diagram About dapat dilihat pada Gambar 3.7.
Universitas Sumatera Utara
Universitas Sumatera Utara 38
USER SISTE M
Membuka sistem
Menampilkan halaman Menu Utama
Memilih menu About
Menampilkan halaman yang berisi tentang informasi sistem
Gambar 3.7. Activity diagram About
3.2.4 Perancangan Antarmuka (User interface)
Perancangan antar muka adalah rancangan tampilan yang menghubungkan pengguna (user) dengan komputer dengan bantuan program. Salah satu syarat pembuatan antar muka adalah berorientasi pada mudah digunakan (user friendly) serta informatif.
3.2.4.1 Rancangan Menu Utama
Rancangan Menu Utama merupakan tampilan yang pertama kali muncul saat program dijalankan. Pada rancangan ini terdapat menu Pengenalan, Help, About dan Exit. Menu Pengenalan berfungsi untuk menampilkan sub program Aksara karo, Mandailing, Simalungun, Pakpak serta Toba, Help berfungsi untuk menampilkan
Universitas Sumatera Utara
Universitas Sumatera Utara 39
informasi bantuan, About berfungsi untuk menampilkan keterangan seputar aplikasi yang dibangun dan Exit berfungsi untuk keluar dari sistem. Rancangan Menu Utama terlihat seperti pada Gambar 3.8.
Judul Penelitian 1
Pengenalan
2 Karo 3 Toba
4 Simalungun 5 Pakpak
Mandailing 6 7 8
Help About
Gambar 3.8. Rancangan Menu Utama Keterangan: 1. Label : berfungsi untuk menampilkan judul penelitian 2. Button : berfungsi untuk menjalankan program pengenalan aksara Karo. 3. Button : berfungsi untuk menjalankan program pengenalan aksara Toba 4. Button : berfungsi untuk menjalankan program pengenalan aksara Simalungun 5. Button : berfungsi untuk menjalankan program pengenalan aksara Pakpak 6. Button : berfungsi untuk menjalankan program pengenalan aksara Mandailing 7. Button : berfungsi untuk menampilkan halaman Help
Universitas Sumatera Utara
Universitas Sumatera Utara 40
8. Button : berfungsi untuk menampilkan halaman About
3.2.4.2 Rancangan Pengenalan
Rancangan Pengenalan Aksara berfungsi untuk melakukan pengolahan citra dokumen aksara Batak menjadi output berupa file teks berformat docx yang dapat dilihat seperti pada Gambar 3.9.
Citra Asli Citra Hasil Citra Biner Citra Invert
Reduksi Noise
Browse Citra Nam File Citra Segmentasi Pengenalan
Training Reduksi Binerisasi Invert Segmentasi Pengenalan Clear Close Noise
Gambar 3.9. Rancangan Pengenalan
3.2.4.3 Rancangan Help
Rancangan Pengenalan Help berfungsi untuk menampilkan keterangan tatacara pengoperasian aplikasi pengolahan citra dokumen aksara Batak yang dapat dilihat seperti pada Gambar 3.10.
Langkah-langkah Pengoperasian Sistem Pengenalan
Aksara Batak
Universitas Sumatera Utara
Universitas Sumatera Utara
41
Gambar 3.10. Rancangan Help
3.2.4.4 Rancangan About
Rancangan Pengenalan About berfungsi untuk menampilkan keterangan tentang aplikasi pengolahan citra dokumen aksara Batak yang dapat dilihat seperti pada Gambar 3.11.
N a m a : xxxxxxxxxxxxxxxxxxx
N I M : xxxxxxxxxxxxxxxxxxx
Program Studi: xxxxxxxxxxxxxxxxxxx
Fakultas : xxxxxxxxxxxxxxxxxxxx
Gambar 3.11 Rancangan About
Universitas Sumatera Utara
Universitas Sumatera Utara 42
BAB 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Implementasi Tampilan Antarmuka
Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models adalah tampilan hasil rancangan dari penulisan kode program dimulai user melakukan training yaitu mempelajari aksara Batak yang merupakan inputan dari jaringan untuk melakukan training dan melakukan pengenalan. Setelah melakukan training dan mendapatkan bobot akhir, maka proses pengenalan dilakukan dengan pemasukan file citra dokumen aksara Batak yaitu Karo, Mandailing, Simalungun, Toba serta Papak.
4.1.1 Tampilan Utama
Tampilan Utama merupakan tampilan yang pertama kali muncul saat program dijalankan. Pada tampilan ini terdapat dua tombol menu antara lain tombol dokumen aksara Batak yaitu Karo, Mandailing, Simalungun, Toba, Papak, Help serta About. Tampilan Utama terlihat seperti pada Gambar 4.1.
Universitas Sumatera Utara
Universitas Sumatera Utara 43
Gambar 4.1 Tampilan Menu
4.1.2 Tampilan Pengenalan Aksara Karo Tampilan Pengenalan Aksara Karo berfungsi untuk pengenalan dokumen aksara karo dengan algoritma Hidden Markov Models seperti pada Gambar 4.2.
Universitas Sumatera Utara
Universitas Sumatera Utara 44
Gambar 4.2 Tampilan Pengenalan Aksara Karo
Hasilnya adalah sebagai berikut:
Gambar 4.3 Tampilan Hasil Pengenalan Aksara Karo
Universitas Sumatera Utara
Universitas Sumatera Utara 45
4.1.3 Tampilan Pengenalan Aksara Mandailing
Tampilan Pengenalan Aksara Mandailing berfungsi untuk pengenalan dokumen aksara Mandailing dengan algoritma Hidden Markov Models seperti pada Gambar 4.4.
Gambar 4.4 Tampilan Pengenalan Aksara Mandailing
Hasilnya adalah sebagai berikut:
Gambar 4.5 Tampilan Hasil Pengenalan Aksara Mandailing
Universitas Sumatera Utara
Universitas Sumatera Utara 46
4.1.4 Tampilan Pengenalan Aksara Simalungun
Tampilan Pengenalan Aksara Mandailing berfungsi untuk pengenalan dokumen aksara Simalungun dengan algoritma Hidden Markov Models seperti pada Gambar 4.6.
Gambar 4.6 Tampilan Pengenalan Aksara Simalungun
Hasilnya adalah sebagai berikut:
Gambar 4.7 Tampilan Hasil Pengenalan Aksara Simalungun
Universitas Sumatera Utara
Universitas Sumatera Utara 47
4.1.5 Tampilan Pengenalan Aksara Toba
Tampilan Pengenalan Aksara Toba berfungsi untuk pengenalan dokumen aksara Toba dengan algoritma Hidden Markov Models seperti pada Gambar 4.8.
Gambar 4.8 Tampilan Pengenalan Aksara Toba
Hasilnya adalah sebagai berikut:
Gambar 4.9 Tampilan Hasil Pengenalan Aksara Toba
Universitas Sumatera Utara
Universitas Sumatera Utara 48
4.1.6 Tampilan Pengenalan Aksara Pakpak
Tampilan Pengenalan Aksara Pakpak berfungsi untuk pengenalan dokumen aksara Pakpak dengan algoritma Hidden Markov Models seperti pada Gambar 4.10.
Gambar 4.10 Tampilan Pengenalan Aksara Pakpak
Hasilnya adalah sebagai berikut:
Gambar 4.11 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak
Universitas Sumatera Utara
Universitas Sumatera Utara 49
4.2 Pengujian Sistem Pada tahap pengujian dilakukan pengenalan dokumen aksara Batak dan menghitung akurasi hasil pengenalan terhadap masing-masing dokumen aksara Batak. Rumus Akurasi adalah:
Akurasi = 100% - ( x 100 %)
Akurasi Karo = 100% - ( x 100) % = 97.8 %
Gambar 4.12 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Karo
Akurasi Mandailing = 100% - ( x 100) % = 95.24 %
Gambar 4.13 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Mandailing
Universitas Sumatera Utara
Universitas Sumatera Utara 50
Akurasi Simalungun = 100% - ( x 100) % = 98.56 %
Gambar 4.14 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Simalungun
Akurasi Toba = 100% - ( x 100) % = 98.33 %
Gambar 4.15 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Toba
Universitas Sumatera Utara
Universitas Sumatera Utara 51
Akurasi Pakpak = 100% - ( x 100) % = 97.39 %
Gambar 4.16 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak
Pengujian sistem pengenalan dokumen aksara Batak dan perhitungan akurasi hasil pengujian setiap dokumen aksara Batak dapat dilihat pada Tabel 4.1.
Tabel 4.1. Hasil Pengujian Sistem
Jumlah Huruf Akurasi No Nama Dokumen Hasil Dokumen Error (%) Pengenalan Asli
1 dok_karo1 409 418 9 97.8
2 dok_karo2 412 416 4 99.03
3 dok_karo3 410 416 6 98.55
4 dok_karo4 409 412 3 99.27
5 dok_mandailing1 441 421 20 95.24
6 dok_mandailing2 401 400 1 99.75
Universitas Sumatera Utara
Universitas Sumatera Utara 52
Tabel 4.1. Hasil Pengujian Sistem (Lanjutan)
Jumlah Huruf Akurasi No Nama Dokumen Hasil Dokumen (%) Erorr Pengenalan Asli
7 dok_mandailing3 398 402 4 99
8 dok_mandailing4 395 398 3 99.24
9 dok_simalungun1 418 420 2 99.52
10 dok_simalungun2 411 417 6 98.56
11 dok_simalungun3 406 411 5 98.78
12 dok_simalungun4 408 412 8 99.02
13 dok_toba1 410 418 8 98.08
14 dok_toba2 413 420 7 98.33
15 dok_toba3 416 418 2 99.52
16 dok_toba4 408 425 17 96
17 dok_pakpak1 411 422 11 97.39
18 dok_pakpak2 415 419 4 99.04
19 dok_pakpak3 412 418 6 98.56
20 dok_pakpak4 413 420 7 98.33
Jumlah 1969.01 Rata-rata Akurasi 98.45
Universitas Sumatera Utara
Universitas Sumatera Utara 53
BAB 5 KESIMPULAN DAN SARAN
Pada bab ini dijelaskan kesimpulan yang didapat dari hasil implementasi metode Hidden Markov Models (HMM) pada proses pengenalan dokumen aksara batak dan saran-saran yang dapat digunakan sebagai bahan pertimbangan untuk pengembangan selanjutnya.
5.1 Kesimpulan
Setelah melakukan implementasi pada Sistem Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models maka dapat disimpulkan sebagai berikut: 1. Aplikasi dapat melakukan pengenalan aksara Batak dari inputan citra dokumen Batal hasil scan digital. 2. Hasil pengenalan aksara Batak ditampilkan dalam bentuk file dokumen word (.docx) 3. Berdasarkan pengujian sistem, background pada dokumen, ukuran huruf dan tidak adanya data training dalam dokumen yang di input sangat mempengaruhi tingkat keberhasilan sistem dalam mengenali dokumen aksara batak. 4. Hasil akurasi rata-rata adalah sebagai berikut: Akurasi Batak Karo = 98.66 % Akurasi Batak Mandailing = 98.30 % Akurasi Batak Simalungun = 98.97 % Akurasi Batak Toba = 97.98 % Akurasi Batak Pakpak = 98.33 % Dengan rata-rata keseluruhan sebesar 98.45%
Universitas Sumatera Utara
Universitas Sumatera Utara 54
5.2 Saran
Adapun saran-saran penulis pada penelitian ini adalah: 1. Menambah fitur aplikasi Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models agar dapat melakukan pengenalan dengan cara capture camera, tanpa harus melakukan scan dokumen. 2. Menambah kemampuan pengenalan atas dokumen aksara lainnya seperti aksara Urdu dan lainnya. 3. Pada penelitian berikutnya diharapkan aplikasi dapat berjalan pada sistem operasi berbasis android.
Universitas Sumatera Utara
Universitas Sumatera Utara 55
DAFTAR PUSTAKA
Baramola, A. 2010. Offline Signature Recognition using Hidden Markov Model. International Journal of Computer Applications (0975 – 8887) Volume 10– No.2.
Boulide, Y. 2013. Detection of Text Lines of Handwritten Arabic Manuscripts using Markov Decision Processes. Special Issue on Artificial Intelligence Underpinning.
Amornsawaddirak, C., Natte, C. & Khamsemanan, N. 2014. Mathematical Handwritten Formula Recognition.
Dave, N. 2015. Segmentation Methods for Hand Written Character Recognition. International Journal of Signal Processing, Image Processing and Pattern Recognition Vol. 8, No. 4.
Faridh, M. M. 2013. Pengenalan Karakter Huruf Tulisan Tangan Menggunakan Metode Principal Components Analysis.
Hayuning, T. 2014. Pengenalan Karakter Teks Menggunakan Metode Neural Network Backpropagation.
Kadir, A & Adhi, S. 2013. Teori dan Aplikasi Pengolahan Citra. Andi: Yogyakarta.
Kozok, U. 2017. Surat Batak. Diambil dari: http://ulikozok.com. Kumar, M. 2011. k -Nearest Neighbor Based Offline Handwritten Gurmukhi Character Recognition. International Conference on Image Information Processing (ICIIP).
Kumar, M. 2014. Offline Handwritten Gurmukhi Script Recognition. Thesis. School of Mathematics and Computer Applications Thapar University Patiala–Punjab India July, 2014.
Prasetyo, H. B., Adiwijaya, Wisesty, U. N. 2016. Algoritma Pengenalan Ucapan Huruf Hijaiyah Bertanda Baca Dengan Linear Predictive Coding (LPC) dan Hidden Markov Model (HMM). Journal Indo Symposium on Computing Sept 2016.
Putra, D. 2010. Pengolahan Citra Digital.Yogyakarta. Penerbit: ANDI.
Sutoyo, T,dkk. 2009. Teori Pengolahan Citra Digital. Andi: Yogyakarta.
Tyagi, Karishma. 2014. Implementation of Character Recognition using Hidden Markov Model. International Journal of Engineering Research & Technology (IJERT) Vol. 3 Issue 2. Universitas Sumatera Utara
Universitas Sumatera Utara 56
Syakhala, A. R., Puspitaningrum, D. & Purwandari, E. P. 2015. Perbandingan Metode Principal Component Analysis (PCA) dengan Metode Hidden Markov Model (HMM) dalam Pengenalan Identitas Seseorang Melalui Wajah. Jurnal Rekursif, Vol. 3 No.2 November 2015, ISSN 2303-0755.
Mahid, Masitoh dkk. 2016. Pengenalan Huruf Arab Menggunakan Metode Reduksi
Yuwitaning, E. F. 2014. Implementasi Metode Hidden Markov Model Untuk Deteksi Tulisan Tangan. e-Proceeding of Engineering : Vol.1, No.1 Desember 2014.
Boudaoud, L. B., Sider A. & Tari A. 2015. A New Thinning Algorithm for Binary Images. International Conference on Control, Engineering & Information Technology (CEIT). University of Bejaia, Algeria.
Burney, S. M. A. & Tariq, H. 2014. K-Means Cluster Analysis for Image Segmentation. International Journal of Computer Applications (0975 – 8887) Volume 96– No.4, June 2014. Institute of Business Management Karachi, CO 75270 Pakistan.
S.Hussien, Rana.2015. Optical Character Recognition of Arabic Handwritten Characters using Neural Network. International Conference on Computing, Control, Networking, Electronics and Embedded Systems Engineering
Universitas Sumatera Utara
Universitas Sumatera Utara 57
LAMPIRAN 1
Tabel Dokumen Aksara Batak
Etnis Nama_dok Gambar Karo dok_karo1
Karo dok_karo2
Universitas Sumatera Utara
Universitas Sumatera Utara 58
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Karo dok_karo3
Toba dok_toba1
Universitas Sumatera Utara
Universitas Sumatera Utara 59
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Toba dok_toba2
Toba dok_toba5
Universitas Sumatera Utara
Universitas Sumatera Utara 60
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Pakpak dok_pakpak1
Pakpak dok_pakpak2
Universitas Sumatera Utara
Universitas Sumatera Utara 61
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Pakpak dok_pakpak3
Simalungun dok_simalun gun5
Universitas Sumatera Utara
Universitas Sumatera Utara 62
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Simalungun dok_simalun gun1
Simalungun dok_simalun gun2
Universitas Sumatera Utara
Universitas Sumatera Utara 63
Tabel Dokumen Aksara Batak (lanjutan)
Etnis Nama_dok Gambar Mandailing dok_mandail ing1
Mandailing dok_mandail ing2
Universitas Sumatera Utara
Universitas Sumatera Utara 64
LAMPIRAN 2
Tabel Perbandingan Hasil Sistem Dengan Data Pengenalan Aksara Batak
No Input Dokumen .jpg Hasil Recognition .docx Keterangan 1 Data : dok_karo1.docx Error (ditandai dengan kotak merah) 1. i (I) 2. i (I) 3. e (e)
2 Data : dok_toba5.docx
Error (ditandai dengan kotak biru) 1. g (g) 2. r(r) 3. g(g) 4. g(g) 5. px(px) 6. p(p) 7. u(u)
Ada beberapa huruf yang tidak terbaca.
3 Data : dok_karo6.docx
Error (ditandai dengan kotak biru) 1. jo (jo)
2. a (a) 3. k (k) 4. g (g) 5. d (d) 6. aay (aay) 7. jjq (jjq)
Universitas Sumatera Utara
Universitas Sumatera Utara 65
Universitas Sumatera Utara
Universitas Sumatera Utara