Pengenalan Citra Dokumen Aksara Batak Dengan Metode Hidden Markov Models

PENGENALAN CITRA DOKUMEN AKSARA BATAK DENGAN METODE HIDDEN MARKOV MODELS

SKRIPSI

RIFANDI INDRAYUDHA PRAWIRA 131402081

PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2018

Universitas Sumatera Utara PENGENALAN CITRA DOKUMEN AKSARA BATAK DENGAN METODE HIDDEN MARKOV MODELS

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

RIFANDI INDRAYUDHA PRAWIRA 131402081

PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2018

Universitas Sumatera Utara ii

Universitas Sumatera Utara

Universitas Sumatera Utara iii

Universitas Sumatera Utara

Universitas Sumatera Utara iv

UCAPAN TERIMA KASIH

Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada :

1. Bapak Prof. Runtung Sitepu, SH., M.Hum selaku Rektor Universitas Sumatera Utara. 2. Bapak Prof. Dr. Opim Salim Sitompul selaku Dekan Fasilkom-TI USU. 3. Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. 4. Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Dosen Pembimbing I yang telah memberikan bimbingan dan saran kepada penulis. 5. Bapak Ivan Jaya, S.Si., M.Kom selaku Dosen Pembimbing II yang telah memberikan bimbingan dan saran kepada penulis. 6. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini. 7. Bapak Dedy Arisandi, ST., M.Kom selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini. 8. Ayahanda Fahril Syafhaniz dan Ibunda Delia Herlinawati yang selalu memberikan doa, kasih sayang, nasehat, dan dukungan yang tiada putusnya kepada penulis. 9. Kedua adik saya Rinaldi Adithya Nugraha dan Rizky Adiaksa Putra yang selalu memberikan semangat kepada penulis . 10. Keluarga besar Haholongan, Hengky Wijaya, S.Kom., Afin Zaky S.Kom., Fadhil Ramadhan (S.Kom.), Arfan Rahmat S.Kom., Odysius Budhistiani Anwar (S.Kom.), Elsa Trida Sawitri S.Kom., Inu Wulandari S.Kom., Khadija Rina (S.Kom.), Regania Pascha Raschy S.Kom., Chintya Dwi Hevlima S.Kom., Enno Putri Syah Alami S.Kom., dan Suci Dwi Nur, S.Kom. yang menampung segala

Universitas Sumatera Utara

Universitas Sumatera Utara v

hal cerita baik senang, bahagia, sedih, memberikan nasehat selama kuliah dan sebagai saudara yang berbeda orangtua. 11. Bachtiar Muhammad Lubis (S.Kom.), Nandar Cholid Siregar S.Kom., Mhd.Arif Rahman (S.Kom.), Lisa Noprianti Siregar S.Kom, Tuti Simanjuntak S.Kom, teman seperjuangan skripsi aksara Batak yang memberikan dukungan dan semangat kepada penulis. 12. Teman - teman D’Element yang telah memberikan semangat serta berbagi suka dan duka sejak SMP. 13. Sahabat dan saudara Ali Malindo Rajafad S.Kom yang selalu memberikan semangat dan dukungan kepada penulis. 14. Bapak Manguji Nababan selaku dosen dan kepala Pusat Dokumentasi Pengkajian Kebudayaan Batak (PD&PKB) Universitas Nommensen Medan yang telah bersedia memberikan pengajaran aksara Batak dan memberikan data penelitian kepada penulis. 15. Teman-teman Kom A 2013 yang telah memberikan semangat dan dukungan kepada penulis. 16. Teman-teman Teknologi Informasi USU terkhusus angkatan 2013, abangnda dan kakanda angkatan 2012 yang juga memberikan semangat kepada penulis. 17. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu persatu yang telah membantu penyelesaian skripsi ini.

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.

Medan, 23 Juli 2018

Penulis

Universitas Sumatera Utara

Universitas Sumatera Utara vi

ABSTRAK

Pengenalan tulisan tangan aksara batak masih dilakukan secara manual dan hanya pakar sajalah yang dapat membaca aksara tersebut. Oleh karena itu, maka diperlukan sebuah sistem untuk mengenali dokumen aksara batak. Sistem ini dibangun dengan menerapkan metode Hidden Markov Models (HMM). Dokumen aksara batak yang telah di scan dengan ekstensi .jpg digunakan sebagai input citra digital. Kemudian pre-processing image dilakukan agar dokumen batak dapat lebih mudah dikenali lalu hasil output sistem akan berupa file dokumen dengan ekstensi .docx yang berisi font aksara batak. Berdasarkan pengujian sistem background pada citra, ukuran huruf aksara dan tidak adanya data training pada dokumen yang dikenali sangat berpengaruh pada tingkat keberhasilan sistem dalam mengenali aksara batak. Metode Hidden Markov Models (HMM) mampu untuk mengenali dokumen aksara batak dengan tingkat keberhasilan sebesar 98.45%.

Kata kunci : Optical Charachter Recognition, aksara Batak, Image Processing, Hidden Markov Models (HMM).

Universitas Sumatera Utara

Universitas Sumatera Utara vii

BATAK SCRIPT DOCUMENT IMAGE RECOGNITION USING HIDDEN MARKOV MODELS METHOD

ABSTRACT

The regocnition of handwriting in the Batak script is still done manually and only experts can read the script. Therefore, a system is needed to identify the Batak script documents. This system was built by applying the Hidden Markov Models (HMM) method. Documents for the Batak script that have been scanned with the .jpg extension are used as digital image input. Then the pre-processing image is done so that the batak document can be more easily recognized then the system output will be a document file with the extension .docx containing the font of the Batak script. Based on testing the system background in the image, the letter size of letters and the absence of training data on the documents identified are very influential on the level of success of the system in recognizing the Batak characters. The Hidden Markov Models (HMM) method is able to recognize the Batak script document with a success rate of 98.45%.

Keyword : Optical Charachter Recognition, Batak script, Image Processing, Hidden Markov Models (HMM).

Universitas Sumatera Utara

Universitas Sumatera Utara viii

DAFTAR ISI

Hal. PERSETUJUAN ii PERNYATAAN iii UCAPAN TERIMA KASIH iv ABSTRAK vi ABSTRACT vii DAFTAR ISI viii DAFTAR TABEL xi DAFTAR GAMBAR xii BAB 1 PENDAHULUAN 1.1 Latar Belakang 1 1.2 Rumusan Masalah 2 1.3 Batasan Masalah 2 1.4 Tujuan Penelitian 2 1.5 Manfaat Penelitian 3 1.6 Metodologi Penelitian 3 1.7 Sistematika Penulisan 4

BAB 2 LANDASAN TEORI 2.1 Aksara 5 2.1.1. Asal Usul Aksara Batak 5 2.1.2. Aksara Batak Karo 6 2.1.3. Aksara (Surat) Batak 7 2.2 Definisi Citra 10 2.3 Jenis Citra 11 2.3.1. Citra Analog 11 2.3.2. Citra Digital 11 2.4 Format File Citra 12

Universitas Sumatera Utara

Universitas Sumatera Utara ix

2.4.1. Format Data Bitmap 13 2.4.2 Format JPEG 14 2.5 Karakteristik File Citra 15 2.5.1. Image Resolution 15 2.5.2. Bit Dept 15 2.6 Citra Warna 16 2.6.1. Mode Warna 16 2.6.2. Pembacaan Nilai Piksel Setiap Sub Image 19 2.7 Pengolahan Citra 19 2.8 Optical Character Recognition (OCR) 20 2.9 Ekstrasi Fitur 20 2.9.1. Modified Direction Feature 20 2.10 Metode Hidden Markov Model 21 2.11 Penelitian Terdahulu 24

BAB 3 ANALISIS DAN PERANCANGAN 3.1 Analis 28 3.1.1. Data Yang Digunakan 28 3.1.2. General Architecture 30 3.1.3. Flowchart Pengenalan Aksara dengan metode HMM 32 3.1.4. Algoritma Hidden Markov Models 33 3.2 Perancangan 33 3.2.1. Perancangan Unified Modelling Language (UML) 34 3.2.2. Use Case Diagram 34 3.2.3. Activity Diagram 34 3.2.4. Perancangan Antarmuka (User interface) 38 3.2.4.1 Rancangan Menu Utama 38 3.2.4.2 Rancangan Pengenalan 40 3.2.4.3 Rancangan Help 40 3.2.4.4 Rancangan About 41

BAB 4 IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Tampilan Antarmuka 42 4.1.1. Tampilan Utama 42

Universitas Sumatera Utara

Universitas Sumatera Utara x

4.1.2. Tampilan Pengenalan Aksara Karo 43 4.1.3. Tampilan Pengenalan Aksara Mandailing 45 4.1.4. Tampilan Pengenalan Aksara Simalungun 46 4.1.5. Tampilan Pengenalan Aksara Toba 47 4.1.5. Tampilan Pengenalan Aksara Pakpak 48 4.2 Pengujian Sistem 49

BAB 5 KESIMPULAN DAN SARAN 5.1 Kesimpulan 53 5.2 Saran 54

DAFTAR PUSTAKA 55

LAMPIRAN 57

Universitas Sumatera Utara

Universitas Sumatera Utara xi

DAFTAR TABEL

Hal.

Tabel 2.1. Aksara Suku Batak 9 Tabel 2.2. Hubungan antara bit per piksel dengan jumlah warna maksimum pada bitmap 14 Tabel 2.3. Hubungan Antara Kedalaman Warna Dan Resolusi Warna 16 Tabel 2.4. Penelitian Terdahulu 26 Tabel 3.1 Dokumen Aksara Batak 29 Tabel 4.1. Hasil Pengujian Sistem 52

Universitas Sumatera Utara

Universitas Sumatera Utara xii

DAFTAR GAMBAR

Hal.

Gambar 2.1. Silsilah Aksara 7 Gambar 2.2. Aksara 8 Gambar 2.3. Kordinat Pada Grafik Matematika 10 Gambar 2.4. Koordinat Pada Citra 11 Gambar 2.5. Proses Sampling dan Kuantisasi 12 Gambar 2.6. Kombinasi Warna RGB 17 Gambar 2.7. Kombinasi Warna CMYK 18 Gambar 2.8. Proses Pengolahan Citra 19 Gambar 2.9. Markov Model 22 Gambar 2.10. Representasi Parameter HMM 23 Gambar 2.11. Flowchart training HMM 24 Gambar 3.1. General Architecture 31 Gambar 3.2. Flowchart Pengenalan 32 Gambar 3.3. Use case Diagram 34 Gambar 3.4. Activity Diagram Menu Utama 35 Gambar 3.5. Activity Diagram Pengenalan 36 Gambar 3.6. Activity diagram Help 37 Gambar 3.7. Activity diagram About 38 Gambar 3.8. Rancangan Menu Utama 39 Gambar 3.9. Rancangan Pengenalan 40 Gambar 3.10. Rancangan Help 41 Gambar 3.11. Rancangan About 41 Gambar 4.1. Tampilan Menu 43 Gambar 4.2. Tampilan Pengenalan Aksara Karo 44 Gambar 4.3. Tampilan Hasil Pengenalan Aksara Karo 44 Gambar 4.4. Tampilan Pengenalan Aksara Mandailing 45 Gambar 4.5. Tampilan Hasil Pengenalan Aksara Mandailing 45

Universitas Sumatera Utara

Universitas Sumatera Utara xiii

Gambar 4.6. Tampilan Pengenalan Aksara Simalungun 46 Gambar 4.7. Tampilan Hasil Pengenalan Aksara Simalungun 46 Gambar 4.8. Tampilan Pengenalan Aksara Toba 47 Gambar 4.9. Tampilan Hasil Pengenalan Aksara Toba 47 Gambar 4.10. Tampilan Pengenalan Aksara Pakpak 48 Gambar 4.11. Tampilan Hasil Pengenalan Aksara Pakpak 48 Gambar 4.12. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Karo 49 Gambar 4.13. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Mandailing 49 Gambar 4.14. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Simalungun 50 Gambar 4.15. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Toba 50 Gambar 4.16. Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak 51

Universitas Sumatera Utara

Universitas Sumatera Utara 1

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Indonesia merupakan negara dengan berbagai macam budaya. Budaya-budaya tersebut antara lain seperti bahasa, lagu, tarian serta masih banyak lagi. Selain bahasa yang beraneka ragam untuk setiap daerah, huruf yang digunakan pada setiap bahasa juga berbeda. Salah satu bahasa yang memiliki huruf yang unik adalah bahasa Batak. Huruf yang digunakan dalam bahasa Batak bukan huruf latin dan biasa disebut dengan aksara Batak. Penggunaan aksara Batak saat ini sudah dimulai ditinggalkan oleh masyarakat Batak. Orang Batak yang mengerti bentuk-bentuk aksara Batak sudah sangat sedikit. Usaha-usaha untuk melestarikan aksara tersebut sudah ada namun mengalami kendala, salah satunya adalah kurangnya alat bantu untuk mengakomodasi pemikiran-pemikiran yang menggunakan aksara Batak. Oleh karena itu, penerapan pada teknologi diperlukan sebagai salah satu upaya pelestarian budaya Batak khususnya aksara Batak dimana teknologi ini dapat mengenali aksara Batak melalui sebuah citra seperti arsip budaya Batak yang telah di-scan dan mengubahnya ke dalam file teks. Pengenalan pola huruf dengan klasifikasi Hidden Markov Models (HMM) telah digunakan pada penelitian-penelitian sebelumnya terutama pengenalan pola huruf Arab. Pengenalan pola huruf merupakan bagian dari bidang pembelajaran mesin yang mencoba memanfaatkan karakteristik unik pada karakter untuk dapat dinyatakan dalam serangkaian objek pengamatan, kemudian dikenali oleh suatu sistem. Beberapa penelitian dalam bidang pengenalan wajah juga telah dilakukan, namun sebagian besar penelitian hanya fokus pada deteksi salah satu ciri wajah saja. Inti dari sistem deteksi pada huruf yang cacat ini terdiri dari tahapan ekstraksi ciri dan klasifikasi. Untuk tahap klasifikasi digunakan Hidden Markov Models (HMM) yang telah diimplementasikan pada beberapa kasus pengenalan karakter menggunakan akuisisi

Universitas Sumatera Utara

Universitas Sumatera Utara 2

citra secara online maupun offline dalam proses klasifikasinya. HMM merupakan sebuah model statistik, dimana model sistem diasumsikan sebagai Markov proses dengan parameter yang tersembunyi. Tujuannya adalah untuk menentukan parameter- parameter yang dapat diamati. Adapun proses pengenalannya dilakukan dengan mencari karakter yang memberikan peluang terbesar terhadap kemunculan urutan pengamatan tersebut pada model HMM. Dengan melihat latar belakang diatas maka penulis mengangkat judul penelitian ini dengan Pengenalan Citra Dokumen Aksara Batak dengan Metode Hidden Markov Models.

1.2 Rumusan Masalah

Masalah yang akan dibahas adalah bagaimana sistem dapat melakukan pengenalan tulisan tangan aksara batak dan berapa % keakuratan pengenalan dokumen dengan menggunakan metode Hidden Markov Models.

1.3 Batasan Masalah

Pada penelitian ini yang menjadi batasan masalah adalah: 1. Sistem yang dibangun berbasis desktop. 2. Dokumen yang diinput hasil scan dokumen asli yang berformat citra (JPG). 3. Jenis aksara yang dibahas adalah Batak Karo, Simalungun, Mandailing, Pakpak serta Toba. 4. Output aplikasi berupa dokumen yang berformat docx.

1.4 Tujuan Penelitian

Adapun tujuan penelitian ini adalah mengenali citra atau gambar aksara Batak dan mengubahnya dalam bentuk dokumen yang berformat docx dengan metode Hidden Markov Models.

Universitas Sumatera Utara

Universitas Sumatera Utara 3

1.5 Manfaat Penelitian

Manfaat penelitian ini adalah: 1. Pengguna dapat lebih mudah memahami aksara Batak yang ditulis tangan dan dapat mengubahnya dalam bentuk file teks. 2. Pembaca dapat lebih memahami cara kerja metode Hidden Markov Models.

1.6 Metodologi Penelitian

Dalam penelitian ini ada beberapa tahapan yang dilakukan, yaitu : 1. Data Collection Penelitian ini dimulai dengan melakukan pengumpulan data, yaitu proses pengambilan data sebagai bahan referensi baik dari buku, artikel, jurnal, makalah, situs internet yang berkaitan dengan penelitian. 2. Data Preparation Pada tahap ini dilakukan persiapan data yang sudah dikumpulkan untuk bahan masukkan aplikasi komputer. 3. Analisis dan Perancangan Sistem Pada tahap ini dilakukan analisis tentang pengolahan citra, metode Hidden Markov Models dalam pengenalan aksara Batak serta perancangan antar muka aplikasi. 4. Pengujian Pada tahap ini dilakukan pengujian sistem yang telah dibuat apakah sitem tersebut berjalan sesuai dengan apa yang diinginkan. 5. Implementasi Sistem Pada tahap ini sistem yang telah dirancang kemudian diimplementasikan untuk pengenalan dokumen aksara Batak. 6. Dokumentasi Data yang telah diperoleh dengan aplikasi tersebut disimpan dalam bentuk dokumen atau laporan sebagai bahan referensi tugas akhir.

Universitas Sumatera Utara

Universitas Sumatera Utara 4

1.7 Sistimatika Penulisan

BAB 1 : PENDAHULUAN Pada bab ini merupakan bagian yang berisi mengenai latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, serta sistematika penulisan. BAB 2 : LANDASAN TEORI Bab ini akan membahas teori-teori yang berhubungan dengan pokok pembahasan dalam penelitian ini. Pada bab ini akan dijelaskan tentang landasan teori tentang pengolahan citra, aksara Batak, metode Hidden Markov Models serta penelitian terdahulu.

BAB 3 : ANALISIS DAN PERANCANGAN

Bab ini membahas mengenai metode pengenalan aksara Batak menggunakan metode Hidden Markov Models, flow chart sistem serta perancangan antar muka aplikasi.

BAB 4 : IMPLEMENTASI DAN PENGUJIAN SISTEM

Pada bab ini berisi tentang hasil koding pengenalan aksara Batak menggunakan metode Hidden Markov Models serta hasil pengujian terhadap parameter yang digunakan. BAB 5 : KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan hasil rancangan aplikasi yang telah dibuat dan disertai dengan saran yang diberikan oleh penulis apabila aplikasi ini ingin dikembangkan lebih lanjut.

Universitas Sumatera Utara

Universitas Sumatera Utara 5

BAB 2 LANDASAN TEORI

2.1 Aksara

Aksara adalah sebuah simbolisasi visual yang tertera pada media tulis berupa kertas, kayu, bambu, daun, batu, logam dan media prasasti lainnya. Simbol visual difungsikan untuk mengutarakan ataupun menterjemahkan unsur-unsur ekspresif dari suatu bahasa lisan menjadi tulisan, dengan ketentuan disepakati dan dimengerti oleh para penggunanya. Di Indonesia terdapat beragam macam bentuk aksara yang mewakili setiap daerahnya masing-masing. Aksara di Indonesia kebanyakan dipengaruhi oleh bentuk aksara dari India. Ini berawal semenjak mulai masuknya penyebaran agama Hindu-Budha ke Indonesia.

2.1.1 Asal Usul Aksara Batak Keterangan tentang asal usul aksara batak ini merujuk penelitian Kozok, 1999. Dalam buku Warisan Leluhur dan sastra lama, surat Batak sering diklasifikasikan sebagai sebuah silabogram, namun ini jelas keliru karena aksara Batak sebagaimana juga aksara-aksara lainnya di Nusantara merupakan bagian dari rumpun tulisan Brahmi (India) yang lebih tepat dapat diklasifikasikan sebagai abugida (paduan antara silabogram dan abjad). Sebuah abugida terdiri dari aksara yang melambangkan sebuah konsonan sementara vokal dipasang pada aksara sebagai diakritik. Abugida adalah jenis tulisan yang bersifat fonetis dalam arti bahwa setiap bunyi bahasanya dapat dilambangkan secara akurat. Paleografi adalah ilmu tentang tulisan-tulisan kuno. Dibanyak masyarakat yang mengenal tulisan terdapat naskah-naskah kuno yang umurnya dapat mencapai ratusan atau bahkan ribuan tahun. Aksara yang terdapat pada naskah-naskah kuno pada umumnya berbeda dengan aksara yang terdapat dalam naskah yang lebih baru. Dengan cara memperbandingkan aksara-akasara yang terdapat dalam naskah-naskah lama, kita dapat menyusun semacam silsilah aksara.

Universitas Sumatera Utara

Universitas Sumatera Utara 6

Sebagian besar sistem tulisan yang ada di Afrika, Eropa, dan Asia berasal dari satu sumber, yakni aksara Semit kuno yang menjadi nenek moyang tulisan-tulisan Asia (Arab, Ibrani dan India) maupun Eropa (Latin, Yunani dsb.) Aksara Batak termasuk keluarga tulisan India. Aksara India yang tertua adalah aksara Brahmi yang menurunkan dua kelompok tulisan yakni India Utara dan India Selatan. Aksara Nagari dan Palawa masing-masing berasal dari kelompok utara dan selatan dan kedua-duanya pernah dipakai diberbagai tempat Asia Tenggara, termasuk Indonesia (Casparis 1975). Yang paling berpengaruh adalah aksara Palawa. Semua tulisan asli Indonesia berinduk pada aksara tersebut. Pada Gambar 2.1 dapat dilihat dimana secara garis besar tempatnya aksara Batak dalam silsilah tulisan sedunia. Aksara batak terbagi lagi atas wilayahnya masing-masing, yaitu Angkola Mandailing, Simalungun, Pakpak Dairi, Toba dan Karo. Dari setiap aksara Batak ini memiliki bentuk aksara yang hampir sama, yang membedakannya hanya pada cara pengucapan, bahasa dan beberapa bentuk yang berbeda. Aksara Batak Karo merupakan salah satu aksara Batak yang ada di daratan tinggi tanah Karo.

2.1.2 Aksara Batak Karo

Aksara Batak Karo adalah salah satu aksara kuno yang ada di Indonesia. Aksara Batak Karo ini merupakan peninggalan budaya dari masyarakat (etnis) Karo yang berbentuk tulisan simbol-simbol yang dimiliki olehmasyarakat Karo kuno. Tulisan atau aksara Batak Karo ini tumbuh dan berkembang di masyarakat (etnis) Karo serta tersebar luas. Aksara Batak Karo digunakan dan diajarkan pada wilayah daerah Karo yang dahulunya meliputi pesisir timur di Sumatera bagian Utara dan daratan tinggi Karo yang terbentang luas di atas pegunungan bukit Barisan. Aksara Batak Karo sama halnya dengan aksara-aksara Batak yang lainnya, karena pada aksara terdapat kumpulan dari tanda-tanda (karakter/simbol-simbol) yang memiliki arti untuk menyatakan sesuatu dan pemakaiannya dimengerti dan disepakati oleh masyarakat penggunanya. Dahulu, aksara Batak Karo digunakan masyarakat Batak Karo sebagai alat untuk berkomunikasi, menuliskan ramuan obat, mantera dan cerita-cerita. Masyarakat Batak Karo menuliskan aksara Batak Karo pada kulit kayu, tulang dan bambu. Alat untuk menulisnya terbuat dari bambu atau kayu yang ujungnya

Universitas Sumatera Utara

Universitas Sumatera Utara 7

diruncingkan sehingga menyerupai seperti pena atau pensil, dan tintanya terbuat dari minyak kayu yang dibakar.

2.1.3 Aksara (Surat) Batak Surat Batak sering diklasifikasikan sebagai sebuah silabogram, namun ini jelas keliru karena aksara Batak sebagaimana juga aksara-aksara lainnya di Nusantara merupakan bagian dari rumpun tulisan Brahmi (India) yang lebih tepat dapat diklasifikasikan sebagai abugida (paduan antara silabogram dan abjad). Sebuah abugida terdiri dari aksara yang melambangkan sebuah konsonan sementara vokal dipasang pada aksara sebagai diakritik. Abugida adalah jenis tulisan yang bersifat fonetis dalam arti bahwa setiap bunyi bahasanya dapat dilambangkan secara akurat (Kozok, 2017). Aksara Batak termasuk keluarga tulisan India. Aksara India yang ter•tua adalah aksara Brahmi yang menurunkan dua kelompok tulisan yakni In•dia Utara dan India Selatan. Aksara Nagari dan Palawa masing-masing ber•asal dari kelompok utara dan selatan dan kedua-duanya pernah dipakai di berbagai tem•pat di Asia Tenggara, termasuk Indonesia (Casparis, 1975). Yang paling berpengaruh adalah aksara Palawa. Semua tulisan asli Indonesia berinduk pada aksara tersebut.

Universitas Sumatera Utara

Universitas Sumatera Utara 8

Gambar 2.1 Silsilah Aksara Sumber: Uli Kozok, 2017 Surat Batak terdiri dari 19 ina ni surat dan 5 anak ni surat. Abjadnya mempunyai beberapa urutan, salah satunya dipakai dalam gambar sebelah kiri. Urutan lain adalah: a ha ma na ra ta sa pa la ga ja da nga ba wa ya nya i u

Di samping itu masih ada beberapa versi urutan abjad yang lain. Sebagaimana halnya dengan semua aksara keturunan India maka Surat Batak juga terdiri dari aksara yang selalu berakhir dengan vokal a, dan tanda diakritis yang dalam bahasa Batak disebut anak ni surat. Jumlah anak ni surat bervariasi dan di Toba berjumlah enam. Keenam anak ni surat digunakan untuk mengubah ina ni surat dengan a. menggantikan nilai /a/ yang melekat pada setiap aksara dengan vokal /ə/ (e- pepet ini hanya terdapat di Karo & Pakpak), /e/, /i/, /o/, atau /u/. b. dengan menambahkan bunyi sengau /ŋ/ (ng) pada sebuah aksara. c. dengan menambahkan bunyi desir /h/ pada sebuah aksara (khususnya Karo, Pakpak & Simalungun). d. dengan menghapus bunyi /a/ pada aksara induk. Kedelapan anak ni surat masing-masing memiliki nama tersendiri dan kadang-kadang terdapat lebih dari satu nama tergantung pada daerah atau tradisi masing-masing.

Ina ni Surat Anak Ni Surat

Universitas Sumatera Utara

Universitas Sumatera Utara 9

Gambar 2.2 Aksara Sumber: Uli Kozok Suku Batak terdiri dari beberapa kelompok yaitu Batak Toba, Simalungun, Karo, Pakpak, Mandailing, dan Angkola. Setiap etnik batak menjunjung nilai-nilai sosial budaya yang hampir sama dengan sub etnik lainnya yang pada dasarnya memiliki kesamaan dalam kebudayaan seperti halnya dalam penulisan aksara batak, hanya saja memiliki sedikit perbedaaan. Berikut ini adalah tabel dari setiap aksara suku Batak.

Tabel 2.1 Aksara Suku Batak

Universitas Sumatera Utara

Universitas Sumatera Utara 10

2.2 Definisi Citra

Suatu citra adalah fungsi intensitas 2 dimensi f (x,y), dimana x dan y adalah koordinat spasial dan f pada titik (x,y) merupakan tingkat kecerahan (brightness) suatu citra pada suatu titik. Suatu citra diperoleh dari penangkapan kekuatan sinar yang dipantulkan oleh objek. Citra digital tersusun atas sejumlah berhingga elemen, masing-masing memiliki lokasi dan nilai/intensitas tertentu. Elemen-elemen ini disebut elemen gambar, elemen citra, pels, dan juga piksel yang dinyatakan dalam bilangan bulat. Tingkat ketajaman atau resolusi warna pada citra digital tergantung pada jumlah ”bit” yang digunakan oleh komputer untuk merepresentasikan setiap piksel tersebut. Tipe yang sering digunakan untuk merepresentasikan citra adalah ”8- bit citra” (256 colors (0 untuk hitam - 255 untuk putih)), tetapi dengan kemajuan teknologi perangkat keras grafik, kemampuan tampilan citra di komputer hingga 32 bit (232 warna) (Gonzalez, 2003). Piksel (0,0) terletak pada sudut kiri atas pada citra, indeks x begerak ke kanan dan indeks y bergerak ke bawah. Konvensi ini dipakai merujuk pada cara penulisan larik yang digunakan dalam pemrograman komputer. Letak titik origin pada koordinat grafik citra dan koordinat pada grafik matematika terdapat perbedaan. Hal yang berlawanan untuk arah vertikal berlaku pada kenyataan dan juga pada sistem grafik dalam matematika yang sudah lebih dulu dikenal. Gambar 2.3 berikut memperlihatkan perbedaan kedua sistem ini.

Titik (0,0)

Gambar 2.3 Koordinat pada grafik matematika (Gonzalez, 2003)

Universitas Sumatera Utara

Universitas Sumatera Utara 11

Titik (0,0)

Gambar 2.4 Koordinat pada citra (Gonzalez, 2003).

2.3 Jenis Citra

Jenis-jenis citra dapat dibagi menjadi citra analog dan citra digital, yaitu:

2.3.1 Citra Analog

Citra analog adalah citra yang terdiri dari sinyal – sinyal frekuensi elektromagnetis yang belum dibedakan sehingga pada umumnya tidak dapat ditentukan ukurannya. Analog berhubungan dengan hal yang kontinu dalam satu dimensi, contohnya adalah bunyi diwakili dalam bentuk analog, yaitu suatu getaran gelombang udara yang kontinu dimana kekuatannya diwakili sebagai jarak gelombang. Hampir semua kejadian alam boleh diwakili sebagai perwakilan analog seperti bunyi, cahaya, air, elektrik, angin dan sebagainya (Putra, 2010).

2.3.2 Citra Digital

Citra digital merupakan representatif dari citra yang diambil oleh mesin dengan bentuk pendekatan berdasarkan sampling dan kuantisasi. Sampling menyatakan besarnya kotak-kotak yang disusun dalam baris dan kolom. Dengan kata lain, sampling pada citra menyatakan besar kecilnya ukuran pixel (titik) pada citra, dan kuantisasi menyatakan besarnya nilai tingkat kecerahan yang dinyatakan dalam nilai tingkat keabuan (grayscale) sesuai dengan jurnlah bit biner yang digunakan oleh mesin, dengan kata lain kuantisasi pada citra menyatakan jumlah warna yang ada pada citra. (Sutoyo, 2009). Sampling adalah proses untuk menentukan warna pada pixel tertentu pada citra dari sebuah gambar yang kontinu. Pada proses sampling biasanya

Universitas Sumatera Utara

Universitas Sumatera Utara 12

dicari warna rata-rata dari gambar analog yang kemudian dibulatkan. Proses sampling sering juga disebut proses digitisasi seperti pada Gambar 2.5.

Gambar 2.5 Proses Sampling dan Kuantisasi (Gonzalez, 2003)

Sampling menyatakan banyaknya pixel (blok) untuk mendefinisikan suatu gambar. Sedangkan kuantisasi meunjukkan banyaknya derajat nilai pada setiap pixel (menunjukkan jumlah bit pada gambar digital, misal b/w dengan dua bit, grayscale dengan delapan bit, true color dengan 24 bit). (Gonzalez, 2003).

2.4 Format File Citra

Sebuah format citra harus dapat menyatukan kualitas citra, ukuran file dan kompatibilitas dengan berbagai aplikasi. Saat ini tersedia banyak format grafik dan format baru tersebut yang sudah dikembangkan, diantaranya yang terkenal adalah BMP, JPEG, dan GIF. Setiap program pengolahan citra biasanya memiliki format citra tersendiri. Format dan metode dari suatu citra yang baik juga sangat bergantung pada jenis citranya. Setiap format file citra memiliki kelebihan dan kekurangan masing – masing dalam hal citra yang disimpan. Citra tertentu dapat disimpan dengan baik (dalam arti ukuran file lebih kecil dan kualitas gambar tidak berubah) pada format file citra tertentu, apabila disimpan pada format lain kadang kala dapat menyebabkan ukuran file menjadi lebih besar dari aslinya dan kualitas citra dapat menurun oleh karena itu, untuk menyimpan suatu citra harus diperhatikan citra dan Universitas Sumatera Utara

Universitas Sumatera Utara 13

format file citra apa yang sesuai. Misalnya format citra GIF sangat tidak cocok untuk citra fotografi karena biasanya citra fotografi kaya akan warna, sedangkan format GIF hanya mendukung sejumlah warna sebanyak 256 (8 bit) saja. Format JPEG merupakan pilihan yang tepat untuk citra – citra fotografi karena JPEG sangat cocok untuk citra dengan perubahan warna yang halus (Gonzalez, 2003).

2.4.1 Format Data Bitmap

Pada format bitmap, citra disimpan sebagai suatu matriks di mana masing – masing elemennya digunakan untuk menyimpan informasi warna untuk setiap piksel. Jumlah warna yang dapat disimpan ditentukan dengan satuan bit-per-piksel. Semakin besar ukuran bit-per-piksel dari suatu bitmap, semakin banyak pula jumlah warna yang dapat disimpan. Format bitmap ini cocok digunakan untuk menyimpan citra digital yang memiliki banyak variasi dalam bentuknya maupun warnanya, seperti foto, lukisan, dan frame video. Format file yang menggunakan format bitmap ini antara lain adalah BMP, DIB, PCX, GIF, dan JPG. Format yang menjadi standar dalam system operasi Microsoft Windows adalah format bitmap BMP atau DIB. (Sutoyo, 2009) Karakteristik lain dari bitmap yang juga penting adalah jumlah warna yang dapat disimpan dalam bitmap tersebut. Ini ditentukan oleh banyaknya bit yang digunakan untuk menyimpan setiap titik dari bitmap yang menggunakan satuan bpp (bit per piksel). Dalam Windows dikenal bitmap dengan 1, 4, 8, 16, dan 24 bit per piksel. Jumlah warna maksimum yang dapat disimpan dalam suatu bitmap adalah n sebanyak 2 , dimana n adalah banyaknya bit yang digunakan untuk menyimpan satu titik dari bitmap. (Kumar, 2014) Berikut ini tabel yang menunjukkan hubungan antara banyaknya bit per piksel dengan jumlah warna maksimum yang dapat disimpan dalam bitmap, dapat dilihat pada Tabel 2.2.

Tabel 2.2 Hubungan antara bit per piksel dengan jumlah warna maksimum pada bitmap No Jumlah bit per Jumlah warna piksel maksimum

1 1 2

Universitas Sumatera Utara

Universitas Sumatera Utara 14

2 4 16

3 8 256

4 16 65536

5 24 16777216

2.4.2 Format JPEG

JPEG adalah suatu desain untuk mengkompresi citra baik gray-level maupun citra full-color. JPEG tidak hanya menangani data dalam bentuk citra, tetapi juga dapat berhubungan dengan gambar yang disebut dengan motion picture (MPEG). JPEG merupakan singkatan dari Joint Photographic Experts Group, merupakan suatu komite yang menyusun standar citra pada akhir tahun 80-an dan awal tahun 90-an. Kata “Joint” pada JPEG melambangkan status data di dalam kerja sama panitia ISO dan ITU_T. Format yang dihasilkan merupakan standar ISO IS-10918. Format file ini dikembangkan oleh C-Cube Microsystems untuk memberikan sebuah metode yang efisien untuk menyimpan citra dengan jumlah warna yang sangat banyak seperti foto kamera. (Kadir, 2013) Perbedaan utama antara format JPEG dengan format citra yang lainnya adalah bahwa file JPEG menggunakan metode lossy untuk proses pemampatannya. Pemampatan secara lossy akan membuang sebagian data citra untuk memberikan hasil kompresi yang baik. Hasil file JPEG yang di-dekompres tidak begitu sesuai dengan citra aslinya, tetapi perbedaan ini sangat sulit dideteksi oleh mata manusia. (Kadir, 2013).

2.5 Karakteristik File Citra

Karakteristik file citra ditentukan oleh resolusi (resolution) dan kedalaman bit (bit depth). Karakteristik-karakteristik ini akan menentukan tawar-menawar antara kualitas file citra dan jumlah bit yang dibutuhkan untuk menyimpan atau mentransmisikannya.

Universitas Sumatera Utara

Universitas Sumatera Utara 15

2.5.1 Image Resolution

Image resolution adalah jumlah piksel per inci (kepadatan piksel per inci) yang dinyatakan dengan piksel x piksel. Semakin tinggi resolusi citra, maka semakin baik kualitas citra tersebut, dalam arti bahwa dalam ukuran fisik yang sama, citra dengan resolusi tinggi akan lebih detil serta jika citra diperbesar maka detil citra masih jelas. Namun, resolusi yang tinggi akan mengakibatkan jumlah bit yang diperlukan untuk menyimpan atau mentransmisikannya meningkat (Kadir, 2013).

2.5.2 Bit Depth

Bit depth merupakan jumlah bit yang digunakan untuk merepresentasikan tiap piksel. Bit depth adalah jumlah bit untuk tiap piksel. Semakin banyak jumlah bit yang digunakan untuk merepresentasikan sebuah piksel, yang berarti semakin tinggi kedalaman piksel-nya, maka semakin tinggi pula kualitasnya, dengan resiko jumlah bit yang diperlukan menjadi lebih tinggi (Putra, 2010). Dengan 1 byte (8 bit) untuk tiap piksel, diperoleh 28 atau 256 level intensitas. Dengan level intensitas sebanyak itu, umumnya mata manusia sudah dapat dipuaskan. Kedalaman piksel paling rendah terdapat pada binary-value image yang hanya menggunakan 1 bit untuk tiap piksel, sehingga hanya ada dua kemungkinan bagi tiap piksel, yaitu 0 (hitam) atau 1 (putih). Color resolution merupakan jumlah warna yang dapat ditampilkan pada sebuah citra. Sedangkan color depth adalah jumlah maksimum warna pada citra berdasarkan bit depth dari citra dan layar monitor komputer. Tabel 2.3 berikut menunjukkan hubungan antara bit depth dan color resolution.

Tabel 2.3 Hubungan Antara Kedalaman Warna Dan Resolusi Warna Kedalaman Warna Resolusi Warna Kalkulasi

1 bit 2 warna 21 (2) 2 bit 4 warna 22 (2x2) 3 bit 8 warna 23 (2x2x2) 4 bit 16 warna 24 (2x2x2x2)

Universitas Sumatera Utara

Universitas Sumatera Utara 16

5 bit 32 warna 25 (2x2x2x2x2) 6 bit 64 warna 26 (2x2x2x2x2x2) 7 bit 128 warna 27 (2x2x2x2x2x2x2) 8 bit 256 warna 28 (2x2x2x2x2x2x2x2) 16 bit 65.536 warna 216 24 bit 16.777.216 warna 224 32 bit 4.294.967.296 warna 232

2.6 Citra Warna

Setiap piksel pada citra warna mewakili warna yang merupakan kombinasi dari tiga warna dasar (RGB = Red Green Blue). Setiap warna dasar menggunakan penyimpanan 8 bit = 1 byte, yang berarti setiap warna mempunyai gradasi sebanyak 255 warna. Berarti setiap piksel mempunyai kombinasi warna sebanyak 28 x 28 x 28 = 224 =16 juta warna lebih. Itulah sebabnya format ini dinamakan true color karena mempunyai jumlah warna yang cukup besar sehingga bisa dikatakan hampir mencakup semua warna di alam (Gonzalez, 2003).

2.6.1 Mode Warna

Menampilkan sebuah citra pada layar monitor diperlukan lebih dari sekedar informasi tentang letak dari piksel-piksel pembentuk citra. Untuk memperoleh gambar yang tepat dibutuhkan juga informasi tentang warna yang dipakai untuk menggambarkan sebuah citra digital. Beberapa mode warna yang sering digunakan adalah: 1. Bitmap mode memerlukan 1 bit data untuk menampilkan warna dan warna yang dapat ditampilkan hanya warna hitam dan putih (biner) 2. Indexed Color Mode, mengurutkan warna dalam jangkauan 0-255 (8 bit) 3. Grayscale Mode, menampilkan citra dalam 256 tingkat keabuan. 4. RGB Mode, menampilkan citra dalam kombinasi 3 warna dasar (Red, Green, Blue) tiap warna dasar memiliki intensitas warna 0-255 (8 bit) 5. CMYK Mode, menampilkan citra dalam kombinasi 4 warna dasar (cyan, magenta, yellow, black) tiap warna dasar memiliki intensitas warna 0-255 (8 bit).

Universitas Sumatera Utara

Universitas Sumatera Utara 17

Mode warna RGB menghasilkan warna menggunakan kombinasi dari tiga warna primer merah, hijau, biru. RGB adalah model warna penambahan, yang berarti bahwa warna primer dikombinasikan pada jumlah tertentu untuk menghasilkan warna yang diinginkan. RGB dimulai dengan warna hitam (ketiadaan semua warna) dan menambahkan merah, hijau, biru terang untuk membuat putih. Kuning diproduksi dengan mencampurkan merah, hijau; warna cyan dengan mencampurkan hijau dan biru; warna magenta dari kombinasi merah dan biru. Monitor komputer dan televisi memakai RGB. Sorotan electron menghasilkan sinyal merah, hijau, biru yang dikombinasikan untuk menghasilkan berbagai warna yang dilihat pada layar. Kombinasi warna RGB dapat dilihat pada Gambar 2.6.

Gambar 2.6 Kombinasi Warna RGB (Chuks, 2010)

Warna campuran (selain dari putih) dihasilkan dengan menambahkan warna komponen RGB individual dengan berbagai tingkat saturasi, dengan tingkatan mulai dari 0.0 hingga 1.0 (0 berarti tidak menggunakan warna tersebut; 1 berarti menggunakan warna tersebut pada saturasi penuh). (Gonzalez, 2003). Warna didefenisikan dengan memasukkan intensitas untuk setiap komponen dalam matriks. Tiap komponen memiliki matriksnya sendiri-sendiri dan matriks tersebut bisa dijumlahkan. Sebagai contoh, untuk menghasilkan merah saturasi sempurna, masukan (1,0,0) : 100% merah 0% hijau dan 0% biru. Pada saat ketiga komponen warna tersebut dikombinasikan dalam 100% saturasi (1,1,1) hasilnya adalah putih (seperti diperlihatkan berikut):

Hijau (0,1,0) + Biru (0,0,1) = Cyan (0,1,1) Cyan (0,1,1) + Merah (1,0,0) = Putih (1,1,1)

Warna yang berlawanan satu sama lain dengan model warna RGB disebut warna pelengkap. Jika dicampurkan, warna pelengkap selalu menghasilkan putih. Contoh warna pelengkap adalah Cyan dan Merah, Hijau dan Biru, Magenta dan Hijau. CMYK

Universitas Sumatera Utara

Universitas Sumatera Utara 18

mengacu ke sistem warna yang terbuat dari cyan, magenta, kuning dan hitam. Cyan, magenta dan kuning adalah tiga warna primer pada model warna ini dan merah, hijau, biru adalah model tiga warna sekunder. CMYK memainkan peranan penting pada grafik komputer umum, terutama pada desktop publishing. Hasil percetakan atau gambar lainnya pada kertas menggunakan CMYK yang merupakan model warna pengurangan yaitu pigmen warna menyerap atau menyaring warna putih dan cahaya yang dipantulkan menentukan warna dari gambar. Kombinasi warna CMYK dapat dilihat pada Gambar 2.7 (Gonzalez, 2003).

Gambar 2.7 Kombinasi Warna CMYK (Chuks, 2010)

Pencampuran tinta cyan, magenta dan kuning secara seimbang pada kertas akan menghasilkan warna coklat gelap. Oleh karena itu hitam ditimpahkan ke area yang gelap untuk memberikan penampilan yang lebih baik (hitam adalah K pada CMYK). Konversi ini menggunakan hitam untuk mengompensasi mendapatkan kelakuan nyata dari warna, membuatnya menjadi sangat rumit. Formula sederhana berikut menterjemahkan model RGB ke model CMY:

C = 1 – R M = 1 – G Y = 1 – B Formula tersebut hanya merupakan titik awal. Bagaimanapun pada prakteknya kalibrasi intensif dari piranti dibutuhkan karena pigmen warna khas umumnya tidak bekerja seperti yang diperkirakan dari perhitungan.

2.6.2 Pembacaan Nilai Piksel Setiap Sub Image

Pembacaan nilai piksel dilakukan pada setiap komponen warna (RGB) dengan menggunakan rumus: (Gozales, 2003). Nilai R = c and 255

Universitas Sumatera Utara

Universitas Sumatera Utara 19

Nilai G = (c and 65,280)/256 Nilai B = ((c and 16,711,680)/256)/256 Citra biner adalah representasi citra dengan hanya dua intensitas warna pada tiap pixel-nya yaitu 1 dan 0, dimana nilai 0 mewakili warna hitam dan nilai 1 warna putih. Citra biner merupakan tingkat abu-abu terendah yang dicapai dalam pembentukan citra. Alasan masih digunakannya citra biner dalam pengolahan citra digital karena prosesnya lebih cepat karena jumlah bit untuk tiap pixel-nya lebih sedikit. Citra grayscale diperoleh citra RGB (warna) dengan menggunakan rumus (Moeslund, 2012):

f(x) = (R+G+B)/3

2.7 Pengolahan Citra

Pengolahan citra (image processing) merupakan proses mengolah piksel-piksel di dalam citra digital untuk tujuan tertentu. Pada awalnya pengolahan citra ini dilakukan untuk memperbaiki kualitas citra, namun dengan berkembangnya dunia komputasi yang ditandai dengan semakin meningkatnya kapasitas dan kecepatan proses komputer serta munculnya ilmu-ilmu komputasi yang memungkinkan manusia dapat mengambil informasi dari suatu citra. Proses pengolahan citra secara diagram proses dimulai dari pengambilan citra, perbaikan kualitas citra, sampai dengan pernyataan representatif citra yang dicitrakan seperti pada Gambar 2.8.

Akusisi Citra Perbaikan Kualitas Proses Representatif (Pengambilan Citra) Citra Citra

Gambar 2.8 Proses Pengolahan Citra

Dalam perkembangan lebih lanjut, image processing dan computer vision digunakan sebagai mata manusia, dengan perangkat input image capture seperti kamera dan scanner dijadikan sebagai mata dan mesin komputer (dengan program komputasinya) dijadikan sebagai otak yang mengolah informasi. Sehingga muncul beberapa pecahan bidang yang menjadi penting dalam computer vision, antara

Universitas Sumatera Utara

Universitas Sumatera Utara 20

lain: pattern recognition (pengenalan pola), biometric pengenalan identifikasi manusia berdasarkan ciri-ciri biologis yang tampak pada badan manusia), content based image and video retrieval (mendapatkan kembali citra atau video dengan informasi tertentu), video editing, dan lain-lain (Tu, L & Dong, C. 2013).

2.8 Optical Character Recognition (OCR)

Optical Character Recognition (OCR) adalah sebuah aplikasi komputer yang digunakan untuk mengidentifikasi citra huruf maupun angka untuk dikonversi ke dalam bentuk file tulisan. Sistem pengenal huruf ini dapat meningkatkan fleksibilitas atau kemampuan dan kecerdasan sistem komputer. Sistem pengenal huruf yang cerdas sangat membantu usaha besar- besaran yang saat ini dilakukan banyak pihak yakni usaha digitalisasi informasi dan pengetahuan, misalnya dalam pembuatan koleksi pustaka digital, koleksi sastra kuno digital, dan lain-lain (Hartanto et al., 2014).

2.9 Ekstrasi Fitur

Feature Extraction (Ekstraksi Fitur) adalah suatu pengambilan ciri (Feature) dari suatu bentuk yang nantinya nilai yang didapatkan akan dianalisis untuk proses selanjutnya. Ekstrasi Fitur dilakukan dengan cara menghitung jumlah titik atau pixel yang ditemui dalam setiap pengecekan, dimana pengecekan dilakukan dalam berbagai arah tracing pengecekan pada koordinat kartesian dari citra digital yang dianalisis, yaitu vertikal, horizontal, diagonal kanan, dan diagonal kiri.

2.9.1 Modified Direction Feature

Metode yang digunakan untuk ekstrasi fitur kali ini adalah metode MDF (Modified Direction Feature). MDF adalah kombinasi dari metode Direction Feature (DF) dan Transition Feature (TF), yaitu mengambil dan menghitung nilai ciri berdasarkan goresan (stroke) karakter dari berbagai arah sehingga ciri karakter bersifat unik (Eka Farda Yuwitaning, 2013). Hasil ekstraksi ciri didasarkan pada nilai transisi dan juga ditentukan nilai arah yang terdapat pada citra karakter tersebut. Ekstraksi ciri dengan menggunakan MDF otomatis harus mencari nilai DT dan TF sebelumnya secara terpisah.

Universitas Sumatera Utara

Universitas Sumatera Utara 21

2.10 Metode Hidden Markov Model

Metode Hidden Markov Model merupakan pemodelan probabilitas suatu sistem dengan mencari parameter-parameter markov yang tidak diketahui untuk memperoleh analisis sistem tersebut. Metode Hidden Markov Model (HMM) mampu menangani perubahan statistik dari gambar, dengan memodelkan elemen-elemen menggunakan probabilitas. Salah satu aplikasinya adalah pada image processing, HMM memiliki tiga parameter utama yang harus dicari nilainya terlebih dahulu, ketiga parameter tersebut sebagai berikut. Parameter A yang disebut juga probabilitas transisi state dalam HMM dinyatakan dalam sebuah matriks dengan ukuran N x N dengan N adalah jumlah state yang ada. Matriks A yang terbentuk ditunjukkan oleh persamaan berikut

Keterangan :

= probabilitas transisi dari state i ke state j qt = kondisi saat t P = peluang/probabilitas

Sj = state ke j qt-1= kondisi sesudah qt

Si=state ke i N = jumlah state Parameter B disebut sebagai probabilitas observasi, matriks B yang terbentuk ditunjukkan oleh persamaan berikut

Keterangan

Bj(k) = probabilitas distribusi matriks observasi P = peluang/probabilitas

Vk = probabilitas simbol pengamatan pada state j

Qt = kondisi saat t

Sj= state ke j

Universitas Sumatera Utara

Universitas Sumatera Utara 22

Parameter π, disebut sebagai parameter awal, merupakan probabilitas kemunculan suatu state di awal. Parameter π ditunjukkan dalam persamaan dibawah ini

Hidden markov model dapat dituliskan sebagai λ = (A,B,∏) Setelah ciri karakter didapat, maka diklasifikasi dengan Hidden Markov Model (HMM), yang merupakan perluasan dari rantai Markov di mana state-nya tidak dapat diamati secara langsung (tersembunyi), tetapi hanya dapat mengamati variabel- variabel yang terpengaruh oleh state (Daramola, A. 2010). Hidden Markov Models (HMM) adalah pengembangan dari Markov Model yang ditemukan oleh A.A Markov pada tahun 1906. Berbeda dengan Markov biasa dimana statenya dapat langsung diamati, sehingga probabilitas transisi antar state menjadi satu-satunya parameter. HMM juga dapat disebut suatu model probabilitas yang menggambarkan hubungan statistik antara urutan pengamatan atau observasi O dan urutan state yang tersembunyi (hidden), sehingga dapat diamati secara tidak langsung melalui urutan observasi O. Setiap state pada HMM memiliki distribusi peluang output yang mungkin muncul sebagai suatu set proses stokastik yang akan membentuk suatu deretan observasi.

0. 3 0. 3 0. 2 Cerah 0. 4 Hujan X3 X1 0. 5 0. 3 0. 1 0. 7 Mendung X2

0. 2

Gambar 2.9 Markov Model

Pada Markov Model atau Markov Chain (Gambar 2.9), setiap state terlihat jelas dan hanya memiliki transisi state untuk parameternya. Sedangkan pada HMM, state

Universitas Sumatera Utara

Universitas Sumatera Utara 23

tidak secara langsung terlihat, namun output yang bergantung pada state terlihat. Pada HMM, setiap state memiliki distribusi probabilitas dari setiap output yang mungkin.

Gambar 2.10 Representasi Parameter HMM Penjelasan Gambar 2.10. X = kondisi Y = observasi yang mungkin a = kemungkinan keadaan transisi b = kemungkinan output

Deretan indeks Codebook yang dihasilkan pada proses vector quantization kemudian digunakan sebagai inputan untuk proses training HMM. Indeks ini dapat disebut sebagai simbol observasi HMM. Pada proses training ini akan digunakan untuk memodelkan sejumlah huruf yang nantinya dapat digunakan pada proses testing. Training merupapan masalah Hidden Markov Model yang paling sulit dipecahkan. Pada proses training ini menggunakan algoritma Baumwelch. Model HMM yang dihasilkan pada proses training ini adalah 휆 = (퐴, 퐵, 휋), keterangan dari hasil tersebut adalah A seb agai matriks peluang transisi antar state, B matriks peluang simbol observasi, dan 휋 adalah peluang inisial state. Jenis HMM yang digunakan pada Makalah ini adalah diskrit ergodic. Parameter-parameter HMM seperti A, B, dan 휋 dibangkitkan secara random dengan nilai yang dinormalisasi ke satu. Yang kemudian parameter- parameter tersebut di perkirakan ulang sampai mendapat nilai yang optimal pada proses training. Kemudian untuk parameter HMM yang lain diambil berdasarkan banyaknya state (N) dan jumlah simbol observasi tiap state (M). Pada HMM, yang bersifat hidden adalah statenya, dimana state tersebut adalah jenis suara itu sendiri, sedangkan bagian yang akan diobservasi adalah ciri dari sinyal suara. Parameter HMM yang di reestimasi merupakan hasil implementasi dari algoritma Universitas Sumatera Utara

Universitas Sumatera Utara 24

Baumwelch atau nama lainnya Expection Maximum (EM). Hasil dari reestimasi parameter HMM adalah nilai baru dari elemen-elemen matriks A, B dan 휋. Iterasi pada reestimasi berhenti apabila iterasi sudah maksimal atau jika model baru tidak memberikan perbaikan nilai yang cukup berarti. Sebelum menyelesaikan permasalahan reestimasi terlebih dahulu dihitung variable forward (훼) dan backward (훽). Flowchart training HMM dapat dilihat pada Gambar 2.11.

Gambar 2.11 Flowchart training HMM

Setelah dilakukan inisialisasi parameter model HMM 휆 = (퐴, 퐵, 휋) yang dibangkitkan secara random dengan nilai yang dinormalisasi ke satu, kemudian dilakukan perhitungan ( ) dan 훽푡 (푖) dengan algoritma forward dan backward. Perhitungan (푖) dapat dihitung secara induktif dengan tiga tahap menggunakan forward algorithm yaitu: 1. Inisialisasi 2. Induksi 3. Akhir

2.11 Penelitian Terdahulu

Ada beberapa penelitian sebelumnya yang pernah dilakukan, diantaranya yaitu Deteksi Baris Teks Manuskrip Arab Tulisan Tangan dengan menggunakan Markov Decision Processes. Penelitian ini menghasilkan sebuah pendekatan berdasarkan Markov Decision Processes untuk mengekstrak teks dari gambar biner dokumen tulisan tangan Arab. Metode yang didasarkan pada analisis ini menggunakan informasi geometris seperti bentuk, orientasi, posisi, dan ukuran karakter untuk mengelompokkannya dalam barisan. Metode ini lebih sesuai untuk dokumen kompleks dibandingkan metode berdasarkan Proyeksi Profil (PP), walaupun dapat Universitas Sumatera Utara

Universitas Sumatera Utara 25

sensitif terhadap perubahan struktur ukuran dan komponen. Dengan metode ini peneliti memperoleh tingkat akurasi sebesar 90.5% (Boulid, Y. 2013). Selanjutnya dilakukan penelitian untuk pengenalan karakter Gurmukhi dari tulisan tangan dengan metode k-Nearest Neighbor secara offline. Sistem pengenalan karakter Gurmukhi dari tulisan tangan ini berdasarkan fitur diagonal dan transisi fitur menggunakan k-NN classifier. Bentuk diagonal dan transisi karakter telah dihitung berdasarkan distribusi titik pada gambar bitmap dari karakter. Dalam metode k-NN, jarak Euclidean antara titik pengujian dan titik referensi dihitung untuk menemukan k- NN. Sistem ini mampu memperoleh akurasi pengenalan karakter maksimum 94,12% (Munish et al, 2011). Pernah juga dilakukan penelitian pengenalan karakter huruf tulisan tangan menggunakan metode Principal Components Analysis yang mana penelitian menggunakan sampel karakter huruf kapital A-Z yang diambil dari 10 orang yang berbeda dimana masing-masing orang menulis 1 karakter huruf dengan 3 bentuk yang berbeda. Besarnya tingkat keberhasilan atau akurasi dipengaruhi oleh banyaknya data training dan data uji yang digunakan. Tingkat keberhasilan atau akurasi terbesar pada penelitian ini mencapai 88,46% (Faridh, M. M. 2013). Pada tahun 2014, dilakukan penelitian pengenalan karakter teks menggunakan metode Neural Network Backpropagation. Untuk mendapatkan pola pada setiap karakter diperlukan beberapa fitur dari karakter itu sendiri. Fitur yang diambil pada sebuah karakter meliputi jumlah segmen pembentuk karakter dan bentuk segmennya yang secara garis besar dibedakan menjadi garis, kurva, atau loop. Pengambilan fitur menggunakan metode fuzzy untuk dapat membedakan bentuk-bentuk segmennya sesuai dengan parameter yang diberikan. Sistem pengenalan karakter ini memiliki prosentase keberhasilan dalam pengenalan karakter sekitar 80.12% (Hayuning, T. 2014).

Universitas Sumatera Utara

Universitas Sumatera Utara 26

Tabel 2.4 Penelitian Terdahulu

No. Judul Peneliti Tahun Metode Akurasi 1. Detection of Text Youssef Boulid 2013 Markov Decision 90.5% Lines of Processes Handwritten Arabic Manuscripts using Markov Decision Processes 2. Offline Munish et al. 2011 k-Nearest 94,12% Handwritten Neighbor Gurmukhi Character Recognition: A Review 3. Pengenalan Muhammad 2013 Principal 88,46% Karakter Huruf Miftah Faridh Components Tulisan Tangan H Analysis Menggunakan Metode Principal Components Analysis 4. Pengenalan Titis Hayuning 2014 Neural Network 80.12% Karakter Teks Backpropagation Menggunakan Metode Neural Network Backpropagation 5. Implementasi Yuwitaning, E. 2014 Hidden Markov 74,72% Metode Hidden F. Model Markov Model Untuk Deteksi Tulisan Tangan

Universitas Sumatera Utara

Universitas Sumatera Utara 27

Tabel 2.4 Penelitian Terdahulu (Lanjutan) No. Judul Peneliti Tahun Metode Akurasi 6. Perbandingan Syakhala, A. R., 2015 Principal 86,6% Metode Principal Puspitaningrum, Component Component D. & Analysis & Analysis (PCA) Purwandari, E. Hidden Markov Dengan Metode P Model Hidden Markov Model (HMM) Dalam Pengenalan Identitas Seseorang Melalui Wajah 7. Algoritma Prasetyo, H. B., 2016 Linear Predictive 58.93% Pengenalan Adiwijaya, Coding (LPC) Ucapan Huruf Wisesty, U. N. dan Hidden Hijaiyah Bertanda Markov Model Baca Dengan (HMM) Linear Predictive Coding (LPC) dan Hidden Markov Model (HMM)

Universitas Sumatera Utara

Universitas Sumatera Utara 28

BAB 3

ANALISIS DAN PERANCANGAN

3.1 Analisis

Bab ini membahas tentang implementasi algoritma yang digunakan untuk pengenalan dokumen aksara Batak. Adapun dua tahap yang akan dibahas pada bab ini, yaitu tahap analisis dan tahap perancangan sistem. Pada tahap analisis akan dilakukan analisa terhadap data yang digunakan untuk diproses dan dianalisis terhadap teknik maupun metode yang digunakan pada setiap langkah pemrosesan data. Pada tahap perancangan sistem akan dibahas mengenai perancangan tampilan antarmuka sistem.

3.1.1 Data Yang Digunakan Pada penelitian ini, data yang digunakan berupa file dokumen berekstensi .jpg yaitu data aksara Toba dan Karo diperoleh dari Bapak Manguji Nababan yang menjabat sebagai dosen dan Kepala Pusat Dokumentasi Pengkajian Kebudayaan Batak (PD & PKB) Universitas Nommensen Medan, Sumatera Utara. Pengenalan Dokumen Aksara Batak pada penelitian ini merupakan teks asli naskah No.IC 39908a dari koleksi Museum Antropologi (Museum fur Volkerkunde) Berlin yang bersumber dari buku Surat Batak Sejarah Perkembangan Tulisan Batak yang ditulis oleh Uli Kozok, 2009. Selanjutnya, data etnik Mandailing, Simalungun dan Pakpak bersumber dari buku “BATAKSCH LEESBOEK” yang didapat dari Museum Daerah yang ada di H.M. Joni No.51 Medan Sumatera Utara. Lalu file dokumen berekstensi .jpg tersebut di scan kemudian mengubahnya ke dalam bentuk font .docx. Dokumen aksara batak yang lebih lengkap dapat dilihat pada Lampiran 1. Pengenalan aksara Batak Pada pada penelitian ini dilakukan menggunakan algoritma Hidden Markove Model (HMM) dengan tahap-tahap sebagai berikut:

Universitas Sumatera Utara

Universitas Sumatera Utara 29

a) Scan dokumen aksara Batak Pada berkas dokumen aksara Batak dilakukan digitalisasi dengan cara scan yang menghasilkan file citra digital. Contoh beberapa dokumen aksara batak dapat dilihat pada Tabel 3.1

Tabel 3.1. Dokumen Aksara Batak

Etnis Nama_dok Gambar Karo dok_karo6

Toba dok_manda iling1

Universitas Sumatera Utara

Universitas Sumatera Utara 30

Dokumen aksara batak yang lebih lengkap dapat dilihat pada Lampiran 1. b) Praprosesing citra. Sebelum dilakukan pengenalan aksara Batak dari file citra digital, citra dokumen terlebih dahulu diproses binerisasi, invert, segmentasi, thinning serta resize. 1. Binerisasi Binerisasi adalah pengubahan nilai piksel dari citra warna RGB menjadi citra biner dengan nilai piksel 1 atau 0. 2. Invert adalah salah satu metode pengolahan citra. Proses invert membuat citra gambar menjadi tampak negatife pada susunan warna RGB, namun berbeda dengan proses gambar negatif. Invert dihasilkan dari nilai maksimum dari RGB (255,255,255) dikurang nilai intensitas warna RGB pada citra. 3. Segmentasi Segmentasi adalah proses pemisahan objek-objek pada citra dengan latar belakangnya c) Proses Identifikasi dengan Hidden Markov Model (HMM). Proses Identifikasi dengan metode HMM bertujuan untuk melakukan pengenalan aksara Batak. d) Proses output Dokumen teks. Pada proses ini dilakukan pengubahan hasil identifikasi aksara Batak ke dalam bentuk dokumen teks (.docx).

3.1.2 General Architecture

Pada penelitian ini akan dilakukan proses pengenalan citra aksara Batak yang dimulai dengan pemasukan arsip dokumen sampai menjadi file teks yang berformat docx yang dapat dilihat seperti pada Gambar 3.1.

Universitas Sumatera Utara

Universitas Sumatera Utara 31

INPUT PRA PROSESING

Dokumen Aksara Reduksi Noise Batak

Binerisasi Scan Dokumen

Invert File Citra Digital

Segmentasi

PROSES Ekstraksi Fitur HMM

Identifikasi HMM

OUTPUT File Teks (.docx)

Gambar 3.1 General Architecture

Pada General Architecture diatas terdapat 3 tahap proses yaitu: a. Input dokumen aksara Batak, yaitu pemasukan data dokumen aksara Batak dengan terlebih dahulu melakukan scan dokumen ke dalam format digital agar dapat diproses oleh komputer. b. Pra Prosesing data, yaitu melakukan pengolahan citra dokumen aksara Batak untuk membersihkan dari noise yang dapat mengganggu, mengubah objek menjadi biner serta pemisahan objek. c. Proses, yaitu melakukan pembuatan ekstraksi fitur, identifikasi serta pengenalan aksara. d. Output, yaitu proses pengenalan aksara dan menampilkan aksaranya dalam format Docx.

Universitas Sumatera Utara

Universitas Sumatera Utara 32

3.1.3 Flowchart Pengenalan Aksara dengan metode HMM

Adapun flowchart Pengenalan Aksara dengan metode HMM dapat dilihat seperti pada Gambar 3.2.

Mulai

Masukkan file dokumen aksara .jpg

Membaca file dokumen input

Menampilkan dokumen input

Reduksi Noise Binerisasi

Segementasi Invert

Pengenalan HMM

Menampilkan hasil pengenalan .docx

Selesai

Gambar 3.2 Flowchart Pengenalan

Universitas Sumatera Utara

Universitas Sumatera Utara 33

Keterangan: 1. Input citra aksara Batak 2. Pre Prosesing Citra aksara 3. Ekstraksi ciri. 4. Baca database HMM. 5. Komputasi Probabilitas Model 6. Identifikasi dengan metode HMM dengan nilai Likelihood. 7. Tampilkan hasil pengenalan. 8. Selesai.

3.1.4 Algoritma Hidden Markov Models

Algoritma Hidden Markov Models berfungsi untuk melakukan pengenalan aksara Batak dengan tahap-tahap: A. Training a. Citra dokumen di blok-blok (block extraction) b. Pengambilan fitur (feature extraction) c. Pembentukan model inisialisasi d. Pembentukan model Estimasi e. Pembentukan parameter Hidden Markov Models B. Pengenalan (testing) a. Baca Parameter HMM b. Komputasi Probabilitas Model-1 sampai ke n c. Hitung maksimum Likelihood sebagai objek yang paling mirip dengan citra uji.

3.2 Perancangan

Pada tahap perancangan ini akan dibahas mengenai arsitektur umum, perancangan Use case diagram, Activity diagram, Class diagram, Squence diagram serta User Interface.

Universitas Sumatera Utara

Universitas Sumatera Utara 34

3.2.1 Perancangan Unified Modelling Language (UML) Unified Modelling Language (UML) merupakan bentuk perancangan dan dokumentasi perangkat lunak berbasis pemrograman berorientasi objek. Pada penelitian ini, bentuk perancangan UML menggunakan beberapa diagram, yaitu Use case Diagram, Activity Diagram serta Sequence Diagram.

3.2.2 Use case Diagram Use case adalah salah satu pemodelan yang digunakan untuk memodelkan persyaratan sistem. Dengan use case ini digambarkan siapa saja yang berinteraksi dengan sistem dan apa saja yang dapat dilakukan dengan sistem. Diagram menunjukkan interaksi antara pengguna dan entitas eksternal lainnya dengan sistem yang sedang dikembangkan. Lebih jelasnya Use Case Diagram digunakan untuk menggambarkan interaksi antara user dengan sistem. Pada aplikasi ini user menginputkan perintah- perintah untuk melakukan proses pengenalan aksara Batak dengan algoritma Hidden Markov Models. Use Case Diagram dapat dilihat seperti pada Gambar 3.3.

Menu Utama Menampilkan Menu Utama

<> << include >> Pengenalan Menampilkan Save Pengenalan

<< include >> Help Menampilkan Help USER <> Menampilkan About About

Gambar 3.3 Use case Diagram

3.2.3 Activity Diagram

Universitas Sumatera Utara

Universitas Sumatera Utara 35

Activity diagram menurut Martin Fowler (2005: 163) adalah teknik untuk menggambarkan logika procedural, proses bisnis, dan jalur kerja. Dalam beberapa hal, activity diagram memainkan peran mirip diagram air, tetapi perbedaan prinsip antara notasi diagram air adalah activity diagram mendukung behaviour paralel. Node pada sebuah activity diagram disebut sebagai action, sehingga diagram tersebut menampilkan activity yang tersusun dari action. Berikut ada 5 aktivitas diagram dari sistem pengenalan dokumen aksara batak, yaitu : 1. Activity Diagram Menu Utama Aktivitas yang dilakukan pada tahap ini, yaitu user membuka aplikasi, kemudian sistem menampilkan halaman menu utama dan kembali ke user untuk memilih pilihan menu yang ingin di proses ke tahap selanjutnya. Activity diagram Menu Utama dapat dilihat pada Gambar 3.4.

USER SISTE M

Membuka Aplikasi

Menampilkan halaman Menu Utama

Terdapat menu pilihan

Gambar 3.4. Activity Diagram Menu Utama

2. Activity Diagram Pengenalan Pada tahap ini menjelaskan alur kerja pada menu Pengenalan. Ketika user menjalankan sistem dan memilih menu Pengenalan, maka sistem akan menampilkan halaman Pengenalan Aksara Batak lalu user akan mencari file dokumen yang ingin di proses, kemudian dokumen tersebut akan di proses melalui

Universitas Sumatera Utara

Universitas Sumatera Utara 36

beberapa tahap pre-processing image, hasil dokumen nya nanti akan berekstensi .docx dan secara otomatis akan tersimpan pada penyimpana yang sudah di tentukan. Activity Diagram Pengenalan dapat dilihat pada Gambar 3.5.

USER SISTE

Membuka sistem Menampilkan halaman Menu Utama

Memilih menu Pengenakan Aksara

Menampilkan halaman Pengenalan

Klik tombol Browse

Menampilkan halaman dan memilih file

Memilih file dan klik tombol Open

Menampilkan file dokumen aksara batak berekstensi .jpg dan Nama file dokumen memilih file akan muncul secara otomatis

Klik tombol Training, Reduksi noise, Binerisasi, Invert, Segmentasi dan Menampilkan hasil Pengenalan pengenalan dalam bentuk .docx

Hasil dokumen otomatis akan tersimpan

Universitas Sumatera Utara

Universitas Sumatera Utara 37

Gambar 3.5. Activity Diagram Pengenalan

3. Activity Diagram Help Pada tahap ini menjelaskan alur kerja pada menu Help. Ketika user menjalankan sistem dan memilih menu Help, maka sistem akan menampilkan halaman yang berisi bagaimana tata cara pengoperasian sistem pengenalan dokumen aksara batak. Activity diagram Help dapat dilihat pada Gambar 3.6.

USER SISTE

Membuka sistem

Menampilkan halaman home

Memilih menu help

Menampilkan halaman yang berisi bagaimana tata cara pengoperasian sistem

Gambar 3.6. Activity diagram Help

4. Activity Diagram About Pada tahap ini menjelaskan alur kerja pada menu about. Ketika user menjalankan sistem dan memilih menu About, maka sistem akan menampilkan halaman yang berisi tentang beberapa informasi dari aplikasi pengenalan dokumen batak. Activity diagram About dapat dilihat pada Gambar 3.7.

Universitas Sumatera Utara

Universitas Sumatera Utara 38

USER SISTE M

Membuka sistem

Menampilkan halaman Menu Utama

Memilih menu About

Menampilkan halaman yang berisi tentang informasi sistem

Gambar 3.7. Activity diagram About

3.2.4 Perancangan Antarmuka (User interface)

Perancangan antar muka adalah rancangan tampilan yang menghubungkan pengguna (user) dengan komputer dengan bantuan program. Salah satu syarat pembuatan antar muka adalah berorientasi pada mudah digunakan (user friendly) serta informatif.

3.2.4.1 Rancangan Menu Utama

Rancangan Menu Utama merupakan tampilan yang pertama kali muncul saat program dijalankan. Pada rancangan ini terdapat menu Pengenalan, Help, About dan Exit. Menu Pengenalan berfungsi untuk menampilkan sub program Aksara karo, Mandailing, Simalungun, Pakpak serta Toba, Help berfungsi untuk menampilkan

Universitas Sumatera Utara

Universitas Sumatera Utara 39

informasi bantuan, About berfungsi untuk menampilkan keterangan seputar aplikasi yang dibangun dan Exit berfungsi untuk keluar dari sistem. Rancangan Menu Utama terlihat seperti pada Gambar 3.8.

Judul Penelitian 1

Pengenalan

2 Karo 3 Toba

4 Simalungun 5 Pakpak

Mandailing 6 7 8

Help About

Gambar 3.8. Rancangan Menu Utama Keterangan: 1. Label : berfungsi untuk menampilkan judul penelitian 2. Button : berfungsi untuk menjalankan program pengenalan aksara Karo. 3. Button : berfungsi untuk menjalankan program pengenalan aksara Toba 4. Button : berfungsi untuk menjalankan program pengenalan aksara Simalungun 5. Button : berfungsi untuk menjalankan program pengenalan aksara Pakpak 6. Button : berfungsi untuk menjalankan program pengenalan aksara Mandailing 7. Button : berfungsi untuk menampilkan halaman Help

Universitas Sumatera Utara

Universitas Sumatera Utara 40

8. Button : berfungsi untuk menampilkan halaman About

3.2.4.2 Rancangan Pengenalan

Rancangan Pengenalan Aksara berfungsi untuk melakukan pengolahan citra dokumen aksara Batak menjadi output berupa file teks berformat docx yang dapat dilihat seperti pada Gambar 3.9.

Citra Asli Citra Hasil Citra Biner Citra Invert

Reduksi Noise

Browse Citra Nam File Citra Segmentasi Pengenalan

Training Reduksi Binerisasi Invert Segmentasi Pengenalan Clear Close Noise

Gambar 3.9. Rancangan Pengenalan

3.2.4.3 Rancangan Help

Rancangan Pengenalan Help berfungsi untuk menampilkan keterangan tatacara pengoperasian aplikasi pengolahan citra dokumen aksara Batak yang dapat dilihat seperti pada Gambar 3.10.

Langkah-langkah Pengoperasian Sistem Pengenalan

Aksara Batak

Universitas Sumatera Utara

Gambar 3.10. Rancangan Help

3.2.4.4 Rancangan About

Rancangan Pengenalan About berfungsi untuk menampilkan keterangan tentang aplikasi pengolahan citra dokumen aksara Batak yang dapat dilihat seperti pada Gambar 3.11.

N a m a : xxxxxxxxxxxxxxxxxxx

N I M : xxxxxxxxxxxxxxxxxxx

Program Studi: xxxxxxxxxxxxxxxxxxx

Fakultas : xxxxxxxxxxxxxxxxxxxx

Gambar 3.11 Rancangan About

Universitas Sumatera Utara

Universitas Sumatera Utara 42

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Implementasi Tampilan Antarmuka

Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models adalah tampilan hasil rancangan dari penulisan kode program dimulai user melakukan training yaitu mempelajari aksara Batak yang merupakan inputan dari jaringan untuk melakukan training dan melakukan pengenalan. Setelah melakukan training dan mendapatkan bobot akhir, maka proses pengenalan dilakukan dengan pemasukan file citra dokumen aksara Batak yaitu Karo, Mandailing, Simalungun, Toba serta Papak.

4.1.1 Tampilan Utama

Tampilan Utama merupakan tampilan yang pertama kali muncul saat program dijalankan. Pada tampilan ini terdapat dua tombol menu antara lain tombol dokumen aksara Batak yaitu Karo, Mandailing, Simalungun, Toba, Papak, Help serta About. Tampilan Utama terlihat seperti pada Gambar 4.1.

Universitas Sumatera Utara

Universitas Sumatera Utara 43

Gambar 4.1 Tampilan Menu

4.1.2 Tampilan Pengenalan Aksara Karo Tampilan Pengenalan Aksara Karo berfungsi untuk pengenalan dokumen aksara karo dengan algoritma Hidden Markov Models seperti pada Gambar 4.2.

Universitas Sumatera Utara

Universitas Sumatera Utara 44

Gambar 4.2 Tampilan Pengenalan Aksara Karo

Hasilnya adalah sebagai berikut:

Gambar 4.3 Tampilan Hasil Pengenalan Aksara Karo

Universitas Sumatera Utara

Universitas Sumatera Utara 45

4.1.3 Tampilan Pengenalan Aksara Mandailing

Tampilan Pengenalan Aksara Mandailing berfungsi untuk pengenalan dokumen aksara Mandailing dengan algoritma Hidden Markov Models seperti pada Gambar 4.4.

Gambar 4.4 Tampilan Pengenalan Aksara Mandailing

Hasilnya adalah sebagai berikut:

Gambar 4.5 Tampilan Hasil Pengenalan Aksara Mandailing

Universitas Sumatera Utara

Universitas Sumatera Utara 46

4.1.4 Tampilan Pengenalan Aksara Simalungun

Tampilan Pengenalan Aksara Mandailing berfungsi untuk pengenalan dokumen aksara Simalungun dengan algoritma Hidden Markov Models seperti pada Gambar 4.6.

Gambar 4.6 Tampilan Pengenalan Aksara Simalungun

Hasilnya adalah sebagai berikut:

Gambar 4.7 Tampilan Hasil Pengenalan Aksara Simalungun

Universitas Sumatera Utara

Universitas Sumatera Utara 47

4.1.5 Tampilan Pengenalan Aksara Toba

Tampilan Pengenalan Aksara Toba berfungsi untuk pengenalan dokumen aksara Toba dengan algoritma Hidden Markov Models seperti pada Gambar 4.8.

Gambar 4.8 Tampilan Pengenalan Aksara Toba

Hasilnya adalah sebagai berikut:

Gambar 4.9 Tampilan Hasil Pengenalan Aksara Toba

Universitas Sumatera Utara

Universitas Sumatera Utara 48

4.1.6 Tampilan Pengenalan Aksara Pakpak

Tampilan Pengenalan Aksara Pakpak berfungsi untuk pengenalan dokumen aksara Pakpak dengan algoritma Hidden Markov Models seperti pada Gambar 4.10.

Gambar 4.10 Tampilan Pengenalan Aksara Pakpak

Hasilnya adalah sebagai berikut:

Gambar 4.11 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak

Universitas Sumatera Utara

Universitas Sumatera Utara 49

4.2 Pengujian Sistem Pada tahap pengujian dilakukan pengenalan dokumen aksara Batak dan menghitung akurasi hasil pengenalan terhadap masing-masing dokumen aksara Batak. Rumus Akurasi adalah:

Akurasi = 100% - ( x 100 %)

Akurasi Karo = 100% - ( x 100) % = 97.8 %

Gambar 4.12 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Karo

Akurasi Mandailing = 100% - ( x 100) % = 95.24 %

Gambar 4.13 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Mandailing

Universitas Sumatera Utara

Universitas Sumatera Utara 50

Akurasi Simalungun = 100% - ( x 100) % = 98.56 %

Gambar 4.14 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Simalungun

Akurasi Toba = 100% - ( x 100) % = 98.33 %

Gambar 4.15 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Toba

Universitas Sumatera Utara

Universitas Sumatera Utara 51

Akurasi Pakpak = 100% - ( x 100) % = 97.39 %

Gambar 4.16 Tampilan Dokumen Asli dan Hasil Pengenalan Aksara Pakpak

Pengujian sistem pengenalan dokumen aksara Batak dan perhitungan akurasi hasil pengujian setiap dokumen aksara Batak dapat dilihat pada Tabel 4.1.

Tabel 4.1. Hasil Pengujian Sistem

Jumlah Huruf Akurasi No Nama Dokumen Hasil Dokumen Error (%) Pengenalan Asli

1 dok_karo1 409 418 9 97.8

2 dok_karo2 412 416 4 99.03

3 dok_karo3 410 416 6 98.55

4 dok_karo4 409 412 3 99.27

5 dok_mandailing1 441 421 20 95.24

6 dok_mandailing2 401 400 1 99.75

Universitas Sumatera Utara

Universitas Sumatera Utara 52

Tabel 4.1. Hasil Pengujian Sistem (Lanjutan)

Jumlah Huruf Akurasi No Nama Dokumen Hasil Dokumen (%) Erorr Pengenalan Asli

7 dok_mandailing3 398 402 4 99

8 dok_mandailing4 395 398 3 99.24

9 dok_simalungun1 418 420 2 99.52

10 dok_simalungun2 411 417 6 98.56

11 dok_simalungun3 406 411 5 98.78

12 dok_simalungun4 408 412 8 99.02

13 dok_toba1 410 418 8 98.08

14 dok_toba2 413 420 7 98.33

15 dok_toba3 416 418 2 99.52

16 dok_toba4 408 425 17 96

17 dok_pakpak1 411 422 11 97.39

18 dok_pakpak2 415 419 4 99.04

19 dok_pakpak3 412 418 6 98.56

20 dok_pakpak4 413 420 7 98.33

Jumlah 1969.01 Rata-rata Akurasi 98.45

Universitas Sumatera Utara

Universitas Sumatera Utara 53

BAB 5 KESIMPULAN DAN SARAN

Pada bab ini dijelaskan kesimpulan yang didapat dari hasil implementasi metode Hidden Markov Models (HMM) pada proses pengenalan dokumen aksara batak dan saran-saran yang dapat digunakan sebagai bahan pertimbangan untuk pengembangan selanjutnya.

5.1 Kesimpulan

Setelah melakukan implementasi pada Sistem Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models maka dapat disimpulkan sebagai berikut: 1. Aplikasi dapat melakukan pengenalan aksara Batak dari inputan citra dokumen Batal hasil scan digital. 2. Hasil pengenalan aksara Batak ditampilkan dalam bentuk file dokumen word (.docx) 3. Berdasarkan pengujian sistem, background pada dokumen, ukuran huruf dan tidak adanya data training dalam dokumen yang di input sangat mempengaruhi tingkat keberhasilan sistem dalam mengenali dokumen aksara batak. 4. Hasil akurasi rata-rata adalah sebagai berikut: Akurasi Batak Karo = 98.66 % Akurasi Batak Mandailing = 98.30 % Akurasi Batak Simalungun = 98.97 % Akurasi Batak Toba = 97.98 % Akurasi Batak Pakpak = 98.33 % Dengan rata-rata keseluruhan sebesar 98.45%

Universitas Sumatera Utara

Universitas Sumatera Utara 54

5.2 Saran

Adapun saran-saran penulis pada penelitian ini adalah: 1. Menambah fitur aplikasi Pengenalan Aksara Batak Berbasis Pengolahan Citra dengan Metode Hidden Markov Models agar dapat melakukan pengenalan dengan cara capture camera, tanpa harus melakukan scan dokumen. 2. Menambah kemampuan pengenalan atas dokumen aksara lainnya seperti aksara Urdu dan lainnya. 3. Pada penelitian berikutnya diharapkan aplikasi dapat berjalan pada sistem operasi berbasis android.

Universitas Sumatera Utara

Universitas Sumatera Utara 55

DAFTAR PUSTAKA

Baramola, A. 2010. Offline Signature Recognition using Hidden Markov Model. International Journal of Computer Applications (0975 – 8887) Volume 10– No.2.

Boulide, Y. 2013. Detection of Text Lines of Handwritten Arabic Manuscripts using Markov Decision Processes. Special Issue on Artificial Intelligence Underpinning.

Amornsawaddirak, C., Natte, C. & Khamsemanan, N. 2014. Mathematical Handwritten Formula Recognition.

Dave, N. 2015. Segmentation Methods for Hand Written Character Recognition. International Journal of Signal Processing, Image Processing and Pattern Recognition Vol. 8, No. 4.

Faridh, M. M. 2013. Pengenalan Karakter Huruf Tulisan Tangan Menggunakan Metode Principal Components Analysis.

Hayuning, T. 2014. Pengenalan Karakter Teks Menggunakan Metode Neural Network Backpropagation.

Kadir, A & Adhi, S. 2013. Teori dan Aplikasi Pengolahan Citra. Andi: Yogyakarta.

Kozok, U. 2017. Surat Batak. Diambil dari: http://ulikozok.com. Kumar, M. 2011. k -Nearest Neighbor Based Offline Handwritten Gurmukhi Character Recognition. International Conference on Image Information Processing (ICIIP).

Kumar, M. 2014. Offline Handwritten Gurmukhi Script Recognition. Thesis. School of Mathematics and Computer Applications Thapar University Patiala–Punjab India July, 2014.

Prasetyo, H. B., Adiwijaya, Wisesty, U. N. 2016. Algoritma Pengenalan Ucapan Huruf Hijaiyah Bertanda Baca Dengan Linear Predictive Coding (LPC) dan Hidden Markov Model (HMM). Journal Indo Symposium on Computing Sept 2016.

Putra, D. 2010. Pengolahan Citra Digital.Yogyakarta. Penerbit: ANDI.

Sutoyo, T,dkk. 2009. Teori Pengolahan Citra Digital. Andi: Yogyakarta.

Tyagi, Karishma. 2014. Implementation of Character Recognition using Hidden Markov Model. International Journal of Engineering Research & Technology (IJERT) Vol. 3 Issue 2. Universitas Sumatera Utara

Universitas Sumatera Utara 56

Syakhala, A. R., Puspitaningrum, D. & Purwandari, E. P. 2015. Perbandingan Metode Principal Component Analysis (PCA) dengan Metode Hidden Markov Model (HMM) dalam Pengenalan Identitas Seseorang Melalui Wajah. Jurnal Rekursif, Vol. 3 No.2 November 2015, ISSN 2303-0755.

Mahid, Masitoh dkk. 2016. Pengenalan Huruf Arab Menggunakan Metode Reduksi

Yuwitaning, E. F. 2014. Implementasi Metode Hidden Markov Model Untuk Deteksi Tulisan Tangan. e-Proceeding of Engineering : Vol.1, No.1 Desember 2014.

Boudaoud, L. B., Sider A. & Tari A. 2015. A New Thinning Algorithm for Binary Images. International Conference on Control, Engineering & Information Technology (CEIT). University of Bejaia, Algeria.

Burney, S. M. A. & Tariq, H. 2014. K-Means Cluster Analysis for Image Segmentation. International Journal of Computer Applications (0975 – 8887) Volume 96– No.4, June 2014. Institute of Business Management Karachi, CO 75270 Pakistan.

S.Hussien, Rana.2015. Optical Character Recognition of Arabic Handwritten Characters using Neural Network. International Conference on Computing, Control, Networking, Electronics and Embedded Systems Engineering

Universitas Sumatera Utara

Universitas Sumatera Utara 57

LAMPIRAN 1

Tabel Dokumen Aksara Batak

Etnis Nama_dok Gambar Karo dok_karo1

Karo dok_karo2

Universitas Sumatera Utara

Universitas Sumatera Utara 58