Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Mümine KAYA1, Selma Ayşe ÖZEL 2 1 Adana Bilim ve Teknoloji Üniversitesi, Bilgisayar Mühendisliği Bölümü, Adana 2 Çukurova Üniversitesi, Bilgisayar Mühendisliği Bölümü, Adana [email protected], [email protected]

Özet: Veri Madenciliği, büyük miktarda veri içinden gizli bağıntı ve kuralların, bilgisayar yazılımları ve istatiksel yöntemler kullanılarak çıkarılması işlemidir. Veri madenciliği yöntemleri ve yazılımlarının amacı büyük miktarlardaki verileri etkin ve verimli bir şekilde işlemektir. Yapılan çalışmada; açık kaynak kodlu veri madenciliği yazılımlarından Keel, Knime, Orange, , RapidMiner (Yale) ve karşılaştırılmıştır. Böylece kullanılacak veri kümeleri için hangi yazılımın daha etkin bir şekilde çalışacağı belirlenebilmiştir.

Anahtar Sözcükler: Veri Madenciliği, Açık Kaynak, Veri Madenciliği Yazılımları.

Comparison of Open Source Software

Abstract: Data Mining is a process of discovering hidden correlations and rules within large amounts of data using computer software and statistical methods. The aim of data mining methods and software is to process large amounts of data efficiently and effectively. In this study, open source data mining tools namely Keel, Knime, Orange, R, RapidMiner (Yale), and Weka were compared. As a result of this study, it is possible to determine which data mining software is more efficient and effective for which kind of data sets.

Keywords: Data Mining, Open Source, Data Mining Software.

1. Giriş madenciliği büyük ölçekli veriler arasından yararlı ve anlaşılır olanların bulunup ortaya Günümüzde bilişim teknolojisi, veri iletişim çıkarılması işlemidir [1]. Veri Madenciliği ile teknolojileri ve veri toplama araçları oldukça veriler arasındaki ilişkiler ortaya gelişmiş ve yaygınlaşmış; bu hızlı gelişim koyulabilmekte ve gelecekle ilgili büyük boyutlu veri kaynaklarının oluşmasına tahminlerde bulunulabilmektedir. Veri neden olmuş ve beraberinde bazı problemlere Madenciliğinin geleneksel veritabanı yol açmıştır [1]. Bu problemlerin başında, sorgularından farkı şu şekilde özetlenebilir: i) veritabanları içinde yer alan ancak basit SQL Geleneksel veri tabanlarında sorgu, SQL gibi sorguları ile bulunamayan anlamlı ve yararlı iyi tanımlanmış bir sorgulama dili ile bilginin ortaya çıkarılması gelmektedir. Bu yapılırken, veri madenciliğinde ise sorgu iyi nedenle verileri işlemek için bazı çözümleme tanımlı ya da tam tanımlı olmayabilir; ii) yöntemlerine ihtiyaç duyulmuştur. Veri Geleneksel veri tabanlarında sorgunun Madenciliği bu ihtiyacı gidermek için ortaya sonucu, veri tabanında yer alan verilerin bir çıkarılmış bir yöntemdir. Veri Madenciliği alt kümesi olup, veri madenciliğinde ise daha önceden bilinmeyen, geçerli ve çoğunlukla veri tabanının bir alt kümesi uygulanabilir bilgilerin geniş veri olmaz, onun yerine veri tabanındaki içeriğin kaynaklarından elde edilmesi işlemidir [2]. bir analizi olur. Daha da özetlemek gerekirse, veri Veri Madenciliğinin amacı ham veriyi birçok veri kaynağından gelen farklı anlamlı, etkin ve yararlı olan bilgiye formatlardaki veri birleştirilebilmekte; veri dönüştürebilmektir [3]. Bu amaca seçme adımında yapılacak olan analiz ile ulaşabilmek için de Veri Madenciliği ilgili olan veriler belirlenmekte; veri konusunda geliştirilmiş yazılımların dönüşümü adımında verinin veri madenciliği kullanılması veri madenciliği süreçlerini tekniğinde kullanılabilecek hale dönüşümü kolaylaştırmaktadır. gerçekleştirilmekte; veri madenciliği adımında veri örüntülerini yakalayabilmek Bugüne kadar yapılan çalışmalarda; veri için akıllı metotlar uygulanmakta; örüntü madenciliği yazılımlarının bir kısmının değerlendirme adımında bazı ölçütlere göre detaya girilmeden, ya tanımlamaları ya da elde edilmiş bilgiyi temsil eden ilginç uygulamaları yapılmıştır [4, 5 ve 6]. Bu örüntüler tanımlanmakta ve bilgi sunumu çalışmada ise diğer çalışmalardan farklı adımında ise elde edilmiş bilginin kullanıcıya olarak, altı adet veri madenciliği yazılımı sunumu gerçekleştirilmektedir [7, 8]. daha detaylı karşılaştırılmıştır. Böylece ihtiyaca göre daha etkin bir şekilde kullanılacak olan yazılımlar belirlenmiştir.

Çalışmanın ikinci bölümünde veri madenciliği süreci hakkında bilgi verilmiştir. Üçüncü bölümde çalışmada kullanılan açık kaynak kodlu yazılımlar tanıtılmış olup, dördüncü bölümde bu yazılımların farklı açılardan karşılaştırılmaları yapılmıştır. Son bölümde ise sonuç ve önerilere yer verilmiştir.

2. Veri Madenciliği Süreci Şekil 1. Bilgi Keşfi Süreci Veri madenciliği bilgi keşfi işleminin en

önemli adımlarındandır. Bilgi keşfi adımları: 2.1 Veri Madenciliğinin Kullanım Alanları Veri Temizleme, Veri Bütünleştirme, Veri Veri Madenciliği; bankacılık, borsa, Seçme, Veri Dönüşümü, Veri Madenciliği, pazarlama yönetimi, perakende satış, işaret Örüntü Değerlendirme ve Bilgi Sunumu işleme, sigortacılık, telekomünikasyon, olmak üzere 7 basamaktan oluşmaktadır [7]. elektronik ticaret, sağlık, tıp, biyoloji, genetik, endüstri, eğitim, istihbarat, bilim ve Şekil 1’de de görüldüğü üzere bu süreç, ele mühendislik gibi birçok dalda uygulama alanı alınan problemin tanımlanması ile başlamakta bulunmaktadır [1, 2]. ve sırasıyla; problemle ilgili verilerin toplanması, verilerin hazırlanması, verilere ve 2.2 Veri Madenciliği Yazılımları probleme uygun modelin tasarlanması, Veri Madenciliği konusunda geliştirilmiş tasarımı yapılan modelin uygunluğunun ve birçok yazılım bulunmaktadır. Bu yeterliliğinin değerlendirilmesi ile devam yazılımlardan kimisi ticari iken, kimisi açık etmekte ve son olarak modelin kaynak kodludur. Bu nedenle veri uygulanmasıyla sonuca ulaştırılmaktadır. Bu madenciliği yazılımları ticari ve açık kaynak sonuca ulaşırken de veri temizleme adımında kodlu olmak üzere iki gruba ayrılmaktadır. gürültülü ve tutarsız veriler veri kümesinden Ticari yazılımlara SPSS Clementine, Excel, çıkarılmakta; veri bütünleştirme adımında SPSS, SAS, Angoss, KXEN, MS SQL Server, MATLAB ve Oracle’ın bu amaçla geliştirilmiş bir yazılımdır [6]. Orange geliştirdiği modülleri örnek olarak yazılımı C++ dili ile geliştirilmiştir. verilebilmektedir. Açık kaynak yazılımlara Yazılımın ara yüzleri ve grafik ortamı ise Qt3 ise Orange, RapidMiner, WEKA, R, Keel, kütüphanesi ve Python kullanılarak Knime, Tanagra, Scriptella ETL, jHepWork geliştirilmiştir [6]. Görselleştirme açısından ve Elki örnek olarak verilebilmektedir [4, 5]. zayıf bir yazılımdır. Yalnızca metin dosyalarından veri alma işlemini 3. Açık Kaynak Kodlu Veri Madenciliği gerçekleştirmektedir. Yazılımları 3.4 R Bu bölümde açık kaynak kodlu ve ücretsiz Auckland Üniversitesi İstatistik Bölümü olarak kullanılabilen Keel, Knime, Orange, bilim adamlarından olan Robert Gentleman R, RapidMiner (Yale) ve Weka yazılımları ve Ross Ihaka tarafından grafikler, hakkında özet bilgi verilmektedir. istatistiksel hesaplamalar ve veri analizleri için geliştirilmiş bir yazılımdır [4]. R [12], 3.1 Keel Unix makinelerde yaygın olarak Keel [9], İspanya Ulusal Bilim Projeleri kullanılmaktadır. R, bir veri madenciliği Kurumunun desteği ile Granada Üniversitesi yazılımı olarak çok fazla tercih tarafından geliştirilen Java dilinde yazılmış edilmemektedir. bir yazılımdır. Keel, kümeleme ve sınıflandırma gibi klasik veri madenciliği 3.5 RapidMiner (Yale) algoritmaları açısından zengin değildir. RapidMiner [13], Ralf Klinkenberg, Ingo Bunların yerine Fuzzy sınıflandırıcılar, Mierswa ve Simon Fischer tarafından Yapay zekâ tabanlı sınıflandırma ve Kural Dortmund Teknoloji Üniversitesi Yapay Zeka tabanlı kümeleme algoritmalarının birçok Biriminde geliştirilmiş bir yazılımdır. Yale çeşidini içermektedir [6]. Veri görselleştirme [14] ise Yale üniversitesi bilim adamları açısından en zayıf yazılımlardan biri Keel’dir. tarafından Java dili kullanılarak geliştirilmiş bir yazılımdır. Yale artık RapidMiner [13] adı 3.2 Knime altında yazılım olarak kullanılmaya devam Konstanz Information Miner (KNIME) [10], etmektedir. Diğer veri madenciliği Konstanz Üniversitesi görsel veri madenciliği yazılımlarından farklı olarak 22 adet dosya araştırma grubu tarafından Eclipse Rich formatındaki veriyi işleyebilmektedir. Veri Client Platform üzerinde geliştirilen bir Madenciliği ve Makine Öğrenme yazılımdır. Knime genişletilebilme özellikleri Algoritmalarını da kapsayan RapidMiner, ile ön plana çıkmaktadır. Kullanıcılara bir Weka gibi oldukça fazla algoritmaya sahiptir. yazılım geliştirme kiti sunarak kullanıcıların Veri Analizi, Önişleme, Sınıflama, kendi modüllerini yazabilmelerini sağlayan Kümeleme, Birliktelik Kuralları Çıkarımı, tek uygulamadır [6]. Kurulum şartı olmadan Nitelik Seçimi işlemlerini içermektedir. çalışabilmektedir. Knime yazılımı .txt uzantılı Oracle, MS SQL Server, PostgreSQL, metin dosyalarından veya .arff, .table MySQL, JDBC, Sybase, Access, IBM DB2, formatından veri alabilmektedir. Knime, en Ingres veritabanlarını ve metin dosyalarını zengin görselleştirme araçları sunan desteklemektedir [6]. Bu açıdan en kapsamlı yazılımlarından biridir. yazılımlardan biridir. Excel dosyalarıyla bağlantı kurulabilmektedir. MS Windows, 3.3 Orange GNU/Linux, Mac Os X işletim sistemlerinde Orange [11], Slovenya Ljubljana Üniversitesi kolayca ve hatasız olarak çalışabilmektedir. Görselleştirme ve grafik arayüzü açısından da Bilgisayar ve Enformatik Bilimleri bölümü yapay zekâ araştırmaları ekibi tarafından en zengin yazılımlardan biridir. İçerisinden olan yazılım ise bir istatistik yazılımı olan script yazılabilir. R’dır. Orange, RapidMiner ve Weka R’a göre istatiksel hesaplamada daha zayıf yazılımlar 3.6 Weka arasındadır. Bunda R’ın kendi istatiksel Weka [15], Waikato Environment for kütüphanesinin olmasının payı çok büyüktür. Knowledge Analysis kelimelerinin Veri Analizi, Sınıflama, Kümeleme, Nitelik kısaltılmasıdır. Waikato Üniversitesinde, Java Seçimi işlemlerinin hepsini bütün yazılımlar platformu üzerinde geliştirilmiş ve GNU gerçekleştirebilmektedirler. Birliktelik genel kamu lisansı altında bildirilmiş açık Kuralları Çıkarımı işlemini de yazılımların kodlu bir veri madenciliği yazılımıdır. Java hepsi yapabilmektedir, ancak sadece R Database Connectivity (JDBC) kullanarak paketler ile birlikte yapabilmektedir. Görselleştirme açısından en iyi yazılımlar SQL veri tabanlarına erişim sağlar [16]. Knime, R ve RapidMiner’dır. Ancak çok iyi Makine öğrenmesi algoritmalarını görselleştirme sunmasının en büyük içermektedir. İçerdiği özelliklerle veri dezavantajı karmaşıklıklarını arttırmasıdır. kümeleri üzerinde önişleme, sınıflandırma, Komut Satırı Arayüzü ile bağlantıda en iyi kümeleme, birliktelik kuralı madenciliği, yazılım Weka iken, en zayıf yazılım R’dır. özellik seçimi ve görselleştirme Kullanım ve Öğrenim kolaylığı açısından da yapabilmektedir. Weka’ya özel olarak kompleks bir yapıya sahip olmamasından tasarlanmış, metin yapısında tutulan .arff dolayı en başarılı yazılım olarak Weka (Attribute Relationship File Format) dosya bulunmuştur. En fazla dosya formatı formatı üzerinde çalışmaktadır. destekleyen yazılım ise RapidMiner’dır. 22 adet dosya formatını desteklemektedir. 4. Açık Kaynak Kodlu Veri Madenciliği Phyton diliyle yazılmasından dolayı yazılım Yazılımlarının Karşılaştırılması içerisinde script yazmada en başarılı yazılım Orange olarak tespit edilmiştir. Veri Bu çalışmada Keel, Knime, Orange, R, Alma/Verme işlemlerini kolayca RapidMiner ve Weka yazılımları farklı gerçekleştirmede en başarılı yazılım ise R’dır. açılardan karşılaştırılmıştır. Böylece Çeşitli veri tabanlarıyla çalışabilmede Knime, kullanılacak veri kümesiyle ulaşılmak istenen R ve RapidMiner en başarılı yazılımlar olarak hedef arasında en etkin sonucu sağlamaya tespit edilmiştir. Excel dosyalarıyla yardımcı olacak yazılımlar Tablo 1’e göre çalışabilmede en kötü bağlantıyı Weka belirlenmeye çalışılmıştır [17, 18, 19 ve 20 ]. yazılımı yapmaktadır. Keel ise import işlemi İçerdiği Veri Madenciliği Algoritmaları ile gerçekleştirebilmektedir. Knime ve açısından en kapsamlı yazılımlar Tablo 1’de Orange ise hiçbir şekilde çalışamamaktadır. R de görüldüğü üzere RapidMiner ve Weka’dır. ve RapidMiner bu alanda en başarılı En az algoritmaya sahip olan yazılım ise olanlarıdır. Karşılaştırılan yazılımlar arasında R’dır. Makine Öğrenmesi paketleri açısından kurulum şartı olmadan çalışabilen tek yazılım ise en güçlü yazılım Weka’dır. Metin Keel’dir. Diğer yazılımların öncelikle Madenciliği işlemlerini Keel, Orange, bilgisayara kurulması gerekmektedir. RapidMiner ve Weka kendi başlarına Kurulabilecekleri işletim sistemleri Tablo yapabilirlerken; Knime bir modül sayesinde, 1’de gösterilmektedir. Bellek açısından bu R ise paket aracılığıyla yapabilmektedirler. altı yazılım incelendiğinde Keel, Orange ve Biyoinformatik işlemlerini ise; Keel, R ve R’ın limitli imkan sundukları Weka kendi başlarına yapabilirlerken; Knime gözlemlenmiştir. Knime’ın kullandığı bellek ve RapidMiner modül aracılığyla, Orange ise boyutu ayarlanabilirken, RapidMiner’da paket aracılığıyla yapabilmektedirler. arttırma işlemi yapılabilmektedir. Weka’da İstatiksel hesaplama işlemlerini karşılaştırılan da bellek boyutunun ayarlanabilme / yazılımların hepsi yapabilmektedir. En güçlü arttırılabilme özelliği mevcuttur. Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Keel Knime Orange R RapidMiner WEKA (YALE) Veri Madenciliği Var Var Var Var (En Var (En Var (En Algoritmaları Az) Fazla) Fazla) Makine Var Var Var (Zayıf) Var Var Var (Çok Öğrenmesi (Güçlü) (Zayıf) Güçlü) Paketleri Metin Var Var Var Var Var Var Madenciliği (Modül) (Paket) Biyoinformatik Var Var Var (Paket) Var Var (Modül) Var (Modül) İstatiksel Var Var Var (Zayıf) Var (Çok Var (Zayıf) Var Hesaplama Güçlü) (Zayıf) Veri Analizi Var Var Var Var Var Var Önişleme Var Var Var Var Var Var Sınıflama Var Var Var Var Var Var Kümeleme Var Var Var Var Var Var Birliktelik Var Var Var Var (Paket Var Var Kuralları Olarak) Çıkarımı Nitelik Seçimi Var Var Var Var Var Var Görselleştirme Var Var (Çok Var (6 Var (Çok Var (Çok İyi) Var (5 İyi) çeşit) İyi) çeşit) GUI İyi Çok İyi İyi Zayıf Çok İyi İyi Grafik Var Var Var Var Var Var Komut Satırı Var Var Var Var (Çok Var Var (Çok Arayüzü Zayıf) İyi) Bağlantısı GPL Lisans Evet Evet Evet Evet Evet Evet (GPLv3 (GPLv3) (GPLv3) ) Genişletilebilirlik Evet Evet Evet Evet Evet Evet Esneklik Evet Evet Evet Evet Evet Evet (Az) Kullanım Evet Evet Evet Evet Evet Evet (En Kolaylığı Kolay) Öğrenim Evet Evet Evet Evet Evet Evet (En Kolaylığı Kolay) Hatasız Çalışma Evet Evet Evet (En Evet Evet (En Evet (En Az) Fazla) Az) Dokümantasyon Var Var Var Var Var Var Script Yazma Var Var Var (En Var Var Var İyi) Eklenebilir Evet Evet Evet Evet Evet Evet Paketler Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması (devamı) Keel Knime Orange R RapidMiner WEKA (YALE) Veri Alma/Verme Var Var Var Var (Çok Var Var Kolay) Desteklenen .dat, .arff, .arff, .csv .tab, .r, .txt, .sml, .srff, .stt, .arff, .csv Dosya Formatları .csv, .xml, .basket, .ods, .csv, .bib, .clm, .txt, .prn, .names, .xml .cms, .cri, .xls, .dif, .data, .txt, .csv, .dat, .ioc, .html .xls (.arff .log, .matte, ve .csv .mode, .obf, a sadece bar, one pair, okuyabiliy .res, .sim, .thr, or) .wgt, .wls, .xrff, .arff Veritabanlarıyla Var (SQL Var Var Var Var (Oracle, Var Çalışabilme Verita- (Oracle, (MySQL) (Informix, MS SQL (JDBC, banları) MS SQL Oracle, Server, JDBC Server, Sybase, PostgreSQL, aracılığıy PostgreS DB2, MS MySQL, -la SQL QL, SQL JDBC, Verita- MySQL, Server, Sybase, banları) Access, MySQL, Access, IBM ODBC, PostgreSQ DB2, Ingres, JDBC) L, MS Metin Access, Dosyaları) ODBC) Excel Evet Hayır Hayır Evet Evet Evet Dosyalarıyla (import ile) (Kötü Çalışabilme Bağlantı) Bellek Kullanımı Limitli Ayarlana Limitli Limitli Arttrılabilir Arttrılabi -bilir lir/ Ayarlana bilir Yazıldığı Dil Java Java Phyton, C, R, Java Java C++ C++, Fortran Kurulum Şartı Yok Var Var Var Var Var Gerekli Minimum MS MS MS MS MS Windows, MS İşletim Sistemi Windows, Windows Windows, Windows, GNU/Linux, Windows GNU/ , GNU/ GNU/ GNU/Linu Mac Os X , GNU/ Linux, Mac Linux, Linux, Mac x, Unix, Linux, Os X Mac Os Os X Mac Os X Mac Os X X

Sınıflandırma Algoritmaları açısından hemen Weka içerisinden, R’da ise RWeka hemen tüm yazılımlar birçok sınıflandırma içerisinden çalıştırılabilmektedir. algoritmasını içerisinde barındırmaktadır. KNN algoritması her yazılımda bulunurken Kümeleme Algoritmaları açısından yazılımlar sadece R’da RWeka paketinde karşılaştırıldığında; en popüler kümeleme bulunmaktadır. Aynı şekilde Lazy algoritması olan K-Means Algoritması sınıflandırıcılar da Knime ve R dışındaki tüm karşılaştırdığımız bütün yazılımlarda yazılımların içerisinde mevcutken; Knime’de bulunmaktadır. Hiyerarşik Kümeleme algoritmaları ise Knime, Orange, R ve Bu çalışmada açık kaynak kodlu ve popüler Weka’da bulunurken, Keel’de olan 6 adet veri madenciliği yazılımı bulunmamaktadır. RapidMiner’da ise modül incelenmiştir. Kullanıcı dostluğu, olarak bulunmaktadır. desteklediği dosya formatları, içerdikleri algoritmalar ve makine öğrenmesi paketleri Birliktelik Kuralları açısından karşılaştırma gibi birçok açıdan incelendiğinde tarafımızca yapıldığında; en popüler birliktelik kuralı en kullanışlı bulunan yazılımlar Weka, algoritması olan Apriori tüm yazılımlarda RapidMiner (Yale) ve Keel olmuştur. Bu 3 bulunurken, FP-Growth Algoritması Sadece yazılım arasından da öğrenim ve kullanım Keel, RapidMiner ve Weka’da kolaylığı açısından en başarılı yazılım bulunmaktadır. tarafımızca Weka yazılımı olarak belirlenmiştir. Nitelik Seçiminde Kazanç Bilgisi, Kazanç Oranı, Ki-Kare, Gini İndeks ve Genetik 6. Kaynaklar Algoritma gibi bir çok yöntem bulunmaktadır. Bunlardan en çok [1] Özkan, Y., "Veri Madenciliği kullanılanları Kazanç Bilgisi, Kazanç Oranı ve Ki-Kare’dir. Bu üçünü aynı anda Yöntemleri", Papatya Yayıncılık Eğitim, bulunduran yazılımların başında Weka ve İstanbul, (2008). RapidMiner gelmektedir. [2] Silahtaroğlu, G., "Kavram ve Veri Ön İşleme için yapılması gereken Algoritmalarıyla Temel Veri Madenciliği", işlemlerden; Keel, RapidMiner ve Weka Papatya Yayıncılık Eğitim, İstanbul, (2008). yazılımları, eksik değer işlemi, kesikleştirme işlemi, gürültülü veri filtreleme işlemi, [3] Akgöbek, Ö. ve Çakır, F., “Veri normalizasyon işlemi, nominal değerden ikili Madenciliğinde Bir Uzman Sistem Tasarımı”, değere dönüştürme işlemi, çapraz doğrulama Akademik Bilişim’09 - XI. Akademik işleminin hepsini gerçekleştirebilmektedir Bilişim Konferansı Bildirileri, Şanlıurfa, 801-806 (2009). 5. Sonuç ve Öneriler [4] Tekerek, A., “Veri Madenciliği Süreçleri Artan veri miktarından dolayı bilgiye ve Açık Kaynak Kodlu Veri Madenciliği ulaşmak zorlaştıkça, bilgiye ulaşmak için Araçları”, Akademik Bilişim’11 - XIII. birçok araç geliştirilmektedir. Bu araçların en Akademik Bilişim Konferansı Bildirileri, başında veri madenciliği olarak nitelendirilen 2-4 Şubat, İnönü Üniversitesi, Malatya, 161- büyük miktardaki veriden kullanılabilir 169 (2011). bilgiyi üretme kavramı gelmektedir. Veri Madenciliği uygulamaları yapmak için [5] Dener, M., Dörterler, M., Orman, A., bilgisayar yazılımlarına ihtiyaç “Açık Kaynak Kodlu Veri Madenciliği duyulmaktadır. Bu yazılımlar birçok veri Programları: Weka’da Örnek Uygulama”, sınıflandırma, kümeleme, kural çıkarma Akademik Bilişim’09 - XI. Akademik yöntemi gibi birçok algoritmayı içermektedir. Bilişim Konferansı Bildirileri, 11-13 Şubat Bu yazılımların kullandıkları algoritmalar Harran Üniversitesi, Şanlıurfa, 787-796 sayesinde işlenen ham verilerden, istenilen ve (2009). amaçlanan bilginin çıkarımı yapılabilmektedir.

[6] Bilgin, T.T., “Veri Akışı Diyagramları [15] WEKA, Tabanlı Veri Madenciliği Araçları ve Yazılım http://www.cs.waikato.ac.nz/ml/weka/, Geliştirme Ortamları”, Akademik Bilişim’09 (Erişim Tarihi: 2013). - XI. Akademik Bilişim Konferansı [16] Witten, I. H., Frank, E., "Datamining Bildirileri, Şanlıurfa, 807-814 (2009). Practical Tools and Techniques," Morgan Kaufmann, Second [7] Han, J., Kamber, M., “Data Mining Edition, San Fransisco, (2005). Concepts and Techniques”, Morgan Kaufmann Publishers, (2001). [17] Chen X., Ye Y., Williams G. , Xu X., “A Survey of Open Source Data Mining [8] Delen, D., Walker, G., Kadam, A., Systems”, Proceeding PAKDD'07 “Predicting breast cancer survivability: a Proceedings of the 2007 international comparison of three data mining methods”, conference on Emerging technologies in Artificial Intelligence in Medicine, vol 34, knowledge discovery and data mining, pp113-127 (2005). Pages 3-14 (2007).

[9] KEEL, http://www.keel.es/, (Erişim [18] Zupan B., “Demsar J., Open-source tools Tarihi: 2013). for data mining”, Clinics in Laboratory Medicine, 28(1):37-54, (2008). [10] KNIME, http://www.knime.org/, (Erişim Tarihi: 2013). [19] Konjevoda P., Štambuk N., “Open- Source Tools for Data Mining in Social [11] ORANGE, http://orange.biolab.si/, Science”, Theoretical and Methodological (Erişim Tarihi: 2013). Approaches to Social Sciences and Knowledge Management, Asunción López- [12] R, http://www.r-project.org/, (Erişim Varela (Ed.), (2012). Tarihi: 2013). [20] Alcalá-Fdez J., Sánchez L., García S., [13] RAPIDMINER, http://rapidminer.com/, del Jesus M. J., Ventura S., Garrell J. M., (Erişim Tarihi: 2013). Otero J., Romero C., Bacardit J., Rivas V. M., Fernández J. C., Herrera F.. “KEEL: A [14] YALE, http://yale.sourceforge.net/, Software Tool to Assess Evolutionary (Erişim Tarihi: 2013). Algorithms to Data Mining Problems”, Soft Computing, 13(3):307-318 (2009).