Veri madenciliğinde kullanılan karar ağaçları, yapay sinir ağları ve lojistik regresyon yöntemlerinin sınıflandırma yaklaşımlarının ve sonuç performanslarının finansal bir veri kümesi üzerinde karşılaştırmalı olarak analizi
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Bu çalışmada bir sınıflandırma problemi veri madenciliğinde en çok kullanılan sınıflandırma yöntemleri olan Karar Ağaçları (KA), Yapay Sinir Ağları (YSA) ve Lojistik Regresyon (LR) yöntemleri kullanılarak çözülmüştür. Analizde KA’nın Entropi ve Gini İndeksleri budama yapılmak suretiyle ve YSA’nın Çok Katmanlı Algılayıcı (ÇKA) modeli ise mimarisi optimize edilerek kullanılmıştır. Uygulama, veri düzgünleştirme (SMOTE) yapılmadan önce ve sonra olmak üzere iki aşamada gerçekleştirilmiş olup sonuçlar altı farklı ölçüt (doğruluk, standart sapma, hassasiyet, geri çağırma, AUC_ROC ve F1) kullanılarak karşılaştırılmıştır. KA mevcut veri kümesi üzerinde, her iki indekste de geri çağırma ölçütü hariç altı ölçütün beşine göre en iyi sonuçları veren sınıflandırma yöntemi olmuştur. İndeks sonuçları arasındaki fark %0 ila %4 arasında çıkmıştır. SMOTE yöntemi YSA’nın sonuçlarına pozitif tesir etmiş fakat KA ve LR’un sonuçlarında en ufak bir farklılık meydana getirmemiştir. Bu sonuçlar dikkate alındığında KA, kredi riski belirlemede kullanıma uygun potansiyel bir Makine Öğrenimi (MÖ) tekniği olarak ön plana çıkmaktadır. Çalışma, yöntemlerin gerçek hayat verisi üzerinde, farklı indekslerde gerçekleştirilmiş olması ve sonuçların altı farklı kriterle ölçülmesi neticesinde, söz konusu yöntemlerin sınıflandırma yeteneklerinin sağlıklı bir kıyasını sunmaktadır.









