Dengesiz veri seti, sınıflandırma problemlerinde farklı sınıflar için eşit sayıda gözlem olmaması durumunu tarif eder. Gerçek dünya verilerinde zaten bu sınıflar hemen hemen hiçbir zaman aynı sayıda olmazlar.
Örneğin bir veri seti düşünelim:
Eğer burada kanserli insanlarla sağlıklı insanların sayıları birbirine eşit değilse (hedef değişkende 0–1 dengesi yarı yarı yarıya değilse) dengesiz veri seti ile karşı karşıyayız demektir. Zaten bir düşünecek olursanız, dengesiz veri çoğu sınıflandırma problemleminin doğasında var. Kanser olanlar olmayanlardan, dolandırıcılar dürüstlerden, spam e-postalar spam olmayanlardan daha az olur, biz de bu az gözleme sahip sınıfı tahmin etmeye çalışırız.
Dengesiz veri seti her zaman problem olarak karşımıza çıkmayabilir. Sınıflar arası fark küçükse göz ardı edilebilir.
Peki ama dengesiz veri seti ne zaman bir problem olarak karşımıza çıkar?
Google tanımı
Bazı kaynaklar azınlık sınıfın (minority class) tüm veriye oranı yüzde 20’den az ise bu direkt problemdir diye belirtirken, Google problemin şiddetini yukarıdaki tabloda belirtildiği şekilde sınıflandırmış.
Cevap: Accuracy paradox! Sınıflandırma problemlerinde başarı değerlendirme yöntemlerinden biri de karmaşıklık matrisidir (confusion matrix).
Kaynak: Packtup
Accuracy, tahminlerin yüzde kaçının doğru olduğunu belirtir. Dengesiz veri setlerinde accuracy yüksek çıkar, biz de çok iyi tahmin yaptık diye düşünürüz. İşte bu duruma accuracy paradox denir. Tahmin doğruluğunu gösteren bu metrik dengesiz veri setlerinde anlamsız olabilir. Recall ve precision değerleri önem kazanır.
Yani, accuracy yüksek fakat recall veya precision düşük çıkıyorsa burada bir dengesizlik var sanırım demelisiniz!
Örneğim 100 tane gözlem içinde 90 sağlıklı, 10 spam e-posta olsun.
Burada zaten tüm e-postaların sağlıklı olduğunu belirtirsek accuracy değerimiz yüzde 90 çıkar! Aşağıda confusion matrix ve başarı metrikleriyle belirtmeye çalıştım.
Dengesiz veri setinde confusion matrix nasıl yorumlanmalı?
Resampling teknikleri arasında en sık kullanılan yöntem ise SMOTE (Synthetic Minority Oversampling Technique) olarak bilinir. Klasik veri kopyalama şeklinde hareket etmez. Veri kopyalama modele yeni bilgi vermez.
SMOTE sadece continous verilere uygulanabilirken SMOTE-NC (Synthetic Minority Oversampling Technique - Nominal Continous) hem nominal hem continous verilere uygulanabiliyor. Bunların dışında ise Borderline-SMOTE, SVM-SMOTE ve ADASYN gibi resampling teknikleri bulunmakta.
Son bir not: Resampling metodlarının sadece train veri setine uygulanması önerilir.
Ham veriyi temizleyerek, ilgili veriden yeni özellik çıkarmak ve modele girmeye uygun olmayan değişkenleri dönüştürmek, kariyerinizde fark yaratacak adımlar atmak isterseniz Miuul'un sunduğu Özellik Mühendisliği eğitimine göz atabilirsiniz.
Kaynaklar