Veri Biliminde Eksik ve Aykırı Değerler

Veri Biliminde Eksik ve Aykırı Değerler

Veriyi analiz için hazırlarken, ön işleme adımlarından biri olan eksik ve aykırı değerlerin tespiti ve bu değerlere yaklaşım yöntemlerini inceliyoruz.
Serdar Tafralı22 Ağu 2022

Veri bilimi alanında çalışan kişiler zamanlarının büyük bir kısmını veriyi hazır hale getirme işlemleriyle geçirirler. Bu işlemler genel olarak Veri Ön İşleme olarak isimlendirilir. Bu kapsamda en temel problemlerden biri aykırı ve eksik gözlemlerin yorum ve analizidir.

 

Aykırı değerler

Verideki genel eğilimin dışına çıkan değerlere aykırı değer denir. Aşağıdaki görselde, soldaki ve sağdaki grafikler incelendiğinde, sağdaki grafiğin üst kısmında yer alan üç aykırı değer, grafiğin yönünü ciddi bir şekilde değiştirmektedir. Ağaç yöntemlerinde aykırı değerlerin etkisi daha düşüktür ancak doğrusal problemlerde oldukça fazladır.

 


 

Aykırı değerler belirlenirken genellikle aşağıdaki kavramlar kullanılır:

  1. Sektör bilgisi: Bir veri seti üzerinde çalışırken sahip olunması gereken en önemli özelliklerden biri sektör bilgisidir. Sektör bilgisi üzerine aksiyon almaya örnek olarak, konutların özellikleri ve fiyatlarını içeren bir veri setiyle çalışıldığında, verilerin genelinin temsil edildiği konut fiyat aralığının çok üzerinde olduğu düşünülen birkaç konut veri setinden çıkarılabilir.
  2. Standart sapma yaklaşımı: Bu yaklaşım temel olarak veriler üzerinde standart sapmalar gözlemlenerek, bu standart sapma değerlerinin oluşturduğu aralıkların dışında kalan verileri çalışmanın dışında tutmak üzerine kurulur.
  3. Z-skoru yaklaşımı: Veri üzerinde gerçekleştirilen çeşitli istatistiki uygulamalarla belirlenen güven aralıkları kullanılarak aykırı değerlerin tespitinin yapılmasıdır. Z-puanı, bir değerin bir değer grubunun ortalaması ile ilişkisini tanımlayan sayısal bir ölçüm olup ortalamadan standart sapmalar cinsinden ölçülür. 
  4. Boxplot yöntemi (Tek değişkenli olarak): Gözlem birimlerinin oluşturduğu aralıklara göre çizilmiş bir kutu grafik yardımıyla aykırı değerlerin belirlenmesi tekniğidir. 
  5. LOF yöntemi (Local outlier factor): Yerel aykırı değer faktörü (LOF) algoritması, belirli bir veri noktasının komşularına göre yerel yoğunluk sapmasını hesaplayan denetimsiz bir anormallik algılama yöntemidir. Veri setinin tamamına bakıldığında aykırı gözlemler görünmese de lokal yoğunlukların gözlendiği bölgelere odaklanıldığında, bu bölgelerde aykırı gözlemler olabilir. Bu kapsamda LOF yöntemiyle örneklemin, komşulukları ile yerel yoğunluk dağılımını ölçerek, örneklemin kendisini çevreleyen komşularından ne kadar aykırı olduğu tespit edilir.

 

 

Eksik değerler

Veri seti üzerindeki gözlemlerde eksiklik olması durumudur. Bazı yerlerde NA olarak ifade edilir. Eksik değer problemleri silme yaklaşımıdeğer atama yöntemleritahmine dayalı yöntemler ile çözülebilir.

Silme yaklaşımı ile eksik değerleri içeren veriler veri setinden çıkartılırken, değer atama yöntemlerinde sektör bilgisi yardımı ile eksik değerler doldurulur.

 

“The idea of imputation is both seductive and dangerous”

RJA Little & DB Rubin

 

Eksik veri ile çalışırken göz önünde bulundurulması gereken en önemli konulardan birisi eksik verinin rassallığıdır. Bu durum veri setindeki eksik değerlerin rastlantısal olarak ortaya çıkmış olması anlamına gelir.

 

“Eksik değere sahip gözlemlerin veri setinden direkt çıkarılması ve rassallığının incelenmemesi, yapılacak istatistiksel çıkarımların ve modelleme çalışmalarının güvenilirliğini düşürecektir.” 

Reha Alpar (2011)

 

Eksik verinin rastgele oluşup oluşmaması bu kapsamda önemli ve detaylı incelenmesi gereken bir durumdur. 

 

“Eksik gözlemlerin veri setinden direkt çıkarılabilmesi için veri setindeki eksikliğin bazı durumlarda kısmen bazı durumlarda tamamen rastlantısal olarak oluşmuş olması gerekmektedir. Eğer eksiklikler değişkenler ile ilişkili olarak ortaya çıkan yapısal problemler ile meydana gelmiş ise bu durumda yapılacak silme işlemleri ciddi yanlılıklara sebep olabilecektir.”

Tabachnick & Fidell (1996)

 

Örneğin bir bankaya ait, harcamaların yer aldığı bir veri setinde, kredi kartı harcama değişkeni olduğunu ve kredi kartı harcama gözlemlerinin bir kısmının NA olduğunu düşünelim. Bahsi geçen NA değerlerinin rastgele ortaya çıkması bir sorun teşkil etmemektedir. Bu durumda eksik veri problemi çözme tekniklerinden uygun olan bir yöntem seçerek veriyi analize hazırlayabiliriz. 

Eksik değerlerin rastgele olmaması (bağımlı olması) durumu ise, ele aldığımız örnek üzerinde, bir kullanıcının kredi kartının olmaması durumudur. Kredi kartına sahip olmayan bir kullanıcı için kredi kartı harcaması bilgisi NA olacaktır. Burada ilgili değişkenin NA olması durumu, kullanıcının kredi kartına sahip olma/olmama durumuna bağımlı olmasından kaynaklanmaktadır.

Bir değişkendeki eksikliğin başka bir değişkenin etkisinde ortaya çıkması durumunda, bu yapısallığın nereden kaynaklandığına bakılması gerekmektedir. Aksi halde yapılacak eksik değerler ile baş etmek için kullanılan yöntemler yanlılığa neden olabilecektir.

Veri bilimi alanında detaylı bilgi edinmek isterseniz Miuul'un Veri Bilimi üzerine oluşturduğu eşsiz eğitimlere mutlaka göz atmalısınız. Veri bilimini kariyer yolunuz haline getirmek istiyorsanız, Miuul’un Veri Bilimci Kariyer Yolculuğu tam olarak aradığınız eğitimi sizlere sunacaktır.

 

Kaynaklar

Miuul topluluğunun bir parçası ol!

Abone ol butonuna tıklayarak Miuul'dan pazarlama ve haber içerikleri almayı onaylıyorum.