Veri bilimi alanında çalışan kişiler zamanlarının büyük bir kısmını veriyi hazır hale getirme işlemleriyle geçirirler. Bu işlemler genel olarak Veri Ön İşleme olarak isimlendirilir. Bu kapsamda en temel problemlerden biri aykırı ve eksik gözlemlerin yorum ve analizidir.
Verideki genel eğilimin dışına çıkan değerlere aykırı değer denir. Aşağıdaki görselde, soldaki ve sağdaki grafikler incelendiğinde, sağdaki grafiğin üst kısmında yer alan üç aykırı değer, grafiğin yönünü ciddi bir şekilde değiştirmektedir. Ağaç yöntemlerinde aykırı değerlerin etkisi daha düşüktür ancak doğrusal problemlerde oldukça fazladır.
Aykırı değerler belirlenirken genellikle aşağıdaki kavramlar kullanılır:
Veri seti üzerindeki gözlemlerde eksiklik olması durumudur. Bazı yerlerde NA olarak ifade edilir. Eksik değer problemleri silme yaklaşımı, değer atama yöntemleri, tahmine dayalı yöntemler ile çözülebilir.
Silme yaklaşımı ile eksik değerleri içeren veriler veri setinden çıkartılırken, değer atama yöntemlerinde sektör bilgisi yardımı ile eksik değerler doldurulur.
“The idea of imputation is both seductive and dangerous”
RJA Little & DB Rubin
Eksik veri ile çalışırken göz önünde bulundurulması gereken en önemli konulardan birisi eksik verinin rassallığıdır. Bu durum veri setindeki eksik değerlerin rastlantısal olarak ortaya çıkmış olması anlamına gelir.
“Eksik değere sahip gözlemlerin veri setinden direkt çıkarılması ve rassallığının incelenmemesi, yapılacak istatistiksel çıkarımların ve modelleme çalışmalarının güvenilirliğini düşürecektir.”
Reha Alpar (2011)
Eksik verinin rastgele oluşup oluşmaması bu kapsamda önemli ve detaylı incelenmesi gereken bir durumdur.
“Eksik gözlemlerin veri setinden direkt çıkarılabilmesi için veri setindeki eksikliğin bazı durumlarda kısmen bazı durumlarda tamamen rastlantısal olarak oluşmuş olması gerekmektedir. Eğer eksiklikler değişkenler ile ilişkili olarak ortaya çıkan yapısal problemler ile meydana gelmiş ise bu durumda yapılacak silme işlemleri ciddi yanlılıklara sebep olabilecektir.”
Tabachnick & Fidell (1996)
Örneğin bir bankaya ait, harcamaların yer aldığı bir veri setinde, kredi kartı harcama değişkeni olduğunu ve kredi kartı harcama gözlemlerinin bir kısmının NA olduğunu düşünelim. Bahsi geçen NA değerlerinin rastgele ortaya çıkması bir sorun teşkil etmemektedir. Bu durumda eksik veri problemi çözme tekniklerinden uygun olan bir yöntem seçerek veriyi analize hazırlayabiliriz.
Eksik değerlerin rastgele olmaması (bağımlı olması) durumu ise, ele aldığımız örnek üzerinde, bir kullanıcının kredi kartının olmaması durumudur. Kredi kartına sahip olmayan bir kullanıcı için kredi kartı harcaması bilgisi NA olacaktır. Burada ilgili değişkenin NA olması durumu, kullanıcının kredi kartına sahip olma/olmama durumuna bağımlı olmasından kaynaklanmaktadır.
Bir değişkendeki eksikliğin başka bir değişkenin etkisinde ortaya çıkması durumunda, bu yapısallığın nereden kaynaklandığına bakılması gerekmektedir. Aksi halde yapılacak eksik değerler ile baş etmek için kullanılan yöntemler yanlılığa neden olabilecektir.
Veri bilimi alanında detaylı bilgi edinmek isterseniz Miuul'un Veri Bilimi üzerine oluşturduğu eşsiz eğitimlere mutlaka göz atmalısınız. Veri bilimini kariyer yolunuz haline getirmek istiyorsanız, Miuul’un Veri Bilimci Kariyer Yolculuğu tam olarak aradığınız eğitimi sizlere sunacaktır.