Pandas Profiling

Bu yazımızda, verinin ilk bakışı diyeceğimiz süreci hızlandırmak için kullanılan bir kütüphaneden bahsedeceğiz.

Hande Küçükbulut • 04 Ara 2022

Bu ilk adımı, çalışmalarda keşifçi veri analizi olarak yaparız. Bu adım aslında projenin başlangıcından sonuna gelebilmek adına bizim için çok önemlidir. Çünkü bu adımda elimizdeki veri nedir? Ne değildir? Görmüş oluruz. Veri kafamızda tam olarak oturmuş olur.

Analiz sırasında veri içindeki kalıpları ve özellikler arasındaki ilişkileri bir yandan anlamlandırırken bir yandan da aykırılıklar ve eksikler üzerine araştırma yapma fırsatı yakalarız. Bu eksikler ve aykırılar için herhangi bir ek işlem yapılacak mı yapılmayacak mı bu gibi soru işaretlerini kafamızda gidermiş oluruz.

Python ile veri bilimine girdiğimiz anda pandas ve matplotlib kullanmaya başlarız. Pandas kütüphaneleri içerisinde describe() ve info() gibi temel özellikleri kontrol etmek için hazır fonksiyonlar sağlamaktadır. Öte yandan matplotlib ile bunları grafiksel açıdan daha gözle görülebilir olarak barplots, dağılım veya histogram vb. olarak çizdirebiliriz.

Bu alana ilk girdiğimizde daha hazırlanmış ve temizlenmiş veriler kullandığımız için aslında bu adımlar daha hızlı geçiliyor olabilir elbette, ama maalesef ki gerçek hayat verileri pek bu şekilde olmayabilir. Bu adımları özenle yapmamız hem veriyi anlamamız açısından hem de sonrası için sorun olmadan güzel bir proje ortaya çıkarmak için çok önemlidir.

Peki gelelim kütüphaneye :

Bu kısımda kütüphane bize çok az veriyle birçok çıktı vererek bu hızlı bakışı olduğundan kısa bir sürede bizim için hallediyor. Normalde birçok notebook üzerinde göreceğimiz aslında inceleme fonksiyonlarını bizim yerimize çalıştırmış oluyor.

Öncelikle kütüphaneyi yüklemek istiyorsak:

*pip/conda install pandas profiling

Sonrasında klasik import işlemleri ve en sevdiğimiz veri seti titanic veri setini okutuyoruz. Artık tek yapmamız gereken ProfitReport() fonksiyonuna verimizi göndermektir.

Report’a artık baktığımızda içinde bizim verimize ait tüm raporlamalar hazırlanmış olacak gelmiş olur onları tek tek inceleyelim:

Çalışan kısımda üç farklı yer olacak bunlar overview, alerts ve reproduction:

Overview

Bu kısımda verimizle ilgili temel bilgilerin hepsine ulaşmış olacağız. Mesela değişken sayımız, kaç gözlemimiz var, eksik değer miktarı, kopya veriler var mı veya bu verilerin kaçı numerik, kaçı kategorik olarak yer almaktadır bu bilgilerin hepsini bu kısımda görebileceğiz.

Alerts

Bu kısımda ise verimizde olabilecek farkına varılması gereken korelasyon, veri çarpıklığı ve veri dağılımı gibi verimizdeki değişkenlerin birbiriyle olan şüpheli etkileşimleri konusunda bizi bilgilendirir.

Variables

Bu kısımda ise her değişken kendi içinde ayrıntılı olarak gösterilir. Kaç eksik değer var ve bu değişkenin istatistikleri yani ortalaması, en küçük ve en büyük değeri nelerdir gibi sorular giderilmiş olur. Hatta en sağ kısımda bu değişkenin dağılımı histogram olarak gösterilir ve verinin dağılımını gözlemleme imkanı sunar.

Interactions

Bu kısımda artık iki değişkenin ilişkilerini detaylı olarak inceleme fırsatı sunar. İlk kısımda hangi değişkenlerin ilişkilerini kontrol etmek istediğimizi seçeriz. Sonrasında o bize bu değişkenlerin ilişkisini sunar.

Correlations

Korelasyonlar bölümü iki değişken arasındaki ilişkili olma derecesini anlamamızı sağlar.

Burada 4 tip korelasyon bulunmaktadır:

*Spearman

*Pearson

*Kendall

*Cramer

*Phik

Eğer bunlar hakkında detaylı bilgiye sahip değilseniz sağdaki kutucuktan her yöntemin açıklamasına ulaşabilirsiniz.

Missing Values

Bu kısımda verimizdeki eksikleri inceleyebiliriz.

Burada yine korelasyonda olduğu gibi seçim tipleri vardır ve bunlar 3 tiptir :

Sayı grafiği, mevcut toplam değerleri sayar.
Matris grafiği, eksik değerlerin veri içinde nerede olduğuna dair gösterge sunar.
Dendrogram, değişkenler arasında ne kadar boş değerin ilişkilendirildiğini gösteren ağaç benzeri grafiktir. Birbirine daha yakın olan gruplar, yoklukta güçlü bir korelasyon gösterir.

Sample

Artık sona geldiğimizde ise veri içinde bize ilk on ve son on değer gösterilir. Aynı head() ve tail() mantığındadır.

Son olarak;

Bu kütüphanenin bize sağladığı kolaylık biraz işin içine girdikçe anlaşılır olacaktır. Bu kütüphane sayesinde fonksiyonlara gerek duymadan tek bir işlemle aslında tüm inceleme olanağına sahip olduğumuzu göstermektedir. Özellikle veri ararken kaggle üzerinde sosyal ispattan sonra bir bakıp veri seçsek modele gitmeden önce elimizdeki veriden neler çıkar görmüş oluruz. Sürprizlerle karşılaşmayız.

Veri bilimi projelerinizde python programlama dilini kullanmak için detaylı bir şekilde öğrenmek ve gerçek projeler ile uygulamalar yapmak isterseniz Miuul Veri Bilimi İçin Python Programlama eğitimimizden yararlanabilir. Bu alanda kendiniz için sektörel projeler ve mentorluk sistemi ile desteklenmiş bir kariyer yolculuğu çizmek isteseniz de Data Scientist Path’e bir göz atabilirsiniz. Bu yazıda hazır olarak kullandığımız tüm işlemlerin arkasında dönen fonksiyonlarla ilgili detaylı bilgi sahibi olabilirsiniz.

Kaynaklar

Pypi, Pandas Profiling
Pandas Pro

Etiketler

Veri Bilimi / Data Science / Python / Pandas / Pandas Profiling

Hande Küçükbulut

İlginizi Çekebilir