Pandas Numpy kütüphanesine dayalı açık kaynak bir python kütüphanesidir. Çeşitli veri setleri içeren sayısal verileri ve zaman serilerini içeren bir kütüphanedir. Veri analizlerinde ve veri manipülasyonlarında kullanılabilir.
Apache Spark hızlı bir bütünleşik bir arama motorudur. Bütünleşik arama motoru büyük veri uygulamaları için her türlü ihtiyacı karşılayabilecek şekilde dizayn edilmiş olmasıdır. Apache Spark bilgisayar kümelerinde veriyi paralel bir şekilde işlemek için bir dizi kütüphaneden oluşur. Spark veriyi depolamaz, veriyi olduğu yerde analiz eder, gerektiği kadarını Spark cluster belleğine çeker.
Şimdi birkaç uygulama ile bazı farklı kod uygulamalarını görelim.
Spark veri okuma:
df = spark.read \
.option(“header”, True) \ #başlık bilgisi
.option(“sep”, “,”) \ #Veri içerisindeki sütunlar ne ile ayrılmış
.option(“inferschema”, True) \ #Şema önerisi için
.csv(“hdfs://localhost:9000/dosya_konumu)
Pandas veri okuma:
df = pd.read_csv(‘dosyanın_konumu’)
(CSV: read_csv, JSON: read_json, HTML: read_html, MS Excel: read_excel)
Spark:
df.show()
Pandas:
df.head()
Spark:
df.count()
Pandas:
print(df.shape[0])
Spark:
df.select(df.degisken_ismi).show(5)
Pandas:
df[‘degisken_ismi’].head()
Spark:
print((sparkdf.count(), len(sparkdf.columns)))
Pandas:
print(df.shape)
Spark:
df.printSchema()
Pandas:
df.info()
Spark:
df.describe([‘degisken_ismi’]).show
Pandas:
df.describe()
Spark:
df.filter(df(‘degisken_ismi’).isNull).show()
Pandas:
df.isnull()
Kaynaklar