Bu Yaz Miuul’la Yeni Bir Sen ☀️ Kariyer Yolculukları ve Kurslarda Geçerli %40 İndirim Hediye Eğitimlerle Seni bekliyor!
Sohbete Başla

Apache Spark ile Büyük Veri İşleme

Büyük verinin yıldızı Apache Spark ile yapay zekanın dili Python'un gücünü birleştirin ve harikalar yaratmaya hazır olun!

Kayıt Ol

Mezunlarımızın Çalıştığı Şirketler

Eğitim programlarımız lider şirketlerle kurduğumuz ortaklıklar ile güçlendirilmiş ve inovatif ekipler tarafından kullanılmaktadır.

Program hakkında ayrıntılı bilgi edinin

Kurs 6 Saat

Apache Spark ile Büyük Veri İşleme

Spark, dağıtık veri işlemenin zorlu tarafını geliştiriciden yalıtarak ona bütünleşik ve kullanımı kolay API’ler sunan analitik bir veri işleme platformudur. Spark'ın bütünleşik programlama modeli, veri açısından zengin analitik uygulamalar geliştirenler için onu en iyi seçim haline getirir. Spark ile parti veya akan veri işlemek mümkündür.

Büyük verileri bildiğiniz SQL’i kullanarak sorgulamak çok kolaydır. Apache Spark, açık kaynaklı bir proje olarak, hızla ve ölçeklenerek yeniliği ateşliyor. Bu eğitimde popüler veri bilimi programlama dili Python ile Spark nasıl kullanılır öğrenilecek ve veri manipülasyonundan, kodların optimize edilmesine kadar geniş ölçekte veri işlemenin püf noktaları öğrenilecektir.

Son olarak işlenen verilerin düzenli ve sistematik olarak nasıl saklanacağı ve buradan bu veriyi tüketecek iç dış müşterilere en güncel, tutarlı ve doğru şekilde nasıl sunulabileceği görülecektir.

1
PySpark Dataframe Operasyonları

Büyük ölçekli verilerin dağıtık olarak veri manipülasyonu yapılmasını sağlar. Spark'ın temelleri, veri okuma, filtreleme, yeni özellikler ekleme, dönüştürme, diske yazma, kullanıcı tanımlı fonksiyon yazma, SparkSQL fonksiyonlarını kullanma, aggregation, Spark'ı YARN modunda çalıştırma gibi konular uygulama seviyesinde öğrenilecektir.

  • Spark Dataframe ve SparkSession Giriş
  • Dosya Kaynağından Veri Okuma
  • Elle Şema Tasarlama
  • Columns ve Expressions
  • Rows
  • Dataframe'i CSV Formatında Diske Yazma
  • Veri Filtreleme
  • Birden Fazla Sütun Üzerinde Filtreleme ve Dönüşümler
  • Kullanıcı Tanımlı Fonksiyonlar (UDF)
  • Kullanıcı Tanımlı Fonksiyonlar (UDF) Pandas
  • Sütun Ekleme, Düşürme ve Yeniden İsimlendirme
  • Tarih/Zaman Operasyonları-1: String -> Timestamp
  • Tarih/Zaman Operasyonları-2: Unix Timestamp
  • Tarih/Zaman Operasyonları-3: String -> Date
  • Tarih/Zaman Operasyonları-4: Yeni Özellik Çıkarma
  • Aggregations
  • Spark Execution Plan İnceleme
  • Spark YARN Mode
  • Higher Order Fonksiyonlar

2
Veri Kaynakları

Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.

  • Parquet Formatı
  • Avro Formatı
  • SON ve CSV Formatları
  • ORC Formatı
  • Apache Hive
  • İlişkisel Veri Tabanı (PostgreSQL)

3
Spark Uygulamasını Çalıştırma ve Optimizasyon

Performans optimizasyonuna çok açık olan Spark için performans ve kaynakları etkin kullanma incelikleri öğrenilir. Dinamik kaynak kullanımı, partitioning ve bucketing, adaptive query, shuffle partitions gibi konular ele alınmaktadır.

  • Pycharm Projesi Yaratma
  • Spark-submit ve Python argparse
  • Spark Konfigürasyonlar
  • Spark Resouce Allocation ve Optimizasyon İpuçları
  • Multinode Cloudera Cluster Üzerinde Demo
  • Spark Dynamic Resource Allocation
  • Cloudera Cluster Üzerinde Spark Dynamic Allocation Demo
  • Cache ve Persist
  • Spark Join Stratejileri
  • Broadcast Hash Join
  • Shuffle Sort Merge Join
  • Bucketing Giriş
  • Bucketing Veri Okuma
  • Bucketing Veri Yazma
  • Partitioning Giriş
  • Partitioning Demo
  • Shuffle Partitions
  • Adaptive Query Execution

4
Bir Lakehouse olarak Delta Lake

Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.

  • Delta Lake Giriş
  • Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
  • Delta Lake ile Upsert Operasyonu

2
Veri Kaynakları

Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.

  • Parquet Formatı
  • Avro Formatı
  • SON ve CSV Formatları
  • ORC Formatı
  • Apache Hive
  • İlişkisel Veri Tabanı (PostgreSQL)

4
Bir Lakehouse olarak Delta Lake

Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.

  • Delta Lake Giriş
  • Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
  • Delta Lake ile Upsert Operasyonu

Yetkinlik Edin
Apache Spark ile Büyük Veri İşleme Öğren
En İyi Fiyat

Bugün Öğrenmeye Başla

1 yıl boyunca sınırsız erişim

$ 75 $ 45 .00 /tek seferlik

  • Tüm materyallere 1 yıl erişim
  • Ders videoları & materyalleri
  • Puanlanan quiz’ler
  • Sertifika

Çeşitli ölçeklerdeki kurumlar ekipleri için Miuul'u kullanıyor.

Çalışanlarınıza özel teklif almak için Bize yazın

Apache Spark ile Büyük Veri İşleme öğrenmeye bugün başla!
Kayıt Ol