Sohbete Başla

KVKK metnini okudum, onaylıyorum.

Apache Spark ile Büyük Veri İşleme

Büyük verinin yıldızı Apache Spark ile yapay zekanın dili Python'un gücünü birleştirin ve harikalar yaratmaya hazır olun!

Kayıt Ol

Mezunlarımızın Çalıştığı Şirketler

Eğitim programlarımız lider şirketlerle kurduğumuz ortaklıklar ile güçlendirilmiş ve inovatif ekipler tarafından kullanılmaktadır.

Program hakkında ayrıntılı bilgi edinin

Kurs 6 Saat

Apache Spark ile Büyük Veri İşleme

Spark, dağıtık veri işlemenin zorlu tarafını geliştiriciden yalıtarak ona bütünleşik ve kullanımı kolay API’ler sunan analitik bir veri işleme platformudur. Spark'ın bütünleşik programlama modeli, veri açısından zengin analitik uygulamalar geliştirenler için onu en iyi seçim haline getirir. Spark ile parti veya akan veri işlemek mümkündür.

Büyük verileri bildiğiniz SQL’i kullanarak sorgulamak çok kolaydır. Apache Spark, açık kaynaklı bir proje olarak, hızla ve ölçeklenerek yeniliği ateşliyor. Bu eğitimde popüler veri bilimi programlama dili Python ile Spark nasıl kullanılır öğrenilecek ve veri manipülasyonundan, kodların optimize edilmesine kadar geniş ölçekte veri işlemenin püf noktaları öğrenilecektir.

Son olarak işlenen verilerin düzenli ve sistematik olarak nasıl saklanacağı ve buradan bu veriyi tüketecek iç dış müşterilere en güncel, tutarlı ve doğru şekilde nasıl sunulabileceği görülecektir.

Müfredatı gizle

PySpark Dataframe Operasyonları

Büyük ölçekli verilerin dağıtık olarak veri manipülasyonu yapılmasını sağlar. Spark'ın temelleri, veri okuma, filtreleme, yeni özellikler ekleme, dönüştürme, diske yazma, kullanıcı tanımlı fonksiyon yazma, SparkSQL fonksiyonlarını kullanma, aggregation, Spark'ı YARN modunda çalıştırma gibi konular uygulama seviyesinde öğrenilecektir.

Bölümü ayrıntılı incele

Spark Dataframe ve SparkSession Giriş
Dosya Kaynağından Veri Okuma
Elle Şema Tasarlama
Columns ve Expressions
Rows
Dataframe'i CSV Formatında Diske Yazma
Veri Filtreleme
Birden Fazla Sütun Üzerinde Filtreleme ve Dönüşümler
Kullanıcı Tanımlı Fonksiyonlar (UDF)
Kullanıcı Tanımlı Fonksiyonlar (UDF) Pandas
Sütun Ekleme, Düşürme ve Yeniden İsimlendirme
Tarih/Zaman Operasyonları-1: String -> Timestamp
Tarih/Zaman Operasyonları-2: Unix Timestamp
Tarih/Zaman Operasyonları-3: String -> Date
Tarih/Zaman Operasyonları-4: Yeni Özellik Çıkarma
Aggregations
Spark Execution Plan İnceleme
Spark YARN Mode
Higher Order Fonksiyonlar

Veri Kaynakları

Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.

Bölümü ayrıntılı incele

Parquet Formatı
Avro Formatı
SON ve CSV Formatları
ORC Formatı
Apache Hive
İlişkisel Veri Tabanı (PostgreSQL)

Spark Uygulamasını Çalıştırma ve Optimizasyon

Performans optimizasyonuna çok açık olan Spark için performans ve kaynakları etkin kullanma incelikleri öğrenilir. Dinamik kaynak kullanımı, partitioning ve bucketing, adaptive query, shuffle partitions gibi konular ele alınmaktadır.

Bölümü ayrıntılı incele

Pycharm Projesi Yaratma
Spark-submit ve Python argparse
Spark Konfigürasyonlar
Spark Resouce Allocation ve Optimizasyon İpuçları
Multinode Cloudera Cluster Üzerinde Demo
Spark Dynamic Resource Allocation
Cloudera Cluster Üzerinde Spark Dynamic Allocation Demo
Cache ve Persist
Spark Join Stratejileri
Broadcast Hash Join
Shuffle Sort Merge Join
Bucketing Giriş
Bucketing Veri Okuma
Bucketing Veri Yazma
Partitioning Giriş
Partitioning Demo
Shuffle Partitions
Adaptive Query Execution

Bir Lakehouse olarak Delta Lake

Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.

Bölümü ayrıntılı incele

Delta Lake Giriş
Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
Delta Lake ile Upsert Operasyonu

Veri Kaynakları

Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.

Bölümü ayrıntılı incele

Parquet Formatı
Avro Formatı
SON ve CSV Formatları
ORC Formatı
Apache Hive
İlişkisel Veri Tabanı (PostgreSQL)

Bir Lakehouse olarak Delta Lake

Bölümü ayrıntılı incele

Delta Lake Giriş
Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
Delta Lake ile Upsert Operasyonu

Yetkinlik Edin

Apache Spark ile Büyük Veri İşleme Öğren

%60 indirim

En İyi Fiyat

Bugün Öğrenmeye Başla

1 yıl boyunca sınırsız erişim

Her yıl yalnızca 9.90$'a otamatik erişim yenileme

Yenileme diledigin zaman iptal edilebilir

Kupon Kodu: BF60

$ 85 $ 34 .00 /tek seferlik

Tüm materyallere 1 yıl erişim
Ders videoları & materyalleri
Puanlanan quiz’ler
Sertifika

Şimdi Kayıt Ol

Miuul, gerekli gördüğü durumlarda eğitim içeriklerinde, modüllerde ve yenileme ücretlerinde değişiklik yapma hakkını saklı tutar. 9.90$'lık yıllık yenileme ücreti şu an için özel bir fırsattır; ileride bu koşullarda revizyon yapılabilir.

Çeşitli ölçeklerdeki kurumlar ekipleri için Miuul'u kullanıyor.

Çalışanlarınıza özel teklif almak için Bize yazın

Apache Spark ile Büyük Veri İşleme öğrenmeye bugün başla!

Kayıt Ol