Mezunlarımızın Çalıştığı Şirketler
Eğitim programlarımız lider şirketlerle kurduğumuz ortaklıklar ile güçlendirilmiş ve inovatif ekipler tarafından kullanılmaktadır.
Program hakkında ayrıntılı bilgi edinin
Kurs 6 Saat
Apache Spark ile Büyük Veri İşleme
Spark, dağıtık veri işlemenin zorlu tarafını geliştiriciden yalıtarak ona bütünleşik ve kullanımı kolay API’ler sunan analitik bir veri işleme platformudur. Spark'ın bütünleşik programlama modeli, veri açısından zengin analitik uygulamalar geliştirenler için onu en iyi seçim haline getirir. Spark ile parti veya akan veri işlemek mümkündür.
Büyük verileri bildiğiniz SQL’i kullanarak sorgulamak çok kolaydır. Apache Spark, açık kaynaklı bir proje olarak, hızla ve ölçeklenerek yeniliği ateşliyor. Bu eğitimde popüler veri bilimi programlama dili Python ile Spark nasıl kullanılır öğrenilecek ve veri manipülasyonundan, kodların optimize edilmesine kadar geniş ölçekte veri işlemenin püf noktaları öğrenilecektir.
Son olarak işlenen verilerin düzenli ve sistematik olarak nasıl saklanacağı ve buradan bu veriyi tüketecek iç dış müşterilere en güncel, tutarlı ve doğru şekilde nasıl sunulabileceği görülecektir.
Büyük ölçekli verilerin dağıtık olarak veri manipülasyonu yapılmasını sağlar. Spark'ın temelleri, veri okuma, filtreleme, yeni özellikler ekleme, dönüştürme, diske yazma, kullanıcı tanımlı fonksiyon yazma, SparkSQL fonksiyonlarını kullanma, aggregation, Spark'ı YARN modunda çalıştırma gibi konular uygulama seviyesinde öğrenilecektir.
- Spark Dataframe ve SparkSession Giriş
- Dosya Kaynağından Veri Okuma
- Elle Şema Tasarlama
- Columns ve Expressions
- Rows
- Dataframe'i CSV Formatında Diske Yazma
- Veri Filtreleme
- Birden Fazla Sütun Üzerinde Filtreleme ve Dönüşümler
- Kullanıcı Tanımlı Fonksiyonlar (UDF)
- Kullanıcı Tanımlı Fonksiyonlar (UDF) Pandas
- Sütun Ekleme, Düşürme ve Yeniden İsimlendirme
- Tarih/Zaman Operasyonları-1: String -> Timestamp
- Tarih/Zaman Operasyonları-2: Unix Timestamp
- Tarih/Zaman Operasyonları-3: String -> Date
- Tarih/Zaman Operasyonları-4: Yeni Özellik Çıkarma
- Aggregations
- Spark Execution Plan İnceleme
- Spark YARN Mode
- Higher Order Fonksiyonlar
Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.
- Parquet Formatı
- Avro Formatı
- SON ve CSV Formatları
- ORC Formatı
- Apache Hive
- İlişkisel Veri Tabanı (PostgreSQL)
Performans optimizasyonuna çok açık olan Spark için performans ve kaynakları etkin kullanma incelikleri öğrenilir. Dinamik kaynak kullanımı, partitioning ve bucketing, adaptive query, shuffle partitions gibi konular ele alınmaktadır.
- Pycharm Projesi Yaratma
- Spark-submit ve Python argparse
- Spark Konfigürasyonlar
- Spark Resouce Allocation ve Optimizasyon İpuçları
- Multinode Cloudera Cluster Üzerinde Demo
- Spark Dynamic Resource Allocation
- Cloudera Cluster Üzerinde Spark Dynamic Allocation Demo
- Cache ve Persist
- Spark Join Stratejileri
- Broadcast Hash Join
- Shuffle Sort Merge Join
- Bucketing Giriş
- Bucketing Veri Okuma
- Bucketing Veri Yazma
- Partitioning Giriş
- Partitioning Demo
- Shuffle Partitions
- Adaptive Query Execution
Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.
- Delta Lake Giriş
- Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
- Delta Lake ile Upsert Operasyonu
Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.
- Parquet Formatı
- Avro Formatı
- SON ve CSV Formatları
- ORC Formatı
- Apache Hive
- İlişkisel Veri Tabanı (PostgreSQL)
Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.
- Delta Lake Giriş
- Delta Table Oluşturma, Okuma, Yazma ve Dataframe Dönüşümleri
- Delta Lake ile Upsert Operasyonu
Yetkinlik Edin
Apache Spark ile Büyük Veri İşleme Öğren
Bugün Öğrenmeye Başla
1 yıl boyunca sınırsız erişim
$
75
$
37.5
.00
/tek seferlik
- Tüm materyallere 1 yıl erişim
- Ders videoları & materyalleri
- Puanlanan quiz’ler
- Sertifika
Çeşitli ölçeklerdeki kurumlar ekipleri için Miuul'u kullanıyor.
Çalışanlarınıza özel teklif almak için Bize yazın