12 ay
Tahmini Süre
7
Modül
2
Sektörel Proje
140+
Quiz
Sertifika
Mezuniyette
₺270K
Yıllık Kazanç
Mezunlarımızın Çalıştığı Şirketler
Modüller
Veri Bilimi Mühendisliği
Veri Bilimi ve Veri Mühendisliği; veri odaklı pozisyonlar arasında en fazla ihtiyaç duyulan alanlardan. Bu program Veri Mühendisliği yetenekleri ile donatılmış Veri Bilimci yetiştirmek üzere oluşturulmuştur. Veri Mühendisliği ve Veri Bilimi görevleri iç içe olan şirketler ve bu şirketlerde pozisyon arayışında olan kişiler için tasarlanmıştır.
Modül 1 11 Saat
Veri Bilimi için Python Programlama
Bu eğitim Python programlama dilini etkin bir PyCharm IDE kullanımı ile fonksiyonel yetenekler kapsamında öğrenilmesini sağlar. Veri okuma, veri ön işleme, özellik geliştirme ve makine öğrenmesi (machine learning) modelleri üretimi gibi tüm temel veri bilimi işlemlerini yapabilmeniz için gerekli altyapıyı proje geliştirme düzeyinde edineceksiniz.
Endüstri projesi veri sponsoru :
PyCharm, Virtual Environment ve Dependency Management konuları ile büyük ölçekli projeler için kendi çalışma ortamınızı oluşturmayı ve yönetmeyi öğreneceksiniz. Çalışma ortamı ayarları gerçekleştirildikten sonra Python’da ilk adımlarımızı atmış olacağız.
Python programlamanın temellerini oluşturan veri yapılarını kapsamlı bir şekilde öğrenme imkanı bulacaksınız.
Sıfırdan kapsamlı bir şekilde ileri seviye fonksiyonları yazmayı öğrenecek ve zor senaryolar için kendi fonksiyonlarınızı yazabileceksiniz. Ayrıca comprehensions konusu ile veri bilimi ve makine öğrenmesi süreçlerini ölçeklenebilir pipeline’lar ile sürdürebilmek için çok değerli bilgiler edineceksiniz.
Veri bilimi, makine öğrenmesi ve yapay zeka uygulamaları için kaçınılmaz olan temel kütüphaneleri öğreneceksiniz. Bu bilgileri yaygın kaynaklardan farklı olarak gelişmiş fonksiyonlar yazmak için kullanacaksınız ve fonksiyonel veri analizi modülünüzü dokümantasyonu ile birlikte yazabileceksiniz.
Modül 2 7 Saat
Veri bilimi süreçlerinin çok büyük bir kısmını, veri temizliği ve değişken mühendisliği oluşturmaktadır. Bu eğitim; ham veriyi temizleyerek, ilgili veriden yeni özellik çıkarmak ve modele girmeye uygun olmayan değişkenleri dönüştürmek için öğrencilerin belirli yaklaşımlar edinmesini amaçlamaktadır. Edinilen yaklaşımlar sayesinde veri setini bir makine öğrenmesi (machine learning) modeline girmeye uygun hale getirme konusunda gerekli altyapıyı edineceksiniz.
Veri setindeki aykırı gözlemler ile mücadele etme yöntemleri hakkında bilgi edineceksiniz.
Veri setindeki eksik gözlemler ile mücadele etme yöntemleri hakkında bilgi edineceksiniz.
Veriyi makine öğrenmesine girmeden önce sayısal ifadelerle temsil etmemizi sağlayan LabelEncoder ve One-Hot Encoding yaklaşımları ve uzaklık temelli makine öğrenmesi algoritmalarında model performansını önemli ölçüde etkileyen değişken standartlaştırma ve değişken dönüşüm işlemleri hakkında bilgi edineceksiniz.
Regular expression yardımıyla, ham veriyi temizleyerek anlamlı hale getirmek için kullanılan yöntemler hakkında bilgi edineceksiniz.
Modül 3 13 Saat
Veri bilimi Python programlama dilini kullanarak ve CRISP-DM süreçlerini dikkate alarak denetimli ve denetimsiz makine öğrenmesi (machine learning) yöntemlerini öğrenmemizi sağlar. Bu eğitimde geleneksel algoritmalar ve son zamanlarda öne çıkan birçok algoritmayı (XGBoost, LightGBM, CatBoost) kıyaslayarak ve model seçme özellikleri ile işleyerek önemli bir yetkinlik edineceksiniz.
Endüstri projesi veri sponsoru :
Makine öğrenmesine giriş yapacağınız bu bölümde makine öğrenmesi için gerekli olan temel kavramları öğreneceksiniz.
Bağımlı ve bağımsız değişken/değişkenler arasındaki ilişkiyi doğrusal olarak modelleyen doğrusal regresyon algoritmasının teorisini öğrenecek ve uygulamasını gerçekleştireceksiniz.
Sınıflandırma problemi için bağımlı ve bağımsız değişkenler arasındaki ilişkiyi doğrusal olarak modelleyen lojistik regresyon algoritmasının teorisini öğrenecek ve uygulamasını gerçekleştireceksiniz.
Makine öğrenmesi dünyasında çok geniş bir alana sahip olan karar ağaçlarının temelini oluşturan CART’ın teorisini öğrenecek ve uygulamasını gerçekleştireceksiniz.
Gelişmiş ağaç yöntemlerinin ele alınacağı bu bölümde Random Forests ve Gradient Descent temelli ağaç yöntemleri ele alınacaktır.
Modele verilebilecek herhangi bir bağımlı değişken olmadığı durumlarda, verideki gözlemleri uzaklık tabanlı gruplayarak sınıflandırmamızı sağlayan modeller hakkında bilgi edineceksiniz.
Uçtan uca bir makine öğrenmesi pipeline oluşturma sürecini öğrenme imkanı bulacaksınız.
Modül 4 6 Saat
Büyük veri, geleneksel yaklaşımla işlenip yönetilemeyecek kadar büyük ve karmaşık veriye işaret eder. Veri günümüzde şirket ve kurumların çalışma şekillerini kökten değiştirmeye başlamıştır. Bu durum önümüzdeki yıllarda daha da hayati bir noktaya gelecek. Veriyi stratejik bir değer olarak gören şirketler görmeyenlere göre öne geçecektir.
Neredeyse iki yılda bir üretilen verinin ikiye katlandığı bir dünyada artık veriyi tek bir makineye sıkışarak işlemek, saklamak, analiz etmek zorlaşmaktadır. Üstelik artık her şeyin tek bir makinede olduğu sistemler tek nokta kırılganlığı taşıdığından veri işleyen sistemler ister istemez ölçeklenmektedir.
Bu modülde büyük verinin başlangıcından beri var olan ve halen dünya büyük verisinin çoğunu saklayan ve işleyen açık kaynak kodlu projeler uygulama seviyesinde öğrenilecektir. Aynı zamanda büyük veri ve dağıtık veri işlemenin temel mantığı özümsenecektir.
Endüstri projesi veri sponsoru :
Apache Hadoop açık kaynak kodlu büyük veri dünyasının en önde gelen popüler platformudur. Bu bölümde Hadoop Dağıtık Dosya Sistemi (HDFS), Kaynak Yönetimi (YARN) ve dağıtık veri işleme çerçevesi MapReduce öğrenilecektir. Veri Hadoop'a nasıl taşınır? Hadoop'dan veri nasıl alınır? MapReduce ile HDFS üzerindeki veri nasıl işlenir? YARN Resource Manager ara yüzlerinden işler nasıl takip edilir gibi konular öğrenilecektir.
HDFS üzerinde saklanan veri üzerinde SQL benzeri bir dil ile sorgulama yapılmasına imkân sağlayan ve büyük veri dünyasında veri ambarı (data warehouse) / veri gölü (data lake) yapılarında sıklıkla kullanılan bir projedir. Hive veri tabanı ve tablo yaratma, veri setlerini Hive tablosu haline getirme, SQL editörünü Hive'a bağlama, SQL sorgu dosyalarını Hive üzerinde çalıştırma, Hadoop dosya formatları, Partitioning ve Bucketing gibi konular öğrenilecektir.
Hadoop ile ilişkisel veri tabanları arasında veri transferi sağlayan bir projedir. Sqoop ile PostgreSQL veri tabanında sorgu çalıştırma, Hadoop, Hive ve PostgreSQL arasında karşılıklı olarak veri aktarımları uygulamalı olarak öğrenilecektir.
Akan veri işleyen sistemler ve uygulamaların kalbinde yer alan oldukça popüler bir dağıtık akan veri platformudur. Kafka'nın temel özellikleri, kavramları, topic oluşturma, Python ile Kafka'ya mesaj gönderme ve okuma, console consumer/producer ve consumer grupları kullanımı uygulamalı olarak öğrenilecektir.
Modül 5 6 Saat
Apache Spark ile Büyük Veri İşleme
Spark, dağıtık veri işlemenin zorlu tarafını geliştiriciden yalıtarak ona bütünleşik ve kullanımı kolay API’ler sunan analitik bir veri işleme platformudur. Spark'ın bütünleşik programlama modeli, veri açısından zengin analitik uygulamalar geliştirenler için onu en iyi seçim haline getirir. Spark ile parti veya akan veri işlemek mümkündür.
Büyük verileri bildiğiniz SQL’i kullanarak sorgulamak çok kolaydır. Apache Spark, açık kaynaklı bir proje olarak, hızla ve ölçeklenerek yeniliği ateşliyor. Bu eğitimde popüler veri bilimi programlama dili Python ile Spark nasıl kullanılır öğrenilecek ve veri manipülasyonundan, kodların optimize edilmesine kadar geniş ölçekte veri işlemenin püf noktaları öğrenilecektir.
Son olarak işlenen verilerin düzenli ve sistematik olarak nasıl saklanacağı ve buradan bu veriyi tüketecek iç dış müşterilere en güncel, tutarlı ve doğru şekilde nasıl sunulabileceği görülecektir.
Büyük ölçekli verilerin dağıtık olarak veri manipülasyonu yapılmasını sağlar. Spark'ın temelleri, veri okuma, filtreleme, yeni özellikler ekleme, dönüştürme, diske yazma, kullanıcı tanımlı fonksiyon yazma, SparkSQL fonksiyonlarını kullanma, aggregation, Spark'ı YARN modunda çalıştırma gibi konular uygulama seviyesinde öğrenilecektir.
Spark ile ilişkisel veri tabanları, HDFS, Hive gibi farklı veri kaynaklarına okuma yazma yapılır. Farklı veri formatları ve sıkıştırma algoritmaları ile veriler okunur yazılır.
Performans optimizasyonuna çok açık olan Spark için performans ve kaynakları etkin kullanma incelikleri öğrenilir. Dinamik kaynak kullanımı, partitioning ve bucketing, adaptive query, shuffle partitions gibi konular ele alınmaktadır.
Büyük veri dünyasındaki ACID problemine çözüm getiren ve büyük veriyi daha da özgürleştirerek ilişkisel veri tabanı konforunu dağıtık devasa veri üzerinde sağlayan proje olan Delta Lake öğrenilecektir. Delta Lake ile büyük veri üzerinde upsert, update, insert, delete gibi temel CRUD operasyonları ele alınacaktır.
Modül 6 3 Saat
Spark, dağıtık veri işlemenin zorlu tarafını geliştiriciden yalıtarak ona bütünleşik ve kullanımı kolay API’ler sunan analitik bir veri işleme platformudur. Spark'ın bütünleşik programlama modeli, veri açısından zengin analitik uygulamalar geliştirenler için onu en iyi seçim haline getirir. Spark ile parti veya akan veri işlemek mümkündür.
Spark'ın onlarca farklı özelliklerinden bir tanesi da makine öğrenmesi modellerini büyük ölçekteki veriler üzerinde mümkün kılmasıdır. Bu eğitimde Spark ML kütüphaneleri tanınacak ve bu kütüphaneler yardımıyla supervised, unsupervised öğrenme yöntemleriyle örnek modeller geliştirilecektir.
Spark yapay öğrenme kütüphanelerinin tanıtımı ve Spark ML Pipelines temel kavramları ele alınarak makine öğrenmesi uygulamalarına giriş ve ön hazırlık yapılır.
En yaygın gözetimli öğrenme yöntemlerinden olan Regresyon ile model geliştirilecek ve veri hazırlık süreci detaylı olarak ele alınacaktır. Regresyon model değerlendirme kütüphanesi kullanılarak başarı metrikleri elde edilecektir.
Spark ML sınıflandırma algoritmalarından birisiyle ve örnek bir veri seti üzerinde ML Pipelines kullanarak sınıflandırma modeli geliştirilecektir. Sınıflandırma model değerlendirme kütüphanesi kullanılarak başarı metrikleri elde edilecektir.
Spark ML kütüphanesinde bulunan KMeans algoritması örnek bir veri seti üzerinde kullanarak kümeleme modeli geliştirilecektir. Kümeleme model değerlendirme kütüphanesi kullanılarak ideal küme sayısı bulunacaktır.
Modül 7 7 Saat
Bu eğitim 'Veri Bilimcileri' ve adaylarını teknik yönden güçlendirmek, onları konteyner ortamlarıyla tanıştırmak, farklı model dağıtım seçenekleri hakkında bilgiyle donatarak yeterli pratikliği kazandırmayı hedeflemektedir. Linux komut satırı temelleriyle başlayan teknik yeterliliği arttırma serüveni bash scripting, sürüm kontrol sistemi kullanımı, PostgreSQL temel ve konteyner ile devam etmektedir. Temel yetkinliği kazandıktan sonra geliştirilen modellerin dağıtımı ve otomasyonu konusunda uygulama seviyesinde yetkinlik kazanılacaktır.
Linux terminalinde günlük hayatta sık kullanılan komutlar, kavramlar, metin editörleri, dosya sahiplik ve erişim yetkileri ve daha birçok konu uygulamalı olarak öğrenilir.
Rutin ve tekrarlanan işlerin programlama dilini andıran bash scripting ile ilgili koşullar, döngüler, fonksiyon oluşturma, dosya içeriği okuma, argüman kullanma gibi konular öğrenilecektir.
Crontab nedir, nasıl kullanılır örnek bir bash script üzerinden öğrenilir.
Örnek proje üzerinden sürüm kontrol sisteminin mantığı, kullanımı, github entegrasyonu, branch oluşturma, değiştirme, merge, hesap token’ı oluşturma ve kullanma konuları uygulamalı olarak öğrenilir
PostgreSQL veri tabını servisini çalıştırma, durdurma, Psql shell bağlantısı, veri tabanı yaratma, tablo yaratma, bir csv dosyasındaki kayıtların tabloya girilmesi, sql editörü DBeaver’ı PostgreSQL veri tabanına bağlama konuları uygulamalı olarak öğrenilir.
Docker giriş, temel kavramları, komut satırı, konteyner oluşturma, çalıştırma, durdurma, loglarını inceleme, volume oluşturma, Docker network, Docker imaj oluşturma, Docker Hub içinde imaj arama, imaj etiketleme, Dockerfile dosyası oluşturma, özgün imajlar yaratma, imajların Docker Hub’a gönderilmesi, Docker Compose ile multi-container uygulamalar çalıştırma konuları uygulamalı seviyede öğrenilir.
MLOps ve MLflow temel kavramları, veri bilimi projesi hayat döngüsündeki yeri, model geliştirme esnasında MLflow entegrasyonu, model seçimi, model registiry, MLflow ile model deployment konuları uygulamalı olarak öğrenilir.
CD/CD kavramı, otomasyonun önemi, Jenkins’in yazılım dağıtımındaki rolü, git commit ile CI/CD pipeline tetikleyerek uygulamanın canlı ortamda çalıştırılması uygulamalı olarak öğrenilir.
Kubernetes temel kavramları, minikube kullanma, temel kubectl komutları, pod oluşturma, deployment oluşturma, service ve ingress kavramları uygulamalı olarak öğrenilir. Multi-node Rancher Kubernetes üzerinden demo yapılır.
Endüstri Projesi
Bugün Başla
12 Aylık Erişim
Kendi programına uygun şekilde ilerle
$ 379 .00 /tek seferlik
- Tüm materyallere 12 aylık erişim
- Endüstri projeleri ve sanal mentor desteği
- Sertifika
Şirketler çalışanlarının yetkinliğini arttırmak için Miuul’u tercih ediyor.
Teklif almak için Bize yazın
Şimdi başlamaya hazır mısın?
Öğrenmeye bugün başla - şimdi senin zamanın.
Kayıt Ol