K-en yakın komşu (k-nearest neighbors, KNN) algoritması, gözlemlerin birbirlerine olan benzerlikleri üzerinden tahminlerin yapıldığı gözetimli makine öğrenmesi modellerinde regresyon ve sınıflandırma problemlerinde kullanılan bir algoritmadır.
Bu algoritma kapsamında tahminde bulunmak istediğimiz gözlem birimine en yakın K adet farklı gözlem birimi tespit edilir ve bu K adet gözlem biriminin bağımlı değişkenleri üzerinden ilgili gözlem için tahminde bulunulur. Konuyu regresyon ve snıflandırma problemleri kapsamında birer örnekle detaylandıralım.
Bağımlı ve bağımsız değişkenin bir arada olduğu yukarıdaki örnek veri setinde, Y bağımlı değişkeni sayısal bir değişkendir. Dolayısıyla bir regresyon problemi ile karşı karşıyayız.
Herhangi bir X1 ve X2 değerine sahip gözlem birimi için Y bağımlı değişken tahmini yapılmak istendiğinde, öklid ya da benzeri bir uzaklık hesabı ile en yakın K adet gözlem birimi hesaplanarak bu gözlem birimlerinin bağımlı değişkenlerinin (Y değerlerinin) ortalaması alınır.
Bağımlı ve bağımlı değişkenin bir arada olduğu yukarıdaki örnek veri setinde, Y bağımlı değişkeni sayısal görünmesine karşın binary encode edilmiş bir değişkendir. Dolayısıyla bir sınıflandırma problemi ile karşı karşıyayız.
Regresyon problemindekine benzer şekilde herhangi bir X1 ve X2 değerine sahip gözlem için Y bağımlı değişken tahmini yapılmak istendiğinde önce uzaklık hesabı yapılarak en yakın K gözlem birimi belirlenir. Ardından regresyon probleminden farklı olarak en yakın K adet gözlemin Y değerlerinin en sık gözlenen frekansı, tahmin edilen sınıf olarak belirlenir.
Makine öğrenmesi algoritmaları hakkında detaylı bilgi edinmek isterseniz Miuul'un Makine Öğrenmesi üzerine oluşturduğu eşsiz eğitimlere mutlaka göz atın. Veri bilimini kariyer yolunuz haline getirmek istiyorsanız, Miuul’un Data Scientist Path kariyer yolculuğu tam olarak aradığınız eğitimi sizlere sunacaktır.
Kaynaklar