Tavsiye sistemleri genel olarak kullanıcılara bazı teknikleri kullanarak, ürün veya hizmet önerme yapılarıdır. 1990 ve 1994 yıllarında ortaya çıkan iki farklı çalışma ile dijital kitaplık isimlendirmesiyle ilk kez gündeme gelmiştir. Radyo programları, e-ticaret siteleri, arkadaşlık uygulamaları, sosyal medya kanalları gibi birçok sistem ve altyapıda kullanılmaktadır.
İçeriklerin çok geniş olduğu yapılarda, kullanıcının kişisel ilgi alanlarına göre, sahip olunan içeriklerin filtrelenmesi ihtiyacına cevap verir. Geniş içerikler barından veri yapılarının kullanıcının ilgi alanları özelinde alt kümelere indirgenmesiyle, daha küçük veri setlerini kullanıcıya ulaştırma ihtiyacına çözüm üreten sistemlerdir.
Kısacası genel amaç çok olan olası içerik, ürün, hizmet, film vb. durumları filtrelemek; bu filtrelemeyi de yaparken kullanıcının ilgi alanları ile örtüşebilecek şekilde daha akıllı bir sistem oluşturma çabasıdır.
Bazı tavsiye sistemlerini göz atacak olursak:
Kullanıcılara ürün ya da hizmet önerme, yani tavsiyelerde bulunmak istenilen durumlarda kullanılan yöntemlerden biridir. Veri içerisindeki örüntüleri bulmak için kullanılan kural tabanlı bir makine öğrenmesi tekniğidir. Geçmişte veri madenciliği tekniği olarak da literatürde geçen birliktelik kuralı öğrenimi, ilerleyen dönemlerde yapay zeka tekniği olarak da karşımıza çıkabilmektedir. Bir örnek vermek gerekirse bir perakende satış yapan bir şirket olan Wallmart yaptığı analizler sonucunda ulaştığı gözlemlerde, bebek bezi ile bira arasında bir ilişki olduğu sonucuna varmıştır. Belirli bir zaman periyodunda, bebek bezi alanların çok büyük olasılıkla bira da aldığı görülmüştür. Wallmart bunun sonucunda reyonların dizilimini bu bilgiye göre oluşturup, satışlarında ciddi oranda bir artış meydana getirmiştir.
Bir örnek ile bu yapıyı betimleyelim. Her bir kullanıcı yaptıkları alışverişler sonucunda bir alışveriş fişi meydana getirmektedir. Bu alışveriş fişlerinde yüksek bir oranda birlikte alınan ürün çiftleri belirlenir. Gözlemlediğimiz oran, üzerinde çalıştığımız satın alınan ürün çiftlerinin birlikte alınma olasılığına dair istatistiki bir bilgi sunar. Birliktelik kuralını kısaca bu şekilde betimleyebiliriz.
Apriori, sepet analizi yöntemidir. Ürünlerin birlikteliklerini ortaya çıkarmak için kullanılır. Apriori algoritması, bir önceki bölümde belirttiğimiz örnekteki birliktelik kuralı öğrenimini daha programatik olarak, daha büyük veri setleri üzerinde ve çeşitli istatistikleri de hesaplayacak şekilde uygulama imkanı sunar.
Apriori algoritması üzerinden hesaplanabilen, yorumları değerli olan üç temel metrik bulunur. Bu üç temel metrik ile veri seti içerisindeki ilişki örüntülerini, yapılarını gözlemleme ve ilişkileri istatistiksel bir ölçüt ile değerlendirme imkanı bulunur.
Şimdi Apriori algoritmasının kullanıldığı bir örnek inceleyelim:
Örnekte görülebildiği üzere yapılan tüm işlemlerin sayısına göre ekmeğin satın alınma frekansı 4 ve sütün 6 iken, ekmek ve sütün birlikte satın alınma frekansı 3’tür. Bu kapsamda Apriori algoritmasının üç temel metriğini yukarıda gibi incelenirse ekmek satın alındığında süt satın alınma olasılığı gözlemlenebilir. Lift değerinin sonucunda ise ekmeğin satın alınması durumunda süt satın alımı 1 kat artar yorumu yapılabilir.
Temelinde ürün içeriklerinin benzerlikleri üzerinden tavsiyeler geliştirilen bir yöntemdir. Buradaki içeriğe ise bir ürünün kategori bilgisi, bir dizinin yönetmeni/oyuncu kadrosu, bir ürünün açıklamasındaki bilgiler şeklinde örnek verilebilir. Bu içeriklere dış bilgi/meta bilgiler denir. Elimizdeki nesnenin meta bilgileri üzerinden benzerlikler hesaplanır ve ilgili ürüne en benzer olan ürünler önerilir. İçerik temelli filtreleme yöntemi kullanıcı bilgilerine ve etkileşimlerine sahip olmadığımız, elimizde yalnızca içerik temelli bir yapı olan durumlarda kullanılır. Örnek olarak bir kullanıcı bir şarkı dinlediğinde sahip olduğumuz tek bilgi, dinlediği şarkıdır. Bu kullanıcıya dinlediği şarkının türünde başka bir şarkı önermek, içerik temelli filtreleme sonucu bir öneride bulunmaya örnektir.
Başka bir örnekte durumu derinlemesine incelemek gerekirse: Bir kullanıcının bir dizi izlediğini düşünelim. Kullacının izlediği dizinin açıklamalarındaki metinleri matematiksel ve ölçümlendirilebilir bir forma getirip, bu form üzerinden başka bir filmin ölçümlendirilebilir forma getirilmiş açıklamasına en yakın olan film önerilebilir. Buna metinleri matematiksel olarak temsil etme veya metinleri vektörleştirme denir. Ardından bu matematiksel temsiller üzerinden çeşitli metriklerle benzerlikleri hesaplayıp kullanıcıya öneri yapılabilir.
Açıklamalardaki kelimeler film indeksinde vektörleştirilerek matris oluşturulur. Bu kelimeler özelinde kullanım sayılarına göre sayısal değerlerle matrisimizde betimlenir. Bu sayısal değerler üzerinden Öklid uzaklığı hesabı ve cosine similarity hesabıyla filmlerin birbirine olan yakınlığı hesaplanıp, bu yakınlık derecesine göre önerilerde bulunulur. Bu vektörleştirme işlemlerinde yaygın olarak iki yöntem kullanılır:
IDF=1+(loge((toplam doküman sayısı+1)/içinde t terimi olan doküman sayısı+1)))
Son adımda L2 Normalizasyonu yapılır. Satırların kareleri toplamının karekökü bulunur. İlgili satırdaki tüm hücreler, bulunan değere bölünür. Böylece L2 Normalizasyonu yapılmış olur.
Topluluğun kullanıcı ya da ürün bazında ortak kanaatlerini yansıtan yöntemlerdir. Kullanıcıların etkileşimlerine sahip olunan durumlarda kullanılır. Bu yöntemler yaygın olarak üç şekilde uygulanır:
Bu yazımızda e-ticaret sitelerinden, popüler yayın platformlarına kadar birçok sektörde kullanılan tavsiye sistemlerine değindik. Tavsiye sistemleri hakkında daha detaylı bilgi edinmek isterseniz Miuul'un Tavsiye Sistemleri üzerine oluşturduğu eşsiz eğitimlere mutlaka göz atın. Veri bilimini kariyer yolunuz haline getirmek istiyorsanız, Miuul’un Veri Bilimci Kariyer Yolculuğu tam olarak aradığınız eğitimi sizlere sunacaktır.
Kaynaklar