Bir web sitesinde yapılan arayüz değişikliğinin ardından, kullanıcıların web sitesi üzerinde geçirdikleri günlük ortalama sürede bir değişiklik olduğunu düşünelim. Bu durumun şans eseri olup olmadığını gözlemlemek adına, arayüz değişikliği öncesi gözlemlenen kullanıcı grubu (A) ve değişiklik sonrasında gözlemlenen kullanıcı grubu (B) incelenmelidir. A ve B gruplarının arayüz değişikliğine bağlı olarak sitede geçirdikleri sürede herhangi bir anlamlı fark olmadığı yönünde bir hipotez kurulur ve bu hipotez test edilir.
Hipotez: Bir inanışı veya savı test etmek için kullanılan istatistiksel bir olgudur.
Yukarıdaki görselde bir internet sitesi için hazırlanan iki farklı tasarım görülmektedir. Her iki tasarımın da bir grup kullanıcı tarafından test edildiğini ve test gruplarının sitede geçirdikleri ortalama sürelerin 42 ve 45 dakika olduğunu düşünelim. İlk bakışta 3 dakikalık farkın kullanıcı deneyimi açısından daha verimli olduğu düşünülse de elde edilen farkın şans eseri oluşmuş olma ihtimali göz önünde bulundurulmalıdır. Bir örneklem üzerinden bir genelleme yapmaya çalıştığımız bu senaryoda, elde edilen 3 dakikalık farkın şans eseri ortaya çıkmadığı, tasarım değişikliğinin kullanıcıların sitede geçirdikleri süre üzerinde etkili bir değişken olduğu istatistiki bir yöntem ile ispat edilmesi gerekmektedir.
İki grup ortalaması arasında karşılaştırma yapılmak istendiğinde kullanılır. Buradaki A ve B harfleri ‘Kontrol Grubu’ ve ‘Deney Grubu’nu ifade eder. Genellikle deneme yapılması istenilen özelliklerin testi için bir takım makine öğrenmesi algoritmaları sayesinde, farklılıkların test edilmesi gibi senaryolarda kullanılır. A/B Testleriyle karşılaşıldığında genellikle iki ortalama değer veya iki oranın kıyaslandığı düşünülür.
‘Bağımsız İki Örneklem T Testi’ iki grup ortalaması arasında karşılaştırma yapılmak istendiğinde kullanılır.
H₀ yokluk hipotezi olup, sınamak istediğimiz durum bu hipotezdir. Analizlerde H₀ hipotezi test edilir. H₀ hipotezini reddetme veya reddedememe durumuna göre, H₁ hipotezi değerlendirilir. Hipotezler görseldeki gibi 3 farklı şekilde kurulabilir.
İki grubun ortalaması kıyaslanırken kullanılan bazı test istatistikleri mevcuttur:
Burada X1 ve X2 örnek ortalamaları farkı istatistiği, S örnek varyansı istatistiği iken t test istatistiğini belirtir. Bu bağlamda, bilimsel kıyaslamalar ve karara varma imkanı sağlayan yöntemlerin bazı varsayımları vardır:
Grupların standart normal dağılıma sahip olması varsayımıdır yani ortalamanın 0, standart sapmanın 1 olması demektir.
İki grubun varyanslarının homojen olması varsayımıdır yani iki grubun dağılımlarının birbirine benzer olması durumudur.
Hipotez testlerinin işleyişinde, test istatistiklerinin yanı sıra hipotezler p-value değerlerinin kullanılması ile de yorumlanabilir. Bu doğrultuda işleyiş akışı aşağıdaki gibi olacaktır:
(P-Value, gözlemlenen sonuçların, test edilmek istenen durumla alakalı olmamasının olasılığıdır.)
Önceki bölümde uygulanan testlerde grup ortalamaları ve medyanlar kıyaslanmıştı. Şimdi iki oran arasındaki karşılaştırmalara bakalım:
Yukarıda hipotez testlerini kurma noktasında kullanılan hipotez çeşitleri gösterilmektedir. Bu bağlamda Zh olarak isimlendirilen istatistiksel bir değer mevcuttur. Aşağıdaki görselde Zh değerinin hesaplanmasında kullanılan formül verilmiştir.
Zh istatistiği iki oranın farkları ve iki oran için örneklem sayılarına dayalı bir hesaplamayı barındırmaktadır. Lakin Zh ile hesap yapmak yerine daha kolay bir yol olan p-value değerini kullanarak, daha pratik bir şekilde kararlar verilebilir. Bu değer neticesinde bir H₀ hipotezinin reddedilip reddedilmeyeceğine karar verilir. Burada kullanılan varsayım iki grup için de örneklem sayılarının 30’dan büyük olmasıdır.
Bu bağlamda amaç, iki orandan oluşan grupların arasındaki farklılıkların var olup olmadığını ve bu farklılıkların şans eseri oluşup oluşmadığını istatistiki bir şekilde ifade edebilmektir.
Şimdi A/B testleri kapsamında gruplar arasında farklılık olup olmadığını ANOVA özelinde gözlemleyelim. Hipotezlerin kurulumu grupların ortalamaları özelinde olacaktır:
Grup ortalamalarını kıyaslarken hipotezler, ortalamalar birbirine eşittir veya değildir şeklinde kurulur. Bu kapsamda yine p-value incelenebilir. Birçok istatistik yazılımında p-value, ‘Sig.‘ veya ‘Significance’ olarak görülebilir. p-value, ‘anlamlılık değeridir.
ANOVA işleyiş akışını betimlersek, önceki tekniklere benzer şekilde:
Grup karşılaştırmaları, A/B testleri ve ölçümleme problemleri hakkında detaylı bilgi edinmek isterseniz Miuul'un Ölçümleme problemleri üzerine oluşturduğu eğitimleri inceleyebilirsiniz. Veri bilimini kariyer yolunuz haline getirmek istiyorsanız, Miuul’un Veri Bilimci Kariyer Yolculuğu tam olarak aradığınız eğitimi sizlere sunacaktır.
Kaynaklar