Denetimli Öğrenmeye Başlangıç: Pratik Rehber
Denetimli öğrenmenin ne olduğunu, nasıl çalıştığını ve Python'da ilk modelinizi nasıl oluşturacağınızı öğrenin.
K-Means, hiyerarşik kümeleme ve diğer denetimsiz algoritmaları keşfedin. Gerçek veri seti üzerinde pratik yaparak öğrenin.
Denetimsiz öğrenme, etiketlenmiş veriler olmadan yapılar ve örüntüleri keşfetmektir. Aksine denetimli öğrenmede, verileriniz "doğru cevapları" içerir — bu durumda yoktur. Sistem kendi başına benzer veri noktalarını gruplandırmaya çalışır.
En yaygın denetimsiz görev kümeleme — benzer öğeleri bir araya getirmek. İşletmeler bunu müşteri segmentasyonu için kullanır. Pazarlamacılar alışveriş davranışına göre kitleri tanımlamak için bunu yaparlar. Veri bilimciler verilerindeki gizli desenleri bulur.
K-Means herhalde en ünlüsüdür. Basit ama etkili. Verileri K sayıda gruba bölersiniz — örneğin müşterileri 3 segmente ayırmak istiyorsanız K=3 olur. Algoritma merkez noktalar seçer ve her veri noktasını en yakın merkeze atar. Sonra merkezleri günceller. Tekrar eder. Yakınsayıncaya kadar devam eder.
Hiyerarşik kümeleme farklı çalışır. Bir ağaç yapısı oluşturur — dendogram denir. Başta her nokta kendi kümesi. Sonra benzerler birleştirilir. Kesme noktasını seçerek istediğiniz kadar küme elde edersiniz. Bazen K-Means'den daha iyi sonuç verir ama büyük veri setlerinde yavaş olabilir.
scikit-learn kütüphanesi her şeyi kolaylaştırır. Veri yüklersiniz, KMeans nesnesi oluştursunuz, fit() metodunu çağırırsınız — bitti. 10 satır kod yeterli. Ama başlamadan önce verilerinizi normalleştirmeniz gerekir. Özellikler farklı ölçeklerde olabilir — bir yükseklik santimetre, diğer gelir milyon cinsinden. Normalleştirme bu sorunu çözer.
Küme sayısını seçmek önemli. Çok az → gruplama yetersiz. Çok çok → aşırı bölünme. Elbow methodu işe yarar. Farklı K değerleriyle eğitirsiniz ve inertia (merkeze uzaklık toplamı) grafiğini çizersiniz. Eğilim (elbow) görüldüğü noktayı seçersiniz. Genellikle bu iyi bir başlangıç noktasıdır.
Denetimli öğrenmede doğru/yanlış var. Denetimsiz öğrenmede yok. Bunu nasıl kontrol edersiniz? Silhouette skoru kullanırsınız. -1 ile 1 arasında bir değer. 1'e yakın = iyi kümeleme (noktalar kendi kümesine yakın). -1'e yakın = kötü (yanlış kümede gibi görünüyor). 0'a yakın = belirsiz. 0,5+ genellikle kabul edilir.
Başka metrikler: Davies-Bouldin Index (küçük iyi), Calinski-Harabasz Index (büyük iyi). Ama en önemlisi iş anlayışıdır. Müşteri segmentasyonu yapıyorsanız, pazarlama ekibine sonuçları gösterin. Anlamlı mıdır? Pazarlanabilir mi? Bilgisayar metrikler güzel görünse bile iş mantığı yoksa işe yaramaz.
Eksik değerler, aykırı değerler ve yanlış yazımlar probleme neden olur. Veri hazırlama, kümelemede zaman'ın %70'ini alır. Hızlı geçmeyin.
Verinizi scatter plot'ta görün. Doğal gruplar görünüyor mu? Kaç tane? Bu Elbow metodunun başlangıcı. İki boyutlu olmayan veri için PCA kullanarak indirgeyebilirsiniz.
K-Means hızlı ve kolay. Ama DBSCAN, Gaussian Mixture Models veya hiyerarşik yöntemler bazen daha iyi sonuç verir. Zamanınız varsa karşılaştırın.
Kaggle'da Türk veri bilimcileri tarafından paylaşılan notebook'lar vardır. YouTube'da Türkçe makine öğrenimi kanalları kümeleme üzerinde durur. Edtech platformlarında ücretsiz dersler bulabilirsiniz.
Bu yazı eğitim amaçlı bilgilendirme niteliğindedir. Denetimsiz öğrenme algoritmaları, farklı veri setleri ve senaryolarda farklı sonuçlar verebilir. Gerçek uygulamalarda sonuçlarınızı iş gereksinimleriniz ve uzman görüşü doğrultusunda değerlendirmelisiniz. Bu yazıda sunulan örnekler ve kodlar başlangıç için tasarlanmıştır ve üretim ortamında doğrudan kullanılmadan önce kapsamlı test edilmelidir.