Denetimsiz Öğrenme ve Veri Kümeleme

K-Means, hiyerarşik kümeleme ve diğer denetimsiz algoritmaları keşfedin. Gerçek veri seti üzerinde pratik yaparak öğrenin.

10 dk Başlangıç Nisan 2026

Veri analiz ve görselleştirme çalışması gösteren masa düzeni

Denetimsiz Öğrenme Nedir?

Denetimsiz öğrenme, etiketlenmiş veriler olmadan yapılar ve örüntüleri keşfetmektir. Aksine denetimli öğrenmede, verileriniz "doğru cevapları" içerir — bu durumda yoktur. Sistem kendi başına benzer veri noktalarını gruplandırmaya çalışır.

En yaygın denetimsiz görev kümeleme — benzer öğeleri bir araya getirmek. İşletmeler bunu müşteri segmentasyonu için kullanır. Pazarlamacılar alışveriş davranışına göre kitleri tanımlamak için bunu yaparlar. Veri bilimciler verilerindeki gizli desenleri bulur.

Denetimli ve denetimsiz öğrenme karşılaştırması gösteren veri noktaları örneği

Popüler Kümeleme Algoritmaları

K-Means herhalde en ünlüsüdür. Basit ama etkili. Verileri K sayıda gruba bölersiniz — örneğin müşterileri 3 segmente ayırmak istiyorsanız K=3 olur. Algoritma merkez noktalar seçer ve her veri noktasını en yakın merkeze atar. Sonra merkezleri günceller. Tekrar eder. Yakınsayıncaya kadar devam eder.

Hiyerarşik kümeleme farklı çalışır. Bir ağaç yapısı oluşturur — dendogram denir. Başta her nokta kendi kümesi. Sonra benzerler birleştirilir. Kesme noktasını seçerek istediğiniz kadar küme elde edersiniz. Bazen K-Means'den daha iyi sonuç verir ama büyük veri setlerinde yavaş olabilir.

K-Means algoritmasının iteratif merkez güncelleme sürecini gösteren görsel

Python IDE'de scikit-learn kütüphanesi kullanılarak K-Means uygulanması

Python'da İlk Adımlar

scikit-learn kütüphanesi her şeyi kolaylaştırır. Veri yüklersiniz, KMeans nesnesi oluştursunuz, fit() metodunu çağırırsınız — bitti. 10 satır kod yeterli. Ama başlamadan önce verilerinizi normalleştirmeniz gerekir. Özellikler farklı ölçeklerde olabilir — bir yükseklik santimetre, diğer gelir milyon cinsinden. Normalleştirme bu sorunu çözer.

Küme sayısını seçmek önemli. Çok az → gruplama yetersiz. Çok çok → aşırı bölünme. Elbow methodu işe yarar. Farklı K değerleriyle eğitirsiniz ve inertia (merkeze uzaklık toplamı) grafiğini çizersiniz. Eğilim (elbow) görüldüğü noktayı seçersiniz. Genellikle bu iyi bir başlangıç noktasıdır.

Sonuçları Değerlendirmek

Denetimli öğrenmede doğru/yanlış var. Denetimsiz öğrenmede yok. Bunu nasıl kontrol edersiniz? Silhouette skoru kullanırsınız. -1 ile 1 arasında bir değer. 1'e yakın = iyi kümeleme (noktalar kendi kümesine yakın). -1'e yakın = kötü (yanlış kümede gibi görünüyor). 0'a yakın = belirsiz. 0,5+ genellikle kabul edilir.

Başka metrikler: Davies-Bouldin Index (küçük iyi), Calinski-Harabasz Index (büyük iyi). Ama en önemlisi iş anlayışıdır. Müşteri segmentasyonu yapıyorsanız, pazarlama ekibine sonuçları gösterin. Anlamlı mıdır? Pazarlanabilir mi? Bilgisayar metrikler güzel görünse bile iş mantığı yoksa işe yaramaz.

Silhouette plot ve diğer kümeleme kalite metriklerinin görselleştirilmesi

Pratik İpuçları ve Başlangıç Kaynakları

Verilerinizi Temizleyin

Eksik değerler, aykırı değerler ve yanlış yazımlar probleme neden olur. Veri hazırlama, kümelemede zaman'ın %70'ini alır. Hızlı geçmeyin.

Görselleştirerek Başlayın

Verinizi scatter plot'ta görün. Doğal gruplar görünüyor mu? Kaç tane? Bu Elbow metodunun başlangıcı. İki boyutlu olmayan veri için PCA kullanarak indirgeyebilirsiniz.

Farklı Yöntemler Deneyin

K-Means hızlı ve kolay. Ama DBSCAN, Gaussian Mixture Models veya hiyerarşik yöntemler bazen daha iyi sonuç verir. Zamanınız varsa karşılaştırın.

Türkçe Kaynaklar

Kaggle'da Türk veri bilimcileri tarafından paylaşılan notebook'lar vardır. YouTube'da Türkçe makine öğrenimi kanalları kümeleme üzerinde durur. Edtech platformlarında ücretsiz dersler bulabilirsiniz.

Emre Kurtaran

Makine Öğrenimi Eğitim Uzmanı ve İçerik Yöneticisi

İstanbul Teknik Üniversitesi mezunu, 15 yıl deneyimli ML uzmanı ve Türkçe edtech kaynakları geliştiricisi.

Sorumluluk Reddi

Bu yazı eğitim amaçlı bilgilendirme niteliğindedir. Denetimsiz öğrenme algoritmaları, farklı veri setleri ve senaryolarda farklı sonuçlar verebilir. Gerçek uygulamalarda sonuçlarınızı iş gereksinimleriniz ve uzman görüşü doğrultusunda değerlendirmelisiniz. Bu yazıda sunulan örnekler ve kodlar başlangıç için tasarlanmıştır ve üretim ortamında doğrudan kullanılmadan önce kapsamlı test edilmelidir.