Denetimsiz öğrenme

Original article was published on Artificial Intelligence on Medium

K-ortalama kümeleme (k-means clustering): K-Ortalama Kümeleme [1], bir veri setini otomatik olarak k adet gruba ayırmak için yaygın olarak kullanılan bir yöntemdir. İlk olarak k adet küme merkezi seçilir ve sonrasında yinelemeli olarak şu şekilde yeniden düzenlenir [2]:

  1. Her bir örnek 𝑑𝑖 , en yakın küme merkezine atanır.
  2. Her küme merkezi 𝐶𝑗 , kendisini oluşturan örneklerinin ortalaması olarak güncellenir.

Algoritma, kümelere örnek atanmasında başka bir değişiklik olmadığında birleşir. En yakın küme merkezine atama işlemi için hesaplamada, Öklid mesafesi hesabı kullanılır [3].

K-Ortalama kümeleme algoritması avantaj ve dezavantajları

Birliktelik kuralları (association rules): Birliktelik kuralları, büyük veri kümeleri arasındaki ilişkileri bulmak için kullanılır. Bu teknik, 1993 yılında Agrawal, Imielinski ve Swami tarafından geliştirilmiştir [4]:

𝐼 = {𝑖1, 𝑖2, … , 𝑖𝑛} → n tane ürünün öznitelikler kümesi,

𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑚} → veri tabanı olarak adlandırılan işlemler kümesi,

D kümesi içerisindeki her işlem, eşsiz bir işlem ID numarasına sahiptir ve I kümesi içindeki öğelerin bir alt kümesini içerir. Kural olarak: 𝑋 => 𝑌, 𝑋, 𝑌 ⊆ 𝐼 şeklinde tanımlanmıştır. Birliktelik kuralı, aynı alışveriş sepetindeki iki nesne arasındaki ilişki olarak tanımlanabilir. Bir sepette, öncül kalem olarak bilinen bir nesnenin varlığı, ardıl (bağlı) kalem olarak bilinen diğer nesnenin olma ihtimalini arttırdığında, iki nesne arasında pozitif birliktelik kuralı vardır denir. Ayrıca bir sepette öncül nesnenin varlığı, ardıl nesnenin aynı sepette veya işlemde olmaması olasılığını arttırdığında ise n-öncül nesnenin ardıl nesne ile negatif birliktelik kuralından söz edilir. Birliktelik kuralları, simetrik değildir, dolayısıyla, X nesne ile Y nesne arasında belli bir birliktelik kuralının olması, ters yönde de yani Y’nin X ile bir birliktelik kuralı olmasını gerektirmez [5]. Birliktelik kuralları için kullanılan farklı algoritmalar bulunmaktadır ve Apriori algoritması, bu algoritmalar arasında en çok bilinenidir:

  • AIS
  • Apriori
  • CHARM
  • FP-Growth
  • Partition
  • RARM (Rapid Association Rule Mining)
  • SETM

Bir sonraki postta yarı denetimli öğrenme konusuna değineceğim…

KAYNAKLAR

[1] MacQueen, J. B. (1967). Proceedings of the Fifth Symposium on Math, Statistics, and Probability. Some methods for classification and analysis of multivariate observations, 281–297. Berkeley: CA: University of California Press.

[2] Wagstaf, K., Cardie, C., Rogers, S., and Schroedl, S. (2001). Proceedings of the Eighteenth International Conference on Machine Learning. Constrained K-means Clustering with Background Knowledge, 577–584. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.

[3] Dinçer, E. (2006). Veri Madenciliğinde K-Means Algoritması ve Tıp Alanında Uygulanması. Yüksek Lisans Tezi, Kocaeli Üniversitesi, Fen Bilimleri Enstitüsü, Kocaeli.

[4] Agrawal, R., Imieliński, T., and Swami, A. (1993). Mining association rules between sets of items in large databases, SIGMOD ’93 Proceedings of the 1993 ACM SIGMOD international conference on Management of data. Washington, D.C., USA: ACM New York, NY, USA. doi: 10.1145/170035.170072

[5] MALIK, Z. M., AL-SHEHABI, S., and Dökeroğlu, T. (2018). Gözetimsiz Makine Öğrenme Teknikleri ile Miktara Dayalı Negatif Birliktelik Kural Madenciliği. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 6, 1119–1138.