A’dan Z’ye Anomaly Detectio



Merhaba arkadaşlar, tekrar karşınızdayım. Bugün ki konumuz veri biliminde önemli bir konu olan Anomaly Detection konusunu A’dan Z’ye ele almak olucak.

Anomali Nedir?(What are anomalies?)

Anormallikler, iyi tanımlanmış normal davranışlara uymayan verilerdeki paternlerdir.

Şekil 1, basit bir 2 boyutlu veri kümesindeki anormallikleri göstermektedir.
Verilerde, iki gözlem bölgesi vardır: N1 ve N2, iki bölge. Bölgelerden yeterince uzakta olan noktalar, örn. O2 ve O3 bölgelerindeki noktalar anomalidir.
Verilerde, kötü amaçlı yazılım gibi çeşitli nedenlerden dolayı anormallikler oluşturulabilir,örneğin kredi kartı sahtekarlığı, siber saldırı,terörist faaliyet gibi.

Zorluklar(Challenges)

Mümkün olan her normal davranışı kapsayan normal bir bölgenin olması çok zor. Ek olarak, normal ve anormal davranış arasındaki sınır çoğu zaman kesin değildir. Böylece yakın bir yerde bulunan anormal bir gözlem normal gibi görünebilir.
Anomaliler kötü niyetli eylemlerin sonucu olduğunda, kötü niyetli rakipler genellikle anormal gözlemlerin normal gibi görünmesini sağlamak için kendilerini adapte eder.Böylece normal davranışı tanımlama görevini daha da zorlaştırır.

Anomali tespitinde çoğu veri setinde normal veriler ve anomali veriler çoğu zaman önceki örnekteki gibi kümelenmeler oluşturmazlar. Bir normal veri anomali verilerin bulunduğu kümelenmeye, bir anomali veri ise normal verilerin bulunduğu kümelenmeye yakın olabilir. Bu durumda da anomali tespiti bir hayli zorlaşır.
Normal diye nitelendirdiğimiz davranışlar veya veriler zaman içinde değişime uğrayabilir. Bu sebeple normal davranışları tanımlamak her zaman mümkün olmayabilir.
Belli bir anomali tespiti tekniğini her alana uygulamak mümkün olmayabilir. Örneğin, tıbbi alanda vücut sıcaklığındaki küçük bir dalgalanma anomali davranışa işaret ederken, stoklardaki küçük bir dalgalanma normal bir davranışı gösterebilir. Bu sebeple, bir anomali tespiti yönteminin tüm alanlara uygulanması mümkün olmaz.
Verisetlerindeki gürültülerin ( noise ) anomalilerin tespit edilmesi için ciddi bir çalışmayla temizlenmesi ( noise removal ) gereklidir. Ancak gürültülerin ayırt edilmesi oldukça zor bir süreçtir. Genellikle veriler gerçek anomalilere benzeyen bir gürültü içerir ve dolayısıyla ayırmak ve çıkarmak zordur.

Yukarıdaki zorluklardan dolayı, en genel olarak anomali tespit problemi
formunu çözmek kolay değildir.Aslında, mevcut anomali tespit tekniklerinin çoğu sorunun belirli bir formülasyonunu çözebilir.

Formülasyon, verilerin doğası, etiketlenmiş verilerin kullanılabilirliği, tespit edilecek anomalilerin türü, vb. bibi çeşitli faktörlerle uyarılır.

Şekil 2, herhangi bir anomali tespit tekniği ile ilişkili yukarıda bahsedilen anahtar bileşenleri göstermektedir.

Anomay Tespit Problemlerinin Farklı Bakış Açıları(DIFFERENT ASPECTS OF AN ANOMALY DETECTION PROBLEM)

Daha önce de belirtildiği gibi, sorunun spesifik bir formülasyonu, girdi verilerinin doğası, etiketlerin kullanılabilirliği (ya da kullanılamaması) ve uygulama alanı tarafından yaratılan kısıtlamalar ve gereksinimler gibi birkaç farklı faktör tarafından belirlenir. Bu bölüm problem alanındaki zenginliği ortaya çıkarır ve geniş spektrumlu anomali tespit tekniklerine olan ihtiyacı ortaya koyar.

2.1 Verilerin Doğası (Nature of Input Data)

Herhangi bir anomali tespit tekniğinin önemli bir yönü, giriş verilerinin doğasıdır.Veri çeşitlerinde nesne, kayıt,vektör,olay,durum, örnek, gözlem, varlık gibi veriler bulunur.
Her bir veri örneği bir dizi özellik kullanılarak tanımlanabilir Örnek vermek gerekirse, bir kişinin boyu ve yaşı gibi.

Öznitelikler binary, kategorik veya continuous gibi farklı türlerde olabilir.Her veri örneği yalnızca bir öznitelik (tek değişkenli) veya çoklu özniteliklerden (çok değişkenli) oluşabilir.Çok değişkenli veri örnekleri durumunda, tüm özellikler aynı türde olabilir veya farklı veri tiplerinin bir karışımı olabilir.
Girdi verileri ayrıca veri örnekleri arasındaki ilişkiye dayalı olarak da kategorize edilebilir. Mevcut anormallik algılama tekniklerinin çoğu, veri örnekleri arasında hiçbir ilişki olmadığı varsayılan kayıt verileriyle ilgilenmektedir.

2.2 Anomaly Türleri(Type of Anomaly)

Point Anomalies
Bireysel bir veri örneği eğer diğer normal verilerden uzaktaysa bu bir anomali veridir. Burada bu anomali tespitine point Anomali denmesinin sebebi anomali tespitinin belli bir niteliğe (attribute) bağlı olmasıdır. Örnek vermek gerekirse, kredi kartımızdan harcadığımız miktar ( amount spent ) anomali tespitinde kullanılabilir.

Örneğin, Şekil 1’de O1 ve O2 noktaları ile O3 bölgesindeki noktalar
Normal bölgelerin sınırları dışında ve dolayısıyla nokta anomalileri
Normal veri noktalarından farklıdırlar.

Contextual Anomalies

Eğer bir veri örneği belirli bir metin içinde anormal ise, o zaman bağlamsal bir anormallik olarak adlandırılır aynı zamanda koşullu anomali olarak da adlandırılır. Bir bağlam kavramı veri kümesindeki yapı tarafından indüklenir ve problem formülasyonunun bir parçası olarak belirtilmelidir. Her veri örneği aşağıdaki iki özellik kümesi kullanılarak tanımlanır:

Bağlamsal Nitelikler(Contextual attributes)

Bağlamsal nitelikler, bu örnek için contexti belirlemek için kullanılır. Örneğin, uzaysal veri kümelerinde, bir konumun boylamı ve enlemi bağlamsal niteliklerdir. Zaman serileri verisinde, zaman, bir sıranın tüm sıradaki konumunu belirleyen bağlamsal bir özelliktir.

Davranışsal Özellikler(Behavioral attributes)

Davranışsal nitelikler, bir örneğin bağlamsal olmayan karakteristiklerini tanımlar. Örneğin, tüm dünyadaki ortalama yağışları tanımlayan bir mekansal veri setinde, herhangi bir yerdeki yağış miktarı davranışsal bir özelliktir.

Sıcaklık zaman serilerinde bağlamsal anormallik t2 t1 zamanındaki sıcaklığın t2 zamanındakiyle aynı olduğuna, ancak farklı bir bağlamda gerçekleştiğine ve dolayısıyla bir anormallik olarak kabul edilmediğine dikkat edin.

Kış mevsiminde 35 F’lik bir sıcaklık o bölgede kış mevsiminde normal olabilir (t1 zamanında), ancak yaz mevsiminde aynı zamanda (t2 zamanında) bir anormallik olur.

Benzer bir örnek, kredi kartı sahtekarlığı saptama alanında bulunabilir. Kredi kartı etki alanındaki bir bağlamsal özellik satın alma zamanı olabilir. Bir bireyin genellikle Noel haftası boyunca 1000 $ ‘a ulaştığında haftalık 100 dolarlık bir alışveriş faturasına sahip olduğunu varsayalım. Temmuz ayında haftada 1000 dolarlık yeni bir satın alma, normal davranışa uygun olmadığından, bağlamsal bir anormallik olarak değerlendirilecektir.
Bireyin zaman bağlamında (Noel haftasında harcanan aynı miktar normal olarak kabul edilse bile).

Toplu Anomaly(Collective Anomaly)

Birbiriyle ilişkili olan veriler tüm verisetinde anomali davranış oluşturuyorsa bu bir collective anomaliye örnektir. Burada ilişkili olan bazı veriler bir araya geldiğinde anomali oluşturabilirken, bu veriler bireysel olarak verisetinde anomali davranış göstermiyor olabilir. Bu anomali tipine, bilgisayarda oluşan bazı aksiyonların beraber oluştuğunda anomali durum gösterdiğini örnek gösterebiliriz.
Aşağıda bir bilgisayarda oluşan aksiyon dizisini görüyoruz.

http-web, buffer-overflow, http-web, http-web, smtp-mail, ftp, http-web, ssh, smtp-mail, http-web,ssh, buffer-overflow, ftp,http-web, ftp, smtp-mail,http-web…
Burada ssh ,buffer-overflow ve ftp aksiyonları tek başına oluştuğunda bir anomali davranış değilken , ard arda veya beraber oluştuklarında Web Tabanlı bir saldırıya işaret edebilir. Yani , bu durum bir anomali davranışı gösterebilir.

Şekil 4, bir insan elektrokardiyogramı çıkışını gösteren bir örneği göstermektedir. Vurgulanan bölge anormalliği gösterir, çünkü aynı düşük değer anormal şekilde uzun bir süre için mevcuttur. Düşük değerin kendi başına bir anormallik olmadığını unutmayın.

2.3 Veri Etiketleri(Data Labels)

Bir veri örneğiyle ilişkilendirilen etiketler normal veya anormal olarak nitelendirilir.
Etiketleme genellikle bir insan uzmanı tarafından manuel olarak yapılır ve bu nedenle etiketli eğitim veri setini elde etmek için büyük çaba gerektirir.
Etiketlerin bulunma derecesine bağlı olarak, anormal tespit teknikleri aşağıdaki üç moddan birinde çalışabilir:

Supervised anomaly detection

Gözetimli modda eğitilen teknikler, normal ve anormallik sınıflarına örnek olarak etiketlenmiş bir eğitim veri setinin kullanılabilirliğini sağlar.Bu gibi durumlarda tipik yaklaşım, normal ve anormal sınıflar için bir öngörü modeli oluşturmaktır.

Semi-Supervised anomaly detection

Yarı-denetimli bir modda çalışan teknikler, eğitim verilerinin sadece normal sınıfa ait örnekleri işaretlediğini varsayar. Anomali sınıfı için etiket gerektirmedikleri için, denetlenen tekniklerden daha yaygındırlar.

Unsupervised anomaly detection

Denetimsiz modda çalışan teknikler, eğitim verisi gerektirmez ve bu nedenle en yaygın şekilde uygulanabilir. Bu kategorideki teknikler, normal örneklerin, test verilerindeki anormalliklerden çok daha sık olduğu konusunda örtük varsayım yapmaktadır.

2.4 Anomali Tespiti Çıktısı (Output of Anomaly Detection)
Tüm bu uygulamalar arasında, verilerin “normal” bir modeli vardır ve anomaliler bu normal modelden sapmalar olarak kabul edilir. Anomalilerin çıktısı iki tipe ayrılabilir

SCORE
Örnek verideki tüm dataların anormal skorunu, anormal olarak kabul edilen dereceye bağlı olarak belirler.
Bu kategorideki teknikler bir etiket atar (normal veya anormal) Böylece, bu tekniklerin çıktısı sıralı bir anomaliler listesidir. Bir analist, ilk birkaç anomaliyi analiz etmeyi seçebilir veya anomalileri seçmek için bir kesme eşiği kullanabilir.

Labels
Bu kategorideki teknikler her test örneğine bir etiket (normal veya anormal) atar.

Puanlama tabanlı anomali tespit teknikleri, analistin en alakalı anomalileri seçmek için alana özgü bir eşik kullanmasına izin verir. Test örneklerine ikili etiketler sağlayan teknikler, analistlerin böyle bir seçim yapmasına doğrudan izin vermez, ancak bu, her teknik içindeki parametre seçimleriyle dolaylı olarak kontrol edilebilir.

3. ANOMALY DETECTİON UYGULAMALARI(APPLICATIONS OF ANOMALY DETECTION)

Her uygulama alanı için aşağıdaki dört hususu vardır:

– Anomali kavramı.
– Verinin doğası
– Anormalliklerin saptanması ile ilişkili zorluklar.
– Mevcut anomali tespit teknikleri.

3.1 İzinsiz Giriş Tespiti (Intrusion Detection)

İzinsiz giriş tespiti, bilgisayarla ilgili bir sistemde kötü niyetli etkinliklerin tespit edilmesi anlamına gelir. Bu zararlı faaliyetler veya izinsiz girişler bilgisayar güvenliği açısından ilgi çekicidir. Bir saldırı, sistemin normal davranışından farklıdır ve dolayısıyla anormal tespit teknikleri, saldırı tespit alanında uygulanabilir.

3.1.1 Host Tabanlı Saldırı Tespit Sistemleri(Host Based Intrusion Detection Systems)

Bir ana bilgisayar tabanlı saldırı tespit sistemi (HIDS), bir saldırıyı tespit etmek ve / veya yanlış kullanmak için kurulduğu bir bilgisayar sistemini izleyen ve aktiviteyi kaydederek ve belirlenen yetkiyi bildirerek yanıt veren bir sistemdir. Bir HIDS, ister içeride ister dışarıda olsun, herhangi birinin veya herhangi birinin, sistemin güvenlik politikasını ihlal edip etmediğini izleyen ve analiz eden bir aracı olarak düşünülebilir.

3.1.2 Ağ İzinsiz Giriş Algılama Sistemleri(Network Intrusion Detection Systems)

Bu sistemler ağ verilerindeki izinsiz girişleri tespit etmeye çalışır. İzinsiz girişler tipik olarak anormal paternler (nokta anomalileri) olarak ortaya çıkar, ancak belirli teknikler verileri sıralı olarak modellemekte ve anormal alt dizileri (kollektif anomaliler) tespit etmektedir. Bu anormalliklerin başlıca nedeni, bilgi hırsızlığı için ağa yetkisiz erişim sağlamak veya ağı bozmak isteyen dış hackerlar tarafından başlatılan saldırılardan kaynaklanmaktadır. Tipik bir ayar, dünyanın geri kalanına İnternet üzerinden bağlanan geniş bir bilgisayar ağıdır.

3.2 Fraud Detection

Dolandırıcılık tespiti bankalar, kredi kartı şirketleri, sigorta acenteleri, cep telefonu şirketleri, borsalar, vb. Gibi ticari kuruluşlarda meydana gelen suçlu faaliyetlerin tespiti anlamına gelir. Kötü niyetli kullanıcılar kuruluşun gerçek müşterileri olabilir veya müşteri olarak davranabilirler (kimlik hırsızlığı olarak da bilinir). Dolandırıcılık, bu kullanıcılar organizasyon tarafından sağlanan kaynakları yetkisiz bir şekilde kullandığında ortaya çıkar. Organizasyon,ekonomik kayıpları önlemek için bu tür dolandırıcılıkların derhal tespit edilmesi ile ilgilenmektedir.

Anomali tespit tekniklerinin tipik yaklaşımı, her müşteri için bir kullanım profili sağlamak ve herhangi bir sapmayı algılamak için profilleri izlemek. Bazı dolandırıcılık uygulamaları
Algılama aşağıda tartışılmıştır.

3.2.1 Credit Card Fraud Detection

Bu alanda, sahte kredi kartı uygulamalarını veya sahte kredi kartı kullanımını (kredi kartı hırsızlığıyla ilişkili) tespit etmek için anormal tespit teknikleri uygulanır.

3.2.2 Mobile Phone Fraud Detection

Mobil / hücresel dolandırıcılık tespiti tipik bir activity monitoring problemidir. 

3.2.3 Sigorta Talebi Dolandırıcılık Tespiti(Insurance Claim Fraud Detection)

Mülkiyet sigortası endüstrisinde önemli bir sorun, dolandırıcılık, örn. otomobil sigortası dolandırıcılığı.

3.2.4 İçeriden Bilgi Ticareti Tespiti(Insider Trading Detection)

Anomali tespit tekniklerinin yeni bir başka uygulaması, Insider Trading’in erken tespitinde çeriden bilgi ticareti, borsalarda bulunan ve harekete geçerek yasadışı kârlar oluşturan bir olgudur.
Bilgilerin kamuya duyurulmasından önce içeriden bilgi sızdırmaktır.

3.3 Tıbbi ve Kamu Sağlığı Anomalisi Tespiti(Medical and Public Health Anomaly Detection)

Tıbbi ve halk sağlığı alanlarındaki anomali tespiti tipik olarak hasta kayıtları ile çalışır. Veriler çeşitli nedenlerden dolayı anomalilere sahip olabilir hasta durumu,enstrümantasyon hataları veya kayıt hataları.Anomali tespiti bu alanda çok kritik bir problemdir ve yüksek derecede doğruluk gerektirir.
Veriler tipik olarak birkaç farklı kayıt türünden oluşuyor. Hasta yaşı, kan grubu, kilo gibi.

3.4 Endüstriyel Hasar Tespiti(Industrial Damage Detection)

Endüstriyel üniteler sürekli kullanım ve normal aşınma ve yıpranma nedeniyle zarar görmektedir.Kayıpların önlenmesi için bu tür zararların erken tespit edilmesi gerekmektedir.

Bu alandaki hasarları tespit etmek için anomali tespit teknikleri yaygın olarak uygulanmıştır.

Endüstriyel hasar tespiti, ikiye ayrılır:

Mekanik Bileşenlerde Kusurlarla

Bu alandaki anormallik tespit teknikleri, motorlar, türbinler, boru hatlarındaki veya diğer mekanik komponentlerdeki yağ akışının performansını ve kusurları tespit eder.Aşınma ve yıpranma gibi durumlar nedeniyle ortaya çıkabilir..

Fiziksel Yapılardaki Kusurlarla

Yapısal kusur ve hasar tespit teknikleri yapılarda yapısal anormallikleri, örneğin kirişlerdeki çatlakları, hava çerçevelerindeki gerilmeleri tespit eder.

3.5 Görüntü İşleme(Image Processing)

Görüntülerle ilgili anomali algılama teknikleri, zaman içindeki bir görüntüdeki herhangi bir değişiklikle (hareket algılama) veya statik görüntüde anormal görünen bölgelerle ilgilenir.

Anormallikler , yabancı cisim veya enstrümantasyon hatalarının hareketinden veya ilave edilmesinden kaynaklanır.

3.6 Text Verilerinde Anomaly Tespiti(Anomaly Detection in Text Data)

Bu alandaki anormallik tespit teknikleri öncelikle belgeler , haber makaleleri gibi metin içindeki anomalileri tespit eder.
Bu alandaki veriler tipik olarak yüksek boyutlu ve çok seyrek(aralıklı). Veriler ayrıca zaman içinde belgeler toplandığından zamansal bir yönü vardır.

3.7 Sensor Networks

Sensör ağları son zamanlarda önemli bir araştırma konusu haline gelmiştir.
Tek bir sensör ağı, ikili, ayrık, sürekli, ses, video vb. Gibi farklı veri türlerini toplayan sensörlerden oluşabilir.Bir sensör ağından toplanan verilerdeki anormallikler, bir veya daha fazla sensörün arızalı olduğu veya analistler için ilginç olan olayları (izinsiz girişler gibi) algıladığı anlamına gelebilir.
Sensör ağlarındaki anormallik tespiti, sensör arıza tespiti veya saldırı tespitini yakalayabilir.

4. SINIFLANDIRMA TABANLI ANOMALY TESPİTİ TEKNİKLERİ (CLASSIFICATION BASED ANOMALY DETECTION TECHNIQUES)

Sınıflandırma, bir dizi etiketli veri örneğinden (eğitim) bir model öğrenmek ve daha sonra öğrenilmiş modeli (test) kullanarak bir test örneğini sınıflardan birine dahil etmek için kullanılır.
Sınıflandırma tabanlı anomali tespit teknikleri benzer iki fazlı bir şekilde çalışır. Eğitim aşaması, mevcut etiketli eğitim verilerini kullanarak bir sınıflandırıcıyı öğrenir. Test aşaması Bir test örneğini sınıflandırıcıyı kullanarak normal veya anormal olarak sınıflandırır.

4.1 Sinir Ağları Tabanlı (Neural Networks Based)

Sinir ağları, tek-sınıflı ortamının yanı sıra, çok-sınıflı bir anormallik saptamasına da uygulanır. Nöral ağları kullanan basit bir çok-sınıflı anomali tespit tekniği, iki aşamada çalışır. İlk olarak, normal eğitim verilerinin farklı normal sınıflarını öğrenmek için bir sinir ağı eğitilir. İkincisi, her test örneği, sinir ağına bir girdi olarak sağlanır. Test girişi kabul edilirse normaldir ve eğer ağ bir test girişini reddederse, bu bir anomalidir
 
Multi Layered Perceptrons
Neural Trees
Auto-associative Networks
Adaptive Resonance Theory Based
Radial Basis Function Based
Hopfield Networks
Oscillatory Networks

4.2 Bayes Ağları Tabanlı(Bayesian Networks Based)

Bayes ağları çok sınıflı ortamda anormallik tespiti için kullanılmıştır. 
Bir sınıfa verilen test örneğinin kullanımından önce eğitim veri kümesinden tahmin edilir.

4.3 Destek Vektör Makineleri Tabanlı (Support Vector Machines Based)

Tek Sınıflı ortamlarda Anormallik Algılamak için Destek Vektör Makineleri (SVM) uygulanmıştır.

Bu teknikler, SVM için tek sınıflı öğrenme teknikleri kullanılmaktadır. [Ratsch ve diğ. 2002] ve eğitim veri örneklerini içeren bir bölgeyi öğrenir.Radyal temel fonksiyonu (RBF) çekirdeği gibi çekirdekler, karmaşık bölgeleri öğrenmek için kullanılabilir.

4.4 Kural Tabanlı(Rule Based)

Kural tabanlı anomali algılama teknikleri, bir sistemin normal davranışını yakalayan kuralları öğrenir. Bu kuralın kapsamına girmeyen bir test örneği dikkate alınır.Kural tabanlı teknikler, tek sınıf ayarlarının yanı sıra çok sınıfında da uygulanabilir.

Computational Complexity

Sınıflandırma temelli tekniklerin hesaplama karmaşıklığı, kullanılan sınıflandırma algoritmasına bağlıdır.
Genel olarak, karar verme ağaçları daha hızlı olma eğilimi gösterirken, SVM’ler gibi ikinci dereceden optimizasyon içeren teknikler daha pahalıdır, ancak lineer eğitim süresi olarak doğrusal zaman SVM’leri önerilmiştir.

Sınıflandırma Tekniklerinin Avantajları ve Dezavantajları (Advantages and Disadvantages of Classification Based Techniques)

Sınıflandırma temelli teknikler, özellikle çok sınıflı teknikler, farklı sınıflara ait örnekleri ayırt edebilen güçlü algoritmalardan faydalanabilir.
Sınıflandırma tabanlı tekniklerin test aşaması, her test örneğinin, önceden hesaplanmış modele göre karşılaştırılması gerektiğinden, hızlıdır.

DEZAVANTAJLARI

Sınıflandırma temelli teknikler, her bir test örneğine bir etiket atar, bu da test örnekleri için anlamlı bir anomali puanı istendiğinde dezavantaja dönüşebilir.

5.EN YAKIN KOMŞU TABANLI ANOMALY TESPİT TEKNİKLERİ (NEAREST NEIGHBOR BASED ANOMALY DETECTION TECHNIQUES)

Varsayım: Normal veri örnekleri yoğun komşulu yerlede meydana gelirken, anomaliler en yakın komşularından uzaktır.
 
En yakın komşu tabanlı anomali tespit teknikleri, iki veri örneği arasında tanımlanan bir mesafe veya benzerlik ölçüsü gerektirir.İki veri örneği arasındaki mesafe (veya benzerlik) farklı şekillerde hesaplanabilir.Öklid, manhattan ve minkowski uzaklış ölçümünde kullanılabilir.Çok değişkenli veri örnekleri için, her bir özellik için uzaklık veya benzerlik genellikle hesaplanır ve daha sonra birleştirilir

Anomali Tespit Teknikleri 2 kategoride incelenebilir ;

Anormali skoru olarak en yakın komşusuna veri örneğinin mesafesini kullanan teknikler.
Anormal skoru hesaplamak için her bir veri örneğinin göreceli yoğunluğunu hesaplayan teknikler.

5.1 En Yakın Komşuya Uzaklık Kullanma( Using Distance to kth Nearest Neighbor)

Bir veri örneğinin anormallik puanı, belirli bir veri kümesinde k en yakın komşusuna olan uzaklığı olarak tanımlanmaktadır.

5.2 Bağıl Yoğunluğu Kullanma (Using Relative Density)

Yoğunluğa bağlı anomali tespit teknikleri, her bir veri örneğinin bulunduğu noktanın yoğunluğunu tahmin eder. Düşük yoğunluklu bir yerde olan verinin anormal olduğu bildirilirken, yoğun bir yerde bulunan bir örnek normal olarak beyan edilir.

En Yakın Komşu Tabanlı Tekniklerin Avantajı ve Dezavantajı (Advantages and Disadvantages of Nearest Neighbor Based Techniques)

Gürültülü eğitim verilerine karşı dirençli olması,
Eğitiminin olmaması,

K-NN Disadvantages

Yüksek miktarda bellek alanına gereksinim duyması,
Analitik olarak izlenebilir
Veri seti ve öznitelik boyutu arttıkça işlem yükünün ve maliyetin önemli ölçüde yükselmesi,
Performansın k komşu sayısı, uzaklık ölçütü ve öznitelik sayısı gibi parametre ve özelliklere bağlı olarak etkilenmesi

6. KÜMELEME TABANLI ANOMALY TESPİT TEKNİKLERİ (CLUSTERING BASED ANOMALY DETECTION TECHNIQUES)

Kümeleme, benzer veri örneklerini kümeler halinde gruplandırmak için kullanılır.Kümelenme öncelikle denetimsiz bir tekniktir, ancak son zamanlarda yarı denetimli kümelenme de araştırılmıştır.Kümeleme ve anomali tespitinin, birbirinden temel olarak farklı görünse de, çeşitli kümelenme tabanlı anomali tespit teknikleri geliştirilmiştir.

Kümeleme temelli anomali tespit teknikleri üç grupta toplanabilir. Normal veri örnekleri, verilerdeki bir kümeye aittir. Ya herhangi bir kümeye ait değildir.Normal veri örnekleri en yakın küme merkezlerine yakındır ama anomaliler en yakın kümelenme merkezlerinden uzaktadır.Normal veri örnekleri büyük ve yoğun kümelere ait iken,anomaliler ya küçük ya da seyrek kümelere aittir.

6.1 Kümelenme Tabanlı ve En Yakın Komşu Tabanlı Teknikler Arasındaki Fark (Distinction between Clustering Based and Nearest Neighbor Based Techniques)

Birkaç kümeleme tabanlı teknik, bir çift örnek arasında mesafe hesaplama gerektirir. Böylece, bu açıdan, en yakın komşu tabanlı tekniklere benzerler.

Bununla birlikte, iki teknik arasındaki temel fark, kümeleme temelli tekniklerin, her bir örneği ait olduğu kümeye göre değerlendirirken, en yakın komşu tabanlı teknikler, her bir örneği yerel komşuluk değerinegöre analiz etmektedir.

Kümeleme Tabanlı Tekniklerin Avantajı ve Dezavantajı (Advantages and Disadvantages of Clustering Based Techniques)

Kümeleme tabanlı teknikler denetimsiz bir modda çalışabilir.

Kümeleme tabanlı teknikler için test aşaması hızlıdır, çünkü her test örneğinin karşılaştırılması gereken kümelerin sayısı küçük bir sabittir.

Disadvantages
Kümeleme tekniklerin performansı, normal örnemahaklerin, küme yapısını yakalamada kümelenme algoritmasının etkinliğine büyük ölçüde bağlıdır.

Birçok teknik , anomalileri kümelenmenin bir yan ürünü olarak algılar ve dolayısıyla anomali detection için optimize edilmez.

Birkaç kümeleme tabanlı teknik, yalnızca anomaliler olduğunda etkilidir.

Verilerin kümelenmesi için hesaplama karmaşıklığı genellikle bir darboğazdır ,özellikle O (N2d) kümeleme algoritmaları kullanılırsa.

7.İSTATİKSEL ANOMALY TESPİT TEKNİKLERİ (STATISTICAL ANOMALY DETECTION TECHNIQUES)
Herhangi bir istatistiksel anomali saptama tekniğinin temel ilkesi şudur: “Bir anomali, kısmen veya tamamen yanlış olduğundan şüphelenilen bir gözlemdir çünkü varsayılan stokastik model tarafından üretilmemiştir.
Varsayım: Bir stokastik modelin yüksek olasılıklı bölgelerinde normal veri örnekleri meydana gelirken, stokastik modelin düşük olasılıklı bölgelerinde anomaliler ortaya çıkmaktadır.

İstatistiksel teknikler, verilen verilere istatistiksel bir model (genellikle normal davranış için) uyguluyor ve daha sonra, görünmeyen bir örneğin bu modele ait olup olmadığını belirlemek için istatistiksel bir çıkarım testi uygulanır.

7.1 Parametrik Teknikler(Parametric Techniques)

7.1.1 Gauss Modeli Tabanlı (Gaussian Model Based)

Bu teknikler, verilerin bir Gauss dağılımından generate edildiğini varsayar. Parametreler, Maximum Likelihood Estimates (MLE) kullanılarak tahmin edilir. Bir veri örneğinin tahmini ortalamaya olan uzaklığı, bu örnek için anormallik puanıdır.

Anomalileri belirlemek için anormal skorlara bir eşik uygulanır. Bu kategorideki farklı teknikler, ortalama ve eşiğe olan mesafeyi farklı yollarla hesaplar.

7.1.2 Regresyon Model Tabanlı (Regression Model Based)
 
Temel regresyon modeli tabanlı anomali tespit tekniği iki adımdan oluşmaktadır. İlk adımda, verilere bir regresyon modeli uygulanır. 
İkinci adımda, her test örneği için,anomali skorunu belirlenir.

7.1.3 Parametrik Dağılımların Tabanlı Karışımı (Mixture of Parametric Distributions Based)

Bu teknikler, verileri modellemek için parametrik istatistiksel dağılımların bir karışımını kullanır. Bu kategorideki teknikler iki alt kategoride toplanabilir. Tekniklerin ilk alt kategorisi, normal parametreler ve anomalileri ayrı parametrik dağılımlar olarak modellerken, ikinci alt kategori teknikleri ise sadece normal örneklerin bir parametrik dağılımın karışımı olduğunu modellemektedir.

7.2 Parametrik Olmayan Teknikler(Non-parametric Techniques)

Bu kategorideki anormallik tespit teknikleri, parametrik olmayan Istatistik modelleri kullanmaktadır, öyle ki model yapısı bir ön tanım olarak tanımlanmamakta, bunun yerine verilere göre belirlenmektedir.

7.2.1 Histogram Tabanlı (Histogram Based)

En basit parametrik olmayan istatistiksel teknik, normal verilerin profilini korumak için histogramları kullanmaktır. Bu tekniklere ayrıca frekans bazlı veya sayma temelli olarakta bilinir.Histogram tabanlı teknikler saldırı tespit topluluğunda özellikle popülerdir.
Tek değişkenli veriler için temel histogram bazlı anomali tespit tekniği iki adımdan oluşur. İlk adım, eğitim verisinde o özellik tarafından alınan farklı değerlere dayanan bir histogram oluşturmayı içerir. İkinci adımda, teknik, bir test örneğinin histogramın kutularının herhangi birine girip girmediğini kontrol eder. Bunu yaparsa, test örneği normaldir, aksi halde anormaldir. Temel histogram tabanlı tekniğin bir varyantı, düştüğü kutunun yüksekliğine (frekansına) bağlı olarak her test örneğine bir anomali puanı tayin etmektir.

7.2.2 Çekirdek Fonksiyonu Tabanlı (Kernel Function Based)

Kernel işlevlerine dayanan anomali algılama teknikleri, daha önce açıklanan parametrik yöntemlere benzer sadece farklılık, kullanılan yoğunluk tahmini tekniğidir. 

Istatiksel Tekniklerin Avantajları ve Dezavantajları (Advantages and Disadvantages of Statistical Techniques)

Veri dağılımının altında yatan varsayımlar doğruysa,istatistiksel teknikler anomaly tespiti için bir çözüm sunar.

İstatistiksel teknikle sağlanan anomaly score güven aralığı ile ilişkilidir.Herhangi bir test örneği ile ilgili karar verirken ek bilgi olarak kullanılabilir.

Dağıtık tahmin adımı, verilerdeki anormalliklere karşı dayanıklı ise, istatistiksel teknikler, etiketli eğitim verilerine gerek kalmaksızın, denetimsiz bir ortamda çalışabilir.

Disadvantages

İstatistiksel tekniklerin önemli bir dezavantajı, verilerin belirli bir dağıtımdan üretildiği varsayımına dayanmalarıdır. Bu varsayım, özellikle yüksek boyutlu gerçek veri kümeleri için genellikle doğru değildir.(sadece bir noktadan gelen veriler)

Yüksek boyutlu veri kümelerine için gerekli olan karmaşık dağılımlar için hipotez testleri yapmak çok anlamlı değildir.

 
8. BİLGİ KURAMSAL ANOMAL ALGILAMA TEKNİKLERİ(INFORMATION THEORETIC ANOMALY DETECTION TECHNIQUES)

InfOrmation Theoretic teknikleri, Kolomogorov Karmaşıklığı, entropi, nispi entropi, vb. gibi farklı Information Theoretic ölçümlerini kullanarak bir veri setinin bilgi içeriğini analiz eder. Bu teknikler aşağıdaki temel varsayımlara dayanır:

Varsayım: Verilerdeki anormallikler , veri kümesinde usulsüzlüklere neden olur.

Bilgi Kuramsal Tekniklerinin Avantajı ve Dezavantajı (Advantages and Disadvantages of Information Theoretic Techniques)

Denetimsiz bir ortamda çalışabilirler.

Verilerin istatistiksel dağılımı hakkında herhangi bir varsayımda bulunmazlar.

Disadvantages

Anormalliklerin varlığını, yalnızca verilerde çok fazla sayıda anormallik mevcut olduğunda tespit edebilir.

Bilgi teorik tekniği kullanılarak,test örneği ile anomali puanını ilişkilendirmek zordur

9. SPEKTRAL ANOMAL ALGILAMA TEKNİKLERİ(SPECTRAL ANOMALY DETECTION TECHNIQUES)

Izgesel anomali tespitinin altındaki varsayım normal noktaların ve anomalilerin veri daha kucuk boyutlu bir uzaya tasındıgında oldukca farklı gorunecegidir. Amac¸ da bu daha kucuk boyutlu uzayı bulup anomalilerin tespitini orada kolayca yapmaktır.
Cogu izgesel anomali tespit teknigi veriyi daha kucuk boyutlu uzaya tasımak icin temel bilesen analizi (PCA) kullanır.Temel bilesen analizindeki en buyuk¨ ozdegerlere karsılık gelen bir kac temel bilesen normal verideki degiskenligi tutar.
Anomali tespit etme tekniklerinden bir tanesi bu varyasyonu dusuk temel bilesenlere her bir veri noktasının izdusumune bakar. Normal noktaların izdusumu kucuktur, anomaliler icin bu izdusumu buyuktur.

Spectral Tekniklerin Avantajı ve Dezavantajı (Advantages and Disadvantages of Spectral Techniques)

Spektral teknikler, boyutsal indirgemeyi otomatik olarak gerçekleştirir ve bu nedenle yüksek boyutlu veri kümelerini işlemek için uygundur.
Dahası, bunlar ayrıca bir ön-işlem basamağı olarak ve ardından dönüştürülmüş uzayda mevcut herhangi bir anormal saptama dünyatekniğinin uygulanmasıyla da kullanılabilirler.

Spektral teknikler denetimsiz bir ortamda kullanılabilir.

Disadvantages

Spektral teknikler, veriler daha küçük boyutlara indirgenebilirse yararlıdır.

Spektral teknikler tipik olarak yüksek hesaplama karmaşıklığına sahiptir.

10. BAĞLAMSAL ANOMALY KULLANIMI (HANDLING CONTEXTUAL ANOMALIES)

Önceki bölümlerde ele alınan anomali tespit teknikleri öncelikle nokta anomalilerinin tespit edilmesine odaklanmaktadır. Bu bölümde bağlamsal anomalileri ele alan anomali tespit tekniklerini tartışacağız.

Bağlamsal anomaliler, veri kümesinin bağlamsal nitelikler ve davranış özelliklerinin bir birleşimine sahip olduğu uygulamalarda dikkate alınır.

Nokta anomali tespit teknikleri ile ilgili zengin literatüre kıyasla, bağlamsal anomali tespitine yönelik araştırma sınırlı kalmıştır. Genel olarak, bu tür teknikler iki kategoride sınıflandırılabilir. Birinci teknik kategorisi, bir bağlamsal anormallik saptama problemini bir nokta anormallik tespit problemine indirgerken, ikinci teknik kategorisi verideki yapıyı modellemekte ve anomalileri tespit etmek için modeli kullanmaktadır.

Anomaly detection bu kadar arkadaşlar sanırım hemen hemen her konuya değindik önemli bir yardımcı kaynak olacağından eminim.SEVGİLERİMLE…

Source: Deep Learning on Medium