Deep Learning

Source: Deep Learning on Medium

Deep Learning Nedir?

Deep Learning, veya Türkçe adı ile “Derin öğrenme”, makine öğrenmede kullanılan, çoklu doğrusal olmayan dönüşümlerden oluşan model mimarileri kullanarak verilerdeki üst düzey soyutlamaları modellemek için kullanılan bir algoritmalar topluluğudur. Makine öğrenmesi için kullanılan ve verilerin öğrenme temsillerine dayanan geniş bir yöntem ailesinin bir parçasıdır.

Derin öğrenme, karar alma düğümleri olarak kabul edilen sinir ağları oluşturmak ve eğitmek için kullanılan özel bir yaklaşımdır. Girdi verilerinin bir dizi doğrusal olmayan veya doğrusal olmayan dönüşümden geçilmesi durumunda bir algoritmanın derin olduğu kabul edilir. Buna karşın, çoğu modern makine öğrenme algoritması, girdi yalnızca birkaç alt düzey rutin çağrı yapabileceği için “sığ” olarak kabul edilir.

Derin öğrenme verilerdeki özelliklerin el ile tanımlanmasını kaldırır ve bunun yerine girdi örneklerinde kullanışlı kalıpları bulmak için bir tür eğitim sürecine dayanır. Bu sinir ağını eğitmeyi daha kolay ve daha hızlı hale getirir ve yapay zeka alanını ilerleten daha iyi bir sonuç verebilir.

AI — ML — DL

Bir başka deyişle, Derin öğrenme, insan beyninde bulunan sinir ağlarının nöronunu taklit eden bir makine öğrenmesi türüdür. Bilgisayarla Görme Derin öğrenme modelleri, bir görevi çözmek için bir eğitim verisi görüntüsü üzerinde eğitilir. Bu derin öğrenme modelleri, temel olarak, bilgisayarın bir insan gibi görmesini ve görselleştirmesini sağlayan Bilgisayar Görme alanında kullanılmaktadır.

Derin öğrenme modelleri, her biri düğüme gelen girdilere dayanarak karar veren bir dizi nokta olarak görselleştirilebilir. Bu tür bir ağ biyolojik sinir sistemine benzer; her düğüm daha büyük bir ağda bir nöron görevi görür.

Dolayısıyla, derin öğrenme modelleri yapay sinir ağlarının bir sınıfıdır. Derin öğrenme algoritmaları, her sinir ağı katmanından geçen görüntü hakkında aşamalı olarak öğrenir. İlk katmanlar, kenarlar gibi düşük seviyeli özelliklerin nasıl algılanacağını öğrenir ve sonraki katmanlar, önceki katmanlardan gelen özellikleri daha bütünsel ve eksiksiz bir gösterime birleştirir.

Deep Learning’e ihtiyaç nasıl doğdu?

Deep Learning’in tarihi, Walter Pitts ve Warren McCulloch’un insan beyninin sinir ağlarına dayanan bir bilgisayar modeli yarattığı 1943 yılına kadar takip edilebilir. Düşünce sürecini taklit etmek için “eşik mantığı” olarak adlandırdıkları bir algoritma ve matematik kombinasyonu kullandılar.

Walter Pitts
Warren McCulloch

Henry J. Kelley’ye 1960’da sürekli Geri Yayılım Modelinin temellerini geliştirdi. 1962’de, Stuart Dreyfus tarafından yalnızca zincir kurallarına dayanan daha basit bir versiyon geliştirildi. 1960’ların başında geri yayılma kavramı (hataların eğitim amacıyla geri yayılması) ortaya çıkmış olsa da verimsizdi ve 1985’e kadar işe yaramadı.

Stuart Dreyfus

Derin Öğrenme algoritmalarının geliştirilmesinde en erken çabalar, 1965’te Alexey Grigoryevich Ivakhnenko (Grup Veri İşleme Yöntemini geliştirdi) ve Valentin Grigorevich Lapa (Sibernetik ve Tahmin Teknikleri’nin yazarı) tarafından gerçekleştirildi. Polinom (karmaşık denklemler) aktivasyon fonksiyonlarına sahip modeller kullandılar, daha sonra istatistiksel olarak analiz edildi. Her katmandan, istatistiksel olarak en iyi seçilen özellikler daha sonra bir sonraki katmana iletildi. Elbette bu yavaş ve manuel bir işlem olarak işletiliyordu.

Alexey Grigoryevich Ivakhnenko

İlk “evrimsel sinir ağları” Kunihiko Fukushima tarafından kullanıldı. Fukushima, çoklu havuzlama ve evrişimli katmanlara sahip sinir ağları tasarladı. 1979’da, hiyerarşik, çok katmanlı bir tasarım kullanan Neocognitron adlı yapay bir sinir ağı geliştirdi. Bu tasarım, bilgisayarın görsel desenleri tanımasını “öğrenmesini” sağladı. Ağlar modern versiyonlara benziyordu, ancak zaman içinde güçlenen çoklu katmanlarda tekrarlanan aktivasyon güçlendirme stratejisiyle eğitildiler. Ek olarak, Fukushima’nın tasarımı, belirli bağlantıların “ağırlığını” artırarak önemli özelliklerin manuel olarak ayarlanmasına izin verdi.

Kunihiko Fukushima

Geri Öğrenme, Derin Öğrenme modellerinin eğitiminde hataların kullanımı 1970 yılında önemli ölçüde gelişti. Bu, Seppo Linnainmaa’nın, geri yayılma için bir FORTRAN kodu da dahil olmak üzere yüksek lisans tezini yazdığı zamandı. Maalesef, konsept 1985’e kadar sinir ağlarına uygulanmadı. Rumelhart, Williams ve Hinton, bir sinir ağında yayılmanın “ilginç” dağıtım gösterimleri sağlayabildiğini gösterdi. Felsefi olarak, bu keşif, bilişsel psikoloji içindeki insan anlayışının sembolik mantığa (hesaplamalı) ya da dağıtılmış temsillere (bağlantıcılık) dayanıp dayanmadığı sorusunu doğurdu. 1989’da, Yann LeCun, Bell Laboratuarlarında geri yayılımın ilk pratik gösterimini yaptı. Konvolüsyonel sinir ağlarını, okuma “el yazısı” rakamları üzerine geri yayılma ile birleştirdi. Bu sistem sonuçta el yazısı çek sayısını okumak için kullanıldı.

Yann LeCun

Bu süre aynı zamanda yapay zeka rüzgarını (1985–90’lar), sinir ağları ve Derin Öğrenme için araştırmaları da etkiledi. Aşırı iyimser çeşitli bireyler, Yapay Zekanın “acil” potansiyelini abartmış, beklentileri kırmış ve yatırımcıları kızdırmıştı. Öfke öylesine yoğundu ki, Yapay Zeka deyimi sahte bilim durumuna ulaştı. Neyse ki, bazı insanlar AI ve DL üzerinde çalışmaya devam etti ve önemli ilerlemeler kaydedildi. 1995 yılında Dana Cortes ve Vladimir Vapnik, destek vektör makinesini (benzer verileri haritalamak ve tanımak için bir sistem) geliştirdi. Tekrarlayan sinir ağları için LSTM (uzun kısa süreli hafıza), 1997 yılında Sepp Hochreiter ve Juergen Schmidhuber tarafından geliştirilmiştir.

Vladimir Vapnik & Yann LeCun

Derin Öğrenme için bir sonraki önemli evrim adımı, bilgisayarların veri işlemede daha hızlı olmaya başladığı ve GPU’nun (grafik işlem birimleri) geliştirildiği 1999 yılında gerçekleşti. Daha hızlı işlem, GPU’ların işlem resimlerinde 10 yıllık işlem süresi boyunca işlem hızını 1000 kat artırdı. Bu süre zarfında, sinir ağları destek vektör makineleri ile rekabet etmeye başladı. Bir sinir ağı destek vektör makinesine kıyasla yavaş olabilirken, sinir ağları aynı verileri kullanarak daha iyi sonuçlar sundu. Yapay sinir ağları, daha fazla eğitim verisi eklendikçe, iyileştirmeye devam etme avantajına da sahiptir.

2000 yılı civarında, “Vanishing Gradient” Problemi ortaya çıktı. Alt katmanlarda oluşturulan “özellikler” (dersler), üst katmanlardan öğrenilmediği keşfedildi, çünkü bu katmanlara bir öğrenme sinyali gelmedi. Bu, sadece degrade tabanlı öğrenme yöntemlerine sahip olan tüm sinir ağları için temel bir problem değildi. Sorunun kaynağının belli aktivasyon fonksiyonları olduğu ortaya çıktı. Bir dizi aktivasyon işlevi girdilerini yoğunlaştırdı ve sonuç olarak çıktı menzilini biraz kaotik bir şekilde düşürdü. Bu, çok küçük bir aralıkta haritalanan geniş girdi alanları oluşturdu. Bu giriş alanlarında, büyük bir değişiklik çıktıda küçük bir değişime indirgeyecek ve bu da kaybolma gradyanına neden olacaktır. Bu sorunu çözmek için kullanılan iki çözüm, kat-kat ön eğitim ve uzun kısa süreli belleğin gelişimi idi.

2001 yılında, META Group’un (şimdi Gartner olarak adlandırdığı) yaptığı bir araştırma raporu, veri büyümesinin zorluklarını ve fırsatlarını üç boyutlu olarak tanımladı. Rapor, artan veri hacmini ve artan veri hızını, veri kaynaklarının ve türlerinin aralığını artırarak açıkladı. Bu daha yeni başlayan Büyük Veri saldırısına hazırlık çağrısıydı.

2009’da Stanford’da AI profesörü olan Fei-Fei Li, ImageNet’i lanse etti ve 14 milyondan fazla etiketli görüntüden oluşan ücretsiz bir veritabanı oluşturdu. İnternet, etiketlenmemiş imgelerle doluydu. Sinir ağlarını “eğitmek” için etiketli görüntüler gerekiyordu. Profesör Li, “Vizyonumuz, Big Data’nın makine öğreniminin çalışma şeklini değiştireceği yönünde idi. Veri öğrenmeyi yönlendirir. ”

Fei-Fei Li

2011 yılına kadar, GPU’ların hızı önemli ölçüde artmış, katsayılı eğitim öncesi “olmadan” evrimsel sinir ağlarının eğitilmesi mümkün olmuştur. Bilgisayar hızındaki artışla birlikte, Deep Learning’in verimlilik ve hız açısından önemli avantajları olduğu ortaya çıktı. Bunun bir örneği, 2011 ve 2012 boyunca mimarisi çeşitli uluslararası yarışmalar kazanan, evrişimli bir sinir ağı olan AlexNet’tir. Hızlandırmayı ve düşmeyi arttırmak için düzeltilmiş doğrusal birimler kullanıldı.

Ayrıca, 2012 yılında Google Brain, The Cat Experiment adlı bir olağandışı projenin sonuçlarını yayınladı. Özgür ruhlu proje “denetimsiz öğrenmenin” zorluklarını araştırıyor. Deep Learning “denetimli öğrenmeyi” kullanıyor, yani evrimsel sinir ağının etiketli veriler kullanılarak eğitildiği anlamına geliyor (ImageNet’ten alınan görseller). Denetlenmeyen öğrenmeyi kullanarak, evrişimsi bir sinir ağı etiketsiz veri verilir ve daha sonra tekrar eden kalıpları araması istenir.

Cat Deneyi, 1.000 bilgisayara yayılmış bir sinir ağı kullandı. On milyon “etiketsiz” görüntü YouTube’a rastgele yüklendi, sisteme gösterildi ve daha sonra eğitim yazılımının çalışmasına izin verildi. Eğitimin sonunda, en yüksek katmandaki bir nöronun kedilerin görüntülerine güçlü bir şekilde yanıt verdiği bulundu. Projenin kurucusu Andrew Ng, “İnsan yüzlerine çok sert tepki veren bir nöron bulduk” dedi. Denetimsiz öğrenme, Derin Öğrenme alanında önemli bir hedef olmaya devam etmektedir.

Andrew Ng

Günümüzde, Büyük Veri’nin işlenmesi ve Yapay Zekanın evrimi, Derin Öğrenmeye bağlıdır. Derin Öğrenme hala gelişmekte ve yaratıcı fikirlere ihtiyaç duymaktadır.

Geçmişe göre neden günümüzde daha fazla kullanılmaktadır?

Geçtiğimiz birkaç yıl boyunca, iş dünyası “analitik”, “büyük veri” ve “yapay zeka” gibi kelimelerin etrafında bir yarışa girdiler. Bu olgunun iki önemli unsuru var. İlk olarak, üretilen veri miktarı son zamanlarda büyük ölçüde artış gösterdi. İkincisi de, etkili pazarlama programları bir “analitik” koşturmaca yarattı.

Her gün şaşırtıcı miktarlarda veri üretilmektedir ve bu veriler derin öğrenmeyi mümkün kılan yegâne kaynaktır. Derin öğrenme algoritmaları öğrenmek için yüklü miktarda veri gerektirdiğinden, veri yaratımındaki bu artış, derin öğrenme yeteneklerinin son yıllarda artmasının bir nedenidir. Daha fazla veri oluşturmaya ek olarak, derin öğrenme algoritmaları, Yapay Zekanın (AI) çoğalmasının yanı sıra, bugün mevcut olan daha güçlü bilgi işlem gücünden yararlanır. AI, küçük kuruluşlara yapay zeka teknolojisine erişim ve özellikle de büyük bir ilk yatırım yapmadan derin öğrenme için gereken AI algoritmalarını vermiştir.

Derin öğrenme, makinelerin çok çeşitli, yapılandırılmamış ve birbirine bağlı bir veri kümesi kullanırken bile karmaşık sorunları çözmesini sağlar. Daha derin öğrenme algoritmaları ne kadar çok öğrenirse, o kadar iyi performans gösterirler.

Artan verilerin yorumlama kabiliyetinin bireyler ve kurumlar tarafından fark ediliş oranı da günden güne artmaktadır. Bu sebeple yapay zeka ve derin öğrenme ile keşfedilecek yeniliklerin heyecanı da insanların günümüzde bu teknolojilere ağırlık vermelerine sebep olmaktadır.