[Fiche mémo] Réseau de neurones profond

Source: Deep Learning on Medium

Avez-vous déjà rêvé d’un endroit où serait condensé les points clés pour comprendre les réseaux de neurones ?
Un endroit ou vous pourrez trouver facilement ce qui se cache sous le capot des modèles de machine learning/deep learning ? Cette série d’articles [Fiche mémo] pourrait exaucer vos rêves 💫 Les équations principales, des exemples simples d’implémentation, le vocabulaire du domaine et des petites astuces sont résumés ici pour vous !

Vous préférez lire cet article en anglais ? C’est possible ici ! 🇬🇧

Contenu

Cet article s’attache à décrire, étape par étape, l’architecture d’un réseau neuronal classique appelé le perceptron multicouche. Cet article ne se veut pas exhaustif, mais constitue une sorte de rappel pour ceux qui souhaitent se rafraîchir la mémoire ou clarifier leurs idées.

Table des matières

1. Brève histoire de la naissance des réseaux neuronaux
2. Neurone artificiel
3. Réseau de neurones
4. Réseau de neurones profonds

Brève histoire de la naissance du réseau de neurones

L’origine des réseaux de neurones artificiels remonte aux années 1950. À cette époque, des utopistes de l’intelligence artificielle ont adopté des théories de l’apprentissage développées dans le domaine des neurosciences. En particulier, le rôle des interconnexions neuronales dans l’apprentissage est devenu une source d’inspiration pour les chercheurs en informatique. En 1957, le psychologue Frank Rosenblatt construit le perceptron, la première machine d’apprentissage qui reste un modèle de référence dans l’apprentissage machine. Le perceptron, composé d’une seule couche de neurones artificiels, présentait des capacités d’apprentissage limitées. Les chercheurs ont essayé de l’améliorer en introduisant plusieurs couches de neurones mais n’ont pas trouvé d’algorithme d’apprentissage satisfaisant. La recherche sur les réseaux de neurones a ensuite stagné jusqu’aux années 1980. À cette époque, la méthode de rétropropagation de gradient est devenue populaire et a permis l’apprentissage de réseaux neuronaux multicouches (perceptron multicouche). Bien que ce domaine de recherche n‘était pas désigné par ce terme à l’époque, l’apprentissage profond était né ! Depuis, d’autres types de réseaux neuronaux ont vu le jour : réseaux neuronaux convolutifs, réseaux neuronaux récurrents, réseaux antagonistes génératifs, pour n’en citer que quelques-uns.

Neurone artificiel

Le neurone artificiel peut être considérée comme un modèle très simplifié d’un neurone. Il s’agit de la brique de base pour construire un réseau de neurones. Il prend un ensemble de n entrées/caractéristiques et calcule un nombre scalaire, appelé activation, sur la base des paramètres de poids (W) et de biais (b). Le calcul de la sortie du réseau est appelé propagation avant et s’effectue en deux étapes :

1. Linéaire : somme pondérée des entrées x. Les résultats sont stockés dans une variable z.

2. Activation : transformation de z par une d’une fonction non linéaire.

La fonction d’activation peut être, par exemple, la fonction sigmoïde, tanh, ReLU ou même la fonction identité dans le cas d’un problème de régression. Pour vous rafraîchir la mémoire sur les fonctions d’activation, vous pouvez consulter cet article.
Vous trouverez ci-dessous une fiche mémo représentant un neurone artificiel et les équations associées. Un seul exemple d’entraînement x est considéré ici. La sortie finale du neurone, ŷ, est une classe prédite ou une valeurs de sortie dans le cadre d’un problème de régression.