Titre de série : |
État de l’art sur les architectures de Deep Learning : Perceptron, CNN et RNN |
Titre : |
Mémoire de Master : Informatique |
Type de document : |
texte imprimé |
Auteurs : |
Mody Balde, Auteur ; Drame, Khadim, Directeur de la recherche ; Gorgoumack Sambe, Collaborateur |
Editeur : |
Ziguinchor : Université Assane Seck de Ziguinchor, 2024 |
Importance : |
1 vol. (74 f.) |
Présentation : |
ill., couv. ill. en coul. |
Format : |
30 cm |
Accompagnement : |
CD |
Langues : |
Français (fre) |
Mots-clés : |
Réseaux de neurones artificiels Apprentissage profond Perceptron multicouche Réseaux de neu- rones convolutifs Réseaux de neurones récurrents Mémoire long à court terme Unité récurrente à portes |
Index. décimale : |
MI24/10 |
Résumé : |
Le Deep Learning (DL) s’est imposé comme un paradigme révolutionnaire dans le domaine de l’intelligence artificielle et du machine learning. Reposant sur des réseaux de neurones artificiels, le DL s’est montré efficace dans plusieurs domaines d’application tels que la reconnaissance vocale (SIRI d’Apple), la traduction automatique (Google Translate) et bien d’autres. Dans ce mémoire, nous proposons un état de l’art et une étude comparative des trois architectures de base du deep learning : le perceptron multicouche (Multi-Layer Perceptron (MLP)), les réseaux convolutifs (Convolutional Neural Network (CNN)) et les réseaux récurrents (Recurrent Neural Network (RNN)). Nous présenterons l’origine et l’évolution historique du deep learning et ses fondements théoriques : le neurone formel, les fonctions d’activation, l’évaluation des modèles, les topologies des réseaux de neurones, les techniques d’apprentissage du deep learning ainsi que les algorithmes d’optimisation. Nous aborderons l’architecture du MLP, son fonctionnement, l’algorithme de la rétropropagation, son domaine d’application et ses limites. Pour les CNN, nous présenterons le principe de la convolution qui constitue la base des CNN ainsi que leurs architectures avec leurs différentes couches : couche de convolution, couche de pooling et couche entièrement connectée. Nous présenterons aussi leurs domaines d’application et leurs limites Pour les RNN, en plus de leur architecture, nous présenterons leur mécanisme d’apprentissage avec la rétropropa- gation à travers le temps (Backpropagation Through Time). Nous parlerons de leurs problèmes d’apprentissage, à savoir la disparition du gradient et l’explosion du gradient. Nous présenterons les variantes des RNN : les mémoires à long et court terme (Long Short-Term Memory (LSTM)) et les unités récurrentes à portes (Gated Recurrent Unit (GRU)). Leurs domaines d’application ainsi que leurs limites seront abordés. Des travaux antérieurs ont montré que les CNN sont plus adaptés pour les tâches de traitement d’image, tandis que les RNN sont plus aptes pour le traitement des données séquentielles ou des séries temporelles . Nous avons proposé une étude comparative entre les architectures MLP et CNN sur la classification d’image avec le jeu de données CIFAR-10 et entre les architectures CNN et RNN pour l’analyse de sentiment avec le jeu de données IMDB, ainsi que pour la génération de poèmes avec un recueil de poèmes de Victor Hugo. Les résultats de cette étude sur les métriques d’exactitude, précision, rappel, score f1 ainsi que sur le temps d’en- traînement, confortent les observations de nos prédécesseurs en élargissant le champ d’étude sur d’autres tâches. |
État de l’art sur les architectures de Deep Learning : Perceptron, CNN et RNN. Mémoire de Master : Informatique [texte imprimé] / Mody Balde, Auteur ; Drame, Khadim, Directeur de la recherche ; Gorgoumack Sambe, Collaborateur . - Ziguinchor : Université Assane Seck de Ziguinchor, 2024 . - 1 vol. (74 f.) : ill., couv. ill. en coul. ; 30 cm + CD. Langues : Français ( fre)
Mots-clés : |
Réseaux de neurones artificiels Apprentissage profond Perceptron multicouche Réseaux de neu- rones convolutifs Réseaux de neurones récurrents Mémoire long à court terme Unité récurrente à portes |
Index. décimale : |
MI24/10 |
Résumé : |
Le Deep Learning (DL) s’est imposé comme un paradigme révolutionnaire dans le domaine de l’intelligence artificielle et du machine learning. Reposant sur des réseaux de neurones artificiels, le DL s’est montré efficace dans plusieurs domaines d’application tels que la reconnaissance vocale (SIRI d’Apple), la traduction automatique (Google Translate) et bien d’autres. Dans ce mémoire, nous proposons un état de l’art et une étude comparative des trois architectures de base du deep learning : le perceptron multicouche (Multi-Layer Perceptron (MLP)), les réseaux convolutifs (Convolutional Neural Network (CNN)) et les réseaux récurrents (Recurrent Neural Network (RNN)). Nous présenterons l’origine et l’évolution historique du deep learning et ses fondements théoriques : le neurone formel, les fonctions d’activation, l’évaluation des modèles, les topologies des réseaux de neurones, les techniques d’apprentissage du deep learning ainsi que les algorithmes d’optimisation. Nous aborderons l’architecture du MLP, son fonctionnement, l’algorithme de la rétropropagation, son domaine d’application et ses limites. Pour les CNN, nous présenterons le principe de la convolution qui constitue la base des CNN ainsi que leurs architectures avec leurs différentes couches : couche de convolution, couche de pooling et couche entièrement connectée. Nous présenterons aussi leurs domaines d’application et leurs limites Pour les RNN, en plus de leur architecture, nous présenterons leur mécanisme d’apprentissage avec la rétropropa- gation à travers le temps (Backpropagation Through Time). Nous parlerons de leurs problèmes d’apprentissage, à savoir la disparition du gradient et l’explosion du gradient. Nous présenterons les variantes des RNN : les mémoires à long et court terme (Long Short-Term Memory (LSTM)) et les unités récurrentes à portes (Gated Recurrent Unit (GRU)). Leurs domaines d’application ainsi que leurs limites seront abordés. Des travaux antérieurs ont montré que les CNN sont plus adaptés pour les tâches de traitement d’image, tandis que les RNN sont plus aptes pour le traitement des données séquentielles ou des séries temporelles . Nous avons proposé une étude comparative entre les architectures MLP et CNN sur la classification d’image avec le jeu de données CIFAR-10 et entre les architectures CNN et RNN pour l’analyse de sentiment avec le jeu de données IMDB, ainsi que pour la génération de poèmes avec un recueil de poèmes de Victor Hugo. Les résultats de cette étude sur les métriques d’exactitude, précision, rappel, score f1 ainsi que sur le temps d’en- traînement, confortent les observations de nos prédécesseurs en élargissant le champ d’étude sur d’autres tâches. |
|