Titre de série : |
Construction de Datasets : Vers un modèle de langage basé sur les langues locales sénégalaises (cas du Wolof, Sérère et du Pulaar) |
Titre : |
Mémoire de Master : Informatique |
Type de document : |
texte imprimé |
Auteurs : |
Boubacar Diallo, Auteur ; Abdoulaye Guissé, Directeur de la recherche ; Ousmane Diallo, Collaborateur |
Editeur : |
Ziguinchor : Université Assane Seck de Ziguinchor, 2024 |
Importance : |
1 vol. (62 f.) |
Présentation : |
ill., couv. ill. en coul. |
Format : |
30 cm |
Accompagnement : |
CD |
Langues : |
Français (fre) |
Mots-clés : |
Reconnaissance vocale Langues vernaculaires Agents conversationnels vocaux Voicebots Callbots Apprentissage automatique Apprentissage profond Datasets Dictionnaires de prononciation |
Index. décimale : |
MI24/11 |
Résumé : |
La diversité linguistique au Sénégal est confrontée à un obstacle majeur en raison du faible taux d'alphabétisation, avec 54,6% de la population ayant peu ou pas de compétences en lecture et écriture. Cette situation limite l'accès aux services numériques et à des secteurs vitaux comme la santé, l'éducation et l'agriculture. Pour pallier ce problème, le projet Kallaama mobilise des linguistes et des informaticiens pour créer des données audios transcrites et annotées, collecter des ressources textuelles et développer des dictionnaires de prononciation dans les principales langues sénégalaises (Wolof, Sérère, Pulaar). Ces données sont utilisées pour entraîner des systèmes de reconnaissance vocale, facilitant ainsi le développement d’agents conversationnels vocaux (voicebots, callbots). Kallaama est soutenu par l’entreprise Jokalante, qui souhaite offrir des services vocaux et conversationnels personnalisés en langue locale pour conseiller les petits producteurs et entreprises agricoles. Ce mémoire de fin d’études a contribué à la collecte de ressources textuelles en ligne et hors ligne, au prétraitement (nettoyage et normalisation) de ces données, puis à la construction de jeux de données textuels et de lexiques de prononciation pour les trois principales langues vernaculaires du Sénégal. Ces datasets sont utilisés à des fins d'apprentissage automatique (Machine Learning) et d’apprentissage profond (Deep Learning) en vue de créer des modèles de langage et de prononciation, avec pour finalité la mise en place d’agents conversationnels vocaux, utiles pour les populations peu ou pas lettrées. |
Construction de Datasets : Vers un modèle de langage basé sur les langues locales sénégalaises (cas du Wolof, Sérère et du Pulaar). Mémoire de Master : Informatique [texte imprimé] / Boubacar Diallo, Auteur ; Abdoulaye Guissé, Directeur de la recherche ; Ousmane Diallo, Collaborateur . - Ziguinchor : Université Assane Seck de Ziguinchor, 2024 . - 1 vol. (62 f.) : ill., couv. ill. en coul. ; 30 cm + CD. Langues : Français ( fre)
Mots-clés : |
Reconnaissance vocale Langues vernaculaires Agents conversationnels vocaux Voicebots Callbots Apprentissage automatique Apprentissage profond Datasets Dictionnaires de prononciation |
Index. décimale : |
MI24/11 |
Résumé : |
La diversité linguistique au Sénégal est confrontée à un obstacle majeur en raison du faible taux d'alphabétisation, avec 54,6% de la population ayant peu ou pas de compétences en lecture et écriture. Cette situation limite l'accès aux services numériques et à des secteurs vitaux comme la santé, l'éducation et l'agriculture. Pour pallier ce problème, le projet Kallaama mobilise des linguistes et des informaticiens pour créer des données audios transcrites et annotées, collecter des ressources textuelles et développer des dictionnaires de prononciation dans les principales langues sénégalaises (Wolof, Sérère, Pulaar). Ces données sont utilisées pour entraîner des systèmes de reconnaissance vocale, facilitant ainsi le développement d’agents conversationnels vocaux (voicebots, callbots). Kallaama est soutenu par l’entreprise Jokalante, qui souhaite offrir des services vocaux et conversationnels personnalisés en langue locale pour conseiller les petits producteurs et entreprises agricoles. Ce mémoire de fin d’études a contribué à la collecte de ressources textuelles en ligne et hors ligne, au prétraitement (nettoyage et normalisation) de ces données, puis à la construction de jeux de données textuels et de lexiques de prononciation pour les trois principales langues vernaculaires du Sénégal. Ces datasets sont utilisés à des fins d'apprentissage automatique (Machine Learning) et d’apprentissage profond (Deep Learning) en vue de créer des modèles de langage et de prononciation, avec pour finalité la mise en place d’agents conversationnels vocaux, utiles pour les populations peu ou pas lettrées. |
|