Méthodologie et outils pour la numérisation des langues peu dotées <br> - Campus AAR
Vidéo Année : 2019

Méthodologie et outils pour la numérisation des langues peu dotées

Afficher 

Résumé

L'Inalco organise la conférence internationale sur l'arménien à l'ère du numérique, rassemblant chercheurs et entreprises : nouvelles technologies pour l'arménien, traitement automatique de la langue, e-enseignement, e-corpus, intelligence artificielle, etc. Digital Armenian est le rendez-vous des acteurs de la dynamisation de la langue arménienne à l'ère du numérique.
Thème 1 : E-corpus, E-dictionnaires, Traitement automatique des Langues
Dictionnaires numériques, corpus annotés, banque de textes, les ressources pour l'arménien sont nombreuses et complémentaires. Ce thème envisage de dresser un état de l’art de ces ressources et des innovations qu'elles proposent. Il peut aussi permettre de mettre en lumière les liens que ces ressources peuvent nouer. Quelles sont leurs spécificités ? Peut-on envisager un portage des fonctionnalités ? Quelles normes d’annotation suivent ces corpus ? Un partage des données peut-il s’envisager et si oui quelle normalisation établir?
Thème 2 : Bibliothèques numériques
Dans l’actuelle dynamique internationale pour la numérisation et valorisation des fonds, qui voit notamment se multiplier les initiatives pour l’interopérabilité et l’uniformisation des architectures et des notices, quelles sont les politiques menées pour la préservation, la numérisation et la visualisation des collections en arménien ? Selon quelles normes et pour répondre à quels besoins ? Pour quels publics ? Quels enjeux ? Quelles innovations?
Thème 3 : Nouvelles Technologies, Traitement automatique des Langues
Le traitement automatique des langues est de plus en plus présent dans nos vies, et en particulier dans le monde de la recherche. À l’ère du Big Data, il devient indispensable de disposer d’outils capables de traiter d’importants volumes de données en peu de temps, et de valoriser le patrimoine numérique en cours de création. Les exemples les plus courants sont les technologies de reconnaissance des caractères (OCR), mais aussi celles de traduction automatique. Les communications portent sur tous les thèmes classiques du TAL, et présentent des applications, à l’arménien, de technologies classiques du TAL (fouille de texte, recherche et extraction d’information, question-réponse, génération et résumé de texte, analyse d’opinions, TAL pour la linguistique de corpus, etc.) ou des innovations spécifiques (synthèse vocale, reconnaissance de caractères, etc.).

Dates et versions

hal-02868920 , version 1 (15-06-2020)

Licence

Identifiants

  • HAL Id : hal-02868920 , version 1

Citer

Damien Nouvel, Anaïd Donabédian, Victoria Khurshudyan, Mathieu Valette, Chahan Vidal-Gorène. Méthodologie et outils pour la numérisation des langues peu dotées
. 2019. ⟨hal-02868920⟩
140 Consultations
1 Téléchargements

Partager

More