Ressources linguistiques


Actualité | Liens


Bien que notre chantier immédiat reste le Dictionnaire électronique berbère multilingue, nous envisageons dans un avenir, proche et lointain, la constitution d'autres ressources linguistiques de différentes formes.


1. Contexte

La production, la diffusion, le traitement automatisé et l'exploitation de l'information électronique sont très largement conditionnés par le déploiement des technologies de l'Ingénierie Linguistique, elles-mêmes conditionnées par la disponibilité de ressources linguistiques adaptées et de composants logiciels performants.

L'importance des ressources linguistiques (dictionnaires, terminologies, corpus oraux et écrits,…) et de composants logiciels " de base " (lemmatiseurs, aligneurs de corpus, outils pour les modèles de langage…) pour le développement des applications de traitement automatique des langues est indéniable et de plus en plus soulignée. En ce sens, l'existence des ressources linguistiques et des composants logiciels " de base " (ou outils " de base ") constitue un pré-requis indispensable pour le développement des applications à haute valeur ajoutée.

Ces applications permettant de traiter automatiquement l'information (aussi bien textuelle que vocale/audio) sont essentiellement de deux genres : systèmes d'aide à la production de l'information et systèmes d'aide à l'exploitation et la compréhension de l'information. Leur développement nécessite la disponibilité de ressources linguistiques qualifiées, et de données, en très grande quantité lorsqu'il s'agit de développer des systèmes fondés sur des approches statistiques, et d'outils de base robustes. Il faut également souligner que les ressources linguistiques jouent aussi un rôle crucial pour l'évaluation des performances des systèmes développés en combinaison avec des méthodologies et des protocoles.

 

2. Objectifs

D'une façon générale, l'action vise à mettre en place les conditions nécessaires et satisfaisantes pour la production, le " packaging " des ressources linguistiques mais aussi pour la maintenance, l'amélioration et l'évolution de telles ressources. L'objectif est de répondre à des besoins à court terme mais aussi à moyen et long terme, et de produire et mettre au bon format des ressources qui seraient exploitables de façon autonome .

Plusieurs ressources clés ont été identifiées dans les domaines de l'écrit et de l'oral, ce qui a permis de catégoriser (mais sans hiérarchiser) cette demande, comme indiqué ci-dessous. La définition de la composition du kit minimum (BLARK) permet aussi de lister un ensemble de ressources. D'autres ressources peuvent bénéficier d'un soutien dans le cadre de la présente action, mais les projets devront impérativement justifier l'intérêt de leur développement et de leur exploitation par une large classe d'applications de l'Ingénierie Linguistique.

 

3. Données linguistiques

Les données pourront concerner les ressources orales (corpus oraux, lexiques de prononciation, etc.), les corpus textuels (corpus textuels monolingues, avec divers étiquetages), corpus textuels bilingues ou multilingues (parallèles, alignés...), lexiques (lexiques monolingues, lexiques bilingues ou multilingues), bases de données terminologiques (bases de données terminologiques monolingues, bases de données terminologiques bilingues ou multilingues, grammaires), etc.

Ces ressources devront permettre le développement ou l'amélioration d'applications de traitement automatique des langues telles que :

· les logiciels d'aide à la rédaction (correcteurs d'orthographe, de syntaxe, de style, …),
· les systèmes d'aide à la traduction ou de traduction automatique,
· les systèmes de recherche, de filtrage et de routage de l'information,
· les logiciels d'analyse du contenu et de compréhension du langage naturel,
· les systèmes de résumé et de génération automatique de textes,
· les systèmes de reconnaissance et de compréhension de la parole, en particulier pour des applications de dictée vocale, ou le dialogue homme-machine,
· les systèmes de synthèse de la parole,
· etc.


Parmi les ressources, sans que la liste soit limitative, on peut citer :

· Corpus audio d'émissions radio ou télévision en français, en berbère et en code-switching,

· Corpus audio dans des environnements bruités,

· Bases de données multilingues pour la synthèse de la parole (quelques heures de parole, enregistrée dans des conditions adéquates par un petit nombre de locuteurs pour la synthèse segmentale de parole multilingue),

· Lexiques de Prononciation généraux et de noms propres (un lexique de prononciation qui couvre le plus grand nombre possible de noms propres (prénoms et noms), noms de rues, noms de villes (ainsi que les noms des sites historiques et lieux-dits très connus), les lieux-dits, etc.,

· Corpus de dialogue oral (l'annotation devra comprendre la transcription de mots, les actes de dialogue, etc.).

· Corpus de textes berbères (dans les différentes variétés dialectales) avec annotations à différents niveaux (en particulier en liaison avec le web sémantique) mais aussi annotation avec des bases de marqueurs linguistiques (mots, locutions, expressions figées ou semi-figées) pour le repérage d'information dans les textes (informations utiles dans le cadre de la fouille de textes : informations structurantes (annonce thématique, récapitulations thématique, conclusion), informations à fort contenu informatif (énoncés définitoires, expression de la causalité), informations factuelles ( pour les textes journalistiques), etc.,

· Corpus parallèles et comparables (Français / Berbère),

· Dictionnaires et lexiques avec sous-catégorisation (des verbes, noms, adjectifs, etc.),

· Dictionnaires bilingues et multilingues,

· Ressources lexicales sémantiques : ontologies, schémas de sous-catégorisation sémantique pour les différents items syntaxiques, thesaurus multilingues,

· Corpus multimodaux (qui comprennent, en plus des données orales ou textuelles, d'autres types de données telles que des données visuelles ou gestuelles, ou toute autre modalité).

 

4. Outils de base

Pour les outils de base, l'objectif de l'action est de permettre de faciliter et d'accélérer le développement d'applications multiples. Il peur s'agir de composants de base. À titre d'exemples, on peut citer :

· les analyseurs morphologiques et les lemmatiseurs,
· les analyseurs syntaxiques et sémantiques,
· les extracteurs de terminologie,
· les identifieurs de langue,
· les outils d'étiquetage de corpus,
· les outils de traitement de la parole,
· etc.

Des besoins nouveaux permettront de développer de nouveaux outils qui ne sont pas disponibles, d'améliorer ou mettre à niveau des outils existants afin de les rendre plus robustes, plus performants ou d'en assurer une meilleure réutilisabilité ou portabilité.

[D'après l'appel à propositions " Technologies de la Langue " (Technolangue), lancé par le ministère de la Culture et de la Communication, le minsère de la Recherche et le minstère de l'2conomie, des Finances et de l'Industrie, le 17 avril 2002].

Corrélation



Copyright © multimédiaBerbère2002 ! Inc. Tous droits réservés.