Communication

Sensibilité des modèles de langue monolingues et multilingues à certaines structures linguistiques

Diego Maupomé

Junior Cédric Tonga

Marie-Jean MEURS

Membre a labase

Diego Maupomé : UQAM - Université du Québec à Montréal

Résumé de la communication

Les outils d’intelligence artificielle peuvent fournir une aide précieuse en soutien à la santé mentale, notamment en analysant les productions textuelles des personnes à risque. Afin de fournir des analyses pertinentes, il est primordial que de tels outils soient robustes à la diversité d'expression textuelle qui peut exister chez ces personnes. Dans cet esprit, nous étudions les effets que les différences d'ordre dialectique ont sur la représentation interne de messages textuels dans les modèles de langue courants en libre distribution. Nous comparons les modèles produits à partir de corpus en plusieurs langues avec ceux produits à partir de corpus francophones uniquement en les appliquant à des messages texte en français québécois.
Pour ce faire, nous comparons l'encodage de messages textes que font ces modèles avec l'encodage des mêmes messages, normalisés en français standard. Ensuite, les modèles sont ajustés afin de rapprocher les encodages des deux versions d'un même message et ainsi faire abstraction des particularités d’expression qui distinguent ces versions.
Nos résultats indiquent que les modèles produits à partir de corpus en français sont plus réceptifs à ces ajustements que ceux produits à partir de corpus multilingues.

Visionner la contribution