Colloque

Les synthétiseurs de parole dans la pédagogie de la prononciation en L2 : Une nouvelle évaluation de la qualité

Walcir Cardoso

Membre a labase

Walcir Cardoso : Université Concordia

Résumé de la communication

Les chercheurs et pédagogues en L2 s’intéressent aux synthétiseurs de parole (SdeP) pour leur potentiel à optimiser l’apprentissage (Liakin et al., 2017). Le succès des SdeP repose souvent sur la qualité de leur voix (Bione & Cardoso, 2020) et leur capacité à enrichir l’input en L2 (Al-Shami, 2024). Bien que les SdeP aient longtemps été critiqués pour leur manque de naturel et d’authenticité prosodique (Cardoso et al., 2015), les progrès récents en IA générative (IA-Gen) permettent désormais une parole quasi humaine (Barakat et al., 2024).

Cette étude réplique Cardoso et al. (2015), en évaluant un SdeP d’anglais basé sur l’IA-Gen selon trois critères : la qualité vocale, le Focus-on-Form (allomorphie du passé -ed), et les processus cognitifs (compréhension auditive, latence dans les tâches de shadowing). Trente apprenants d’anglais ont écouté des échantillons humains et SdeP, puis exécuté des tâches comparatives. Les résultats indiquent une équivalence statistique pour toutes les mesures, suggérant que le synthétiseur adopté produit un résultat proche de la parole humaine, en accord avec Barakat et al. (2024) et en contradiction avec Bione et Cardoso (2020). La discussion aborde les répercussions de ces résultats sur la pédagogie de la prononciation assistée par la technologie.

Résumé du colloque

La parole est un signal physiologique utilisé par les humains pour communiquer. En plus d’être porteuse d’un message en langage naturel, la parole contient aussi de nombreuses informations sur la personne du locuteur et son état au moment où la communication a lieu. La production et la perception de la parole sont traditionnellement étudiées par des chercheurs de disciplines très diverses, dont la linguistique, l’audiologie, l’orthophonie, la didactique des langues, l’informatique et le génie, recoupant à la fois les secteurs des sciences naturelles et du génie, des sciences de la santé et des sciences humaines et sociales. Les technologies jouent un rôle important dans ces recherches, que ce soit à titre d’outil de mesure pour caractériser les signaux, à titre d’aide technique pour des patients ou des apprenants, ou encore dans un contexte d’automatisation de transactions.

Malgré les succès scientifiques et commerciaux de ces technologies et la diversité des points de vue dans les différentes communautés de recherche entourant les sciences de la parole, des défis importants demeurent en matière d’équité, de diversité et d’inclusion dans ce secteur. Par exemple, les engins de synthèse de la parole n’existent pas dans toutes les langues. Les outils de reconnaissance vocale automatisée ne fonctionnent pas bien avec toutes les populations de locuteurs. Les expériences réalisées à l’aide d’outils de mesure sophistiqués ont souvent lieu dans un contexte de laboratoire fortement contrôlé qui exclut des participants issus de certaines minorités. Certaines technologies ne sont pas adaptées à des situations de handicap.

Dans ce colloque, nous mettons en valeur des perspectives multisectorielles sur l’utilisation et le développement des technologies au service des sciences de la parole, les enjeux que ces derniers soulèvent en matière d’inclusivité et les solutions (technologiques ou non) à ces enjeux.