pen icon Colloque
quote

Inventaire systématique et raisonné des données lexicales de la BDTS en vue d'en extraire le vocabulaire d'une nomenclature distinctive des textes québécois

HC

Membre a labase

Hélène Cajolet-Laganière

Résumé du colloque

La BDTS est un corpus momentanément stabilisé à 15 millions d'occurrences, divisé en bloc comparables de 250 000 occurrences, dont la typologie est échelonnée sur deux axes de stratification, en abscisse selon le type de discours (langue orale/langue écrite), en ordonnée selon le niveau de la langue utilisée (usage familier/usage soutenu). Ce sont les progrès réalisés dans le domaine de la numérisation et du traitement informatique des données textuelles qui nous ont permis de constituer cet échantillon représentatif du français en usage au Québec, par conséquent de satisfaire, nous semble-t-il, à la première exigence en matière d'extraction d'une nomenclature d'un corpus, la qualité de la source. Notre exposé porte essentiellement sur cet aspect initial de l'élaboration de la nomenclature d'un dictionnaire complet, général et normatif, destinés aux francophones du Québec et d'Amérique. Plus précisément, nous décrirons les divers traitements et analyses lexicales appliqués à la BDTS et aux sous-ensembles de données textuelles qui la composent (élaboration d'une typologie équilibrée, sélection attentive et regroupement des textes, découpage des textes en unités lexicales, étude de la dispersion en fréquence des unités lexicales dans le corpus, comparaison avec les nomenclatures de certains dictionnaires usuels existants, français ou adaptés pour le Québec. Qu'y a-t-il enfin à noter comme particularités, comme traits d'originalité?

Contexte

host icon Hôte : Université d’Ottawa

Découvrez d'autres communications scientifiques

Autres communications du même congressiste :