Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
Sylvain Hatier : Université Grenoble Alpes
Notre travail s'inscrit au sein du projet ANR TermITH dont l'objectif est l'indexation automatique d'écrits scientifiques en sciences humaines et sociales. Nous cherchons à établir une liste du lexique scientifique transdisciplinaire (LST : méthode, résultat) qui sera exploité lors de la détection de termes. Dans cette perspective, nous constituons des listes de mots simples (noms, adjectifs et verbes).
Notre processus d'extraction, combinant fréquence, dispersion et spécificité (Drouin 2007, Paquot 2010, Da Sylva 2010), se base sur l'utilisation conjointe d'un corpus d'articles scientifiques et d'un corpus de contraste diversifié (écrits journalistiques, fiction, oral transcrit, sous-titres) de grande échelle. La distribution régulière inter-disciplinaire et la non présence systématique dans les segments répétés nous permettent de filtrer nos listes. La validation finale s'effectue manuellement en s'appuyant sur les cooccurrents syntaxiques les plus productifs et sur des exemples phrastiques.
Nous présenterons une catégorisation sémantique établie en partant d'un échantillon de 150 noms dans notre lexique. Il s'agit d'analyser plus précisément les noms prototypiques du LST ainsi que ceux du lexique abstrait général en nous basant sur une méthode distributionnelle inspirée de la typologie de Flaux et Van de Velde (2000).
La catégorisation sémantique nous permettra d'affiner la détection de termes, en favorisant par exemple les cooccurrences LST-termes (Jacquey et al 2013).
Le lexique d’une langue n’est pas vu comme un objet monolithique. Son étude passe par l’identification de caractéristiques particulières non seulement de mots isolés, mais aussi de regroupements de mots qu’on pourrait appeler des ensembles lexicaux. On peut les définir de différentes manières, pas mutuellement exclusives : par thématique (ex. le lexique de l’environnement), par niveau d’apprentissage (ex. « Basic English »), par caractéristiques sémantiques (ex. événements, prédicats, objets, etc.), par contexte d’utilisation (ex. terminologie spécialisée par rapport à langue générale). Selon l’optique retenue, les méthodes d’identification, de caractérisation, d’enseignement et de description ne sont pas les mêmes.
Il devient intéressant de comparer les différentes approches afin de voir dans quelles mesures elles peuvent s’alimenter et s’enrichir mutuellement. Le travail en vase clos des chercheurs s’intéressant à la thématique peut conduire à des recherches en parallèle qui ne sont que trop rarement mises en commun dans un cadre d’échange multidisciplinaire. Une considération moins monolithique du lexique ne pourra que conduire à des descriptions plus flexibles et complémentaires.
Le colloque permettra :
1) de réunir des chercheurs intéressés par cette la thématique du lexique à vocation particulière afin qu’ils puissent échanger sur leur cadre théorique, leur méthode et leur utilisation des divers sous-ensembles lexicaux;
2) d’explorer les bases théoriques de classes de vocabulaire ou de sous-ensemble lexicaux ou terminologiques;
3) de caractériser des ensembles lexicaux; et
4) de réunir des chercheurs provenant de pays différents.
Dans un tel contexte, réunir des chercheurs provenant de la didactique, de la lexicologie, de la lexicographie, de la terminologie, de la linguistique de corpus et de l’informatique, des sciences cognitives, des sciences de l’information et des divers domaines spécialisés contribuera nécessairement à enrichir la réflexion sur le sujet.
Thème du colloque :