Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Membre a labase
François Dominic Laramée : Université de Montréal
Pour l’historien, le traitement numérique de documents du XVIIIe siècle pose des problèmes méthodologiques considérables. Même les sources qui ont été retranscrites dans des bibliothèques numériques, comme celle du projet ARTFL de l’Université de Chicago qui regroupe l’Encyclopédie et des centaines de fascicules de littérature populaire, sont truffées d’archaïsmes et d’orthographes instables qui déjouent les modèles linguistiques des outils d’analyse. Néanmoins, avec les précautions requises, il est possible d’appliquer des techniques informatiques à un corpus d’articles de l’Encyclopédie pour en extraire les multiples portraits du monde — explicites ou implicites — que leurs auteurs y ont inséré.
L’étude des spécificités lexicales et la modélisation thématique permettent notamment de caractériser la représentation de l’Amérique dans l’Encyclopédie comme celle d’un objet de curiosité scientifique dont on parle au présent, contrairement à d’autres parties du monde. L’analyse factorielle des correspondances a, quant à elle, permis de confirmer la subversion du projet géographique original de Diderot par le chevalier Louis de Jaucourt, dont les plus de 8 000 articles géographiques dominent les derniers volumes de l’ouvrage.
La présentation s’articulera autour du concept de production de l’espace, tel que formulé par le philosophe Henri Lefebvre, ainsi que des définitions de l’espace (incertain) et du lieu (familier) du géographe Yi-Fu Tuan.
À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.
Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.
Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).
Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.
Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.
Titre du colloque :
Thème du colloque :