Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Filtrer les résultats
Mon corpus, qui couvre la période 1740-1761, compte quelque 75 000 pages de texte imprimé, où les mentions de l'Amérique sont clairsemées mais présentes dans des contextes très variés: articles de nouvelles, comptes-rendus de spectacles, jeux de vocabulaire, extraits d'ouvrages scientifiques, etc. La fouille de texte était donc absolument nécessaire pour extraire le contenu pertinent de cette masse documentaire. Malheureusement, les textes d'Ancien Régime souffrent d'une orthographe irrégulière et d'une «océrisation» déficiente, causée notamment par le mauvais état des documents qui ont été soumis à la reconnaissance optique des caractères. De plus, certaines caractéristiques des périodiques que j'utilise en font …
Pour l’historien, le traitement numérique de documents du XVIIIe siècle pose des problèmes méthodologiques considérables. Même les sources qui ont été retranscrites dans des bibliothèques numériques, comme celle du projet ARTFL de l’Université de Chicago qui regroupe l’Encyclopédie et des centaines de fascicules de littérature populaire, sont truffées d’archaïsmes et d’orthographes instables qui déjouent les modèles linguistiques des outils d’analyse. Néanmoins, avec les précautions requises, il est possible d’appliquer des techniques informatiques à un corpus d’articles de l’Encyclopédie pour en extraire les multiples portraits du monde — explicites ou implicites — que leurs auteurs y ont inséré.L’étude des spécificités lexicales …