Textes & Corpus – Istex | Inist Rapport d'activité 2023

Avec plus de 27 millions de publications scientifiques s’étalant sur 700 ans et couvrant toutes les disciplines, Istex est le plus vaste réservoir d’archives scientifiques normalisées au service de la recherche française. Sa particularité unique est d’être compatible techniquement et juridiquement avec la fouille et l’analyse de texte.

L’écosystème Istex a poursuivi son évolution afin de proposer des services à la recherche à partir des données Istex mais aussi à partir d’autres données.

En effet, plus qu’une base documentaire, l’infrastructure Istex offre à la communauté de l’enseignement supérieur et de la recherche des outils dédiés à l’exploration et l’exploitation de documents à travers des services en ligne.

Parmi les nouveautés 2023…

Corpus d’actualité publiés sur le site data.istex.fr :

Corpus spécialisés publiés sur le site data.istex.fr :

2 nouveaux corpus sur la mémoire,
2 corpus sur la traduction automatique (Exploration diachronique de la traduction automatique, Machine Translation V2 : le premier corpus mixte de data.istex)
2 corpus en paléoclimatologie.

Ressources numériques acquises auprès des éditeurs et chargées en 2023 :

1 nouveau bouquet chargé dans la base Open Edition – Journals, grâce au Plan de soutien à l’édition scientifique française,
1 année supplémentaire pour 2 bouquets déjà présents dans Istex :
– Elsevier – Année 2013, grâce aux acquisitions pérennes des Licences Nationales ;
– EDP Sciences – Année 2022, grâce au Plan de soutien à l’édition scientifique française.

Poster présenté à CORIA-TALN 2023
5 – 9 juin 2023 à Paris.

En chiffres…

Au 31/12/2023, la base Istex représente :

27 917 892 documents au total,
42 bouquets éditeurs acquis,
10 249 revues / 437 306 monographies,
539 975 documents chargés,
3,9 millions de documents disponibles par ailleurs en Open Access (14,2 %),
14,3 millions de textes intégraux nettoyés (51,5 %),
27,2 millions avec au moins un enrichissement (97,6 %).

Ces ressources sont valorisées dans data.istex au travers de :

20 corpus spécialisés pour la fouille de textes,
11 corpus d’actualité.

Quelques données d’usage de la plateforme en 2023 :

3 729 461 accès à la plateforme (hors Inist et hors robots) :

parmi lesquels 62 % pour un usage TDM et 38 % pour un usage documentaire,
par 286 établissements,
pour 9,8 millions de documents téléchargés (via istex-DL, revue de sommaire, corpus data.istex, Google Scholar, etc.).

Formations

L’équipe Istex est intervenue dans des formations et a animé des ateliers sur la constitution d’un corpus spécialisé à partir des ressources Istex pour un usage en TDM :

10 février : à Villeurbanne, Enssib, dans le cadre du Diplôme de conservateur des bibliothèques. Intervenantes : Sabine Barreaux, Mathilde Huguin & Justine Revol.
10 mai : en distanciel, Université Paris 1 – Panthéon Sorbonne, dans le cadre du programme Cycl@doc destiné aux doctorants. Intervenantes : Mathilde Huguin et Fabienne Schmittheisler.

Mathilde Huguin, Sabine Barreaux.
Le corpus « Machine Translation » : une exploration diachronique des (méta)données Istex. 18e Conférence en Recherche d’Information et Applications – 16e Rencontres Jeunes Chercheurs en RI – 30e Conférence sur le Traitement Automatique des Langues Naturelles – 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp. 54-59.
(hal-04131599)

Développé par l’Inist, Lodex est un logiciel open source de traitement et de valorisation des données à travers différents graphiques et pages entièrement configurables pour réaliser des bases de données ou tableaux de bord personnalisés.

Le site vitrine de Lodex a fait peau neuve avec une interface plus moderne et ergonomique. Quelques témoignages d’utilisateurs y sont accessibles, illustrant comment Lodex a contribué au partage de données pour des organisations telles que le CIRAD et les Hospices civils de Lyon.
9 nouvelles instances Lodex ont été ouvertes.