Explorer, pas à pas, la littérature scientifique avec l’IA

Aller plus vite ou découvrir des chemins encore inexplorés ?

Claire Kersuzan (PUD-Bx, UB, MSH-Bx)
Olha Nahorna (BSE, CNRS, UB)
Karine Onfroy (BSE, UB)

Journée de rentrée du département Changes – 5/09/2025

Logo 1 Logo 2

Un atelier qui lance un cycle mensuel de 10 ateliers

▮ Soutenu par Changes et le GIS URFIST

Pourquoi ce cycle ?
       • Explorer et se former à des outils & méthodes (IA & classiques)
       • Partager pratiques & questions
       • Favoriser les échanges entre pairs & disciplines
       • Réfléchir ensemble : portée, biais, RGPD, éthique, sobriété

Comment ça se passe ?
       • Pause active pour stimuler la créativité
       • Discussions libres dans un cadre convivial
       • Séances de 1h30, présentiel/visio
       • Certaines ouvertes à toutes & tous, d’autres par niveau

Logo Change Logo URFIST

Objectifs de ce premier atelier

  • Comprendre les familles d’outils IA pour explorer la littérature
  • Expérimenter un chatbot local pour interroger un PDF
  • Tester en pratique quelques outils dédiés accessibles en ligne
  • Échanger collectivement sur limites et bonnes pratiques

Déroulé de la séance

  1. Introduction – enjeux et questions de départ
  2. Panorama guidé – de plusieurs outils IA
  3. Exploration pratique – test par binômes/individuel
  4. Discussion finale – retours, limites, bonnes pratiques

Étape 1

Introduction – enjeux et questions de départ

Pourquoi explorer la littérature avec l’IA

  • Trouver rapidement des articles pertinents
  • Visualiser les liens entre travaux, auteurs, concepts
  • Identifier des champs émergents ou controversés
  • Initier une veille ou un état de l’art rapide
  • S’inspirer pour construire/affiner sa problématique

Questions à se poser avant de commencer

  • Mon sujet est-il bien défini ?
  • Objectif : explorer, synthétiser, interroger ?
  • Ai-je déjà des références de départ ?
  • Quels concepts/mots-clés (synonymes, traduction) tester ?

Étape 2

Panorama guidé – Quelques outils IA pour explorer la littérature

De nombreux outils IA pour explorer la littérature ?

  1. Une innovation déclencheuse
    • 2023 : ChatGPT/OpenAI → percée médiatique et scientifique
  2. Une vague de nouveaux acteurs
    • Startups spécialisées → outils ciblés (Elicit, Research Rabbit, Consensus…)
    • Acteurs académiques → innovations (Semantic Scholar, Litmaps…)
  3. Une intégration progressive
    • Grands éditeurs (Elsevier, Clarivate) ajoutent des fonctions IA à Scopus AI, Web of Science AI, etc.

Tendance : après la prolifération, certains outils disparaissent → rester attentif à ce qui dure.

Trois familles d’outils

Famille Exemples Objectif principal
Explorer / cartographier Connected Papers, Research Rabbit Visualiser les liens entre articles
Synthétiser / interroger Elicit, LitLLM, Scispace Générer synthèses, extraire infos
Lire / discuter avec PDF ChatBox, PaperQA2, ChatDOC, AnythingLLM Interroger directement un texte

Tester ChatBox, Connected Papers, Elicit et LittLLM

🇫🇷 Exemple de question

Quels sont les impacts de la marche sur la santé, l’économie et la société ?

Mots-clés

marche, santé publique, activité physique, bien-être, inclusion sociale, cohésion sociale, coûts de santé, transport actif, économie locale

Article de départ

Les retombées économiques de la marche – Faure & Héran, 2024

🇬🇧 Research question

What are the health, economic, and social impacts of walking?

Keywords

walking, public health, physical activity, wellbeing, social inclusion, social cohesion, healthcare costs, active transportation, local economy

Starting article

The value of walking – Wohlrab et al., 2022 https://doi.org/10.1186/s11556-022-00310-3

Exemple 0 : Interroger un PDF avec un chatbot local

ChatBox : https://github.com/chatboxai/chatbox

  • Permet de poser des questions directement à un PDF ou un texte scientifique sans coder (interface similaire à ChatGPT)
  • Connecté à un serveur Ollama Huma-Num (merci!) pour le traitement des modèles (ex. mistral-8x7b ou gpt-oss)
  • Avantages : ressources de calcul, données hébergées sur serveur Huma-Num (respect du RGPD, idéal pour documents sensibles)

Quand l’utiliser ?
Pour explorer un article en profondeur, poser des questions ciblées, générer un résumé ou synthèse locale.

Prérequis

  • ChatBox installé
  • URL temporaire du serveur Huma-Num ( https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/)
  • Article PDF

Installer et connecter ChatBox

  1. Télécharger ChatBox : https://github.com/chatboxai/chatbox/releases\
  2. Ouvrir ParamètresFournisseur de modèle → choisir Ollama
  3. Coller l’URL temporaire du serveur dans Hôte API : https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/
  4. Dans la fenêtre Modèle, cliquer sur Récupérer, puis sélectionner mistral-8x7b
  5. Lancer une nouvelle conversation, vérifier que le modèle sélectionné est bien mistral-8x7b

Préparer le PDF

  1. Ouvrir le PDF dans Adobe Reader
  2. Menu : Fichier → Enregistrer sous → Texte (.txt)
  3. Vérifier le texte
  • Alternative rapide : copier-coller depuis le PDF si court

Poser vos questions dans ChatBox

  1. Copier le texte du fichier .txt
  2. Dans la conversation ChatBox (modèle sélectionné), ajouter :

Voici le texte de l’article : <collez ici le texte>

Questions :

Quels sont les objectifs de cet article ?
Quelles méthodes sont utilisées ?
Quels résultats sont discutés ?

  1. Envoyer. Le modèle répond dans la discussion.

Astuces et dépannage

  • PDF long : commencez par le résumé, l’introduction ou découpez en sections.
  • Premier message lent : normal si le modèle vient d’être (re)chargé par le serveur.
  • Plusieurs articles : faites un court résumé pour chacun, puis demandez une synthèse globale en collant tous les résumés.

Exemple 1: Explorer par graphe

Connected papers : https://www.connectedpapers.com/

  • À partir d’un article clé (DOI ou titre) → graphe interactif des publications proches
  • Identifier articles fondamentaux, récents ou connexes
  • Gratuit, pas de compte nécessaire, graphes limités/jour
  • Utilise l’IA pour calculer similarités sémantiques
  • Limites : quasi exclusivement anglophone, SHS moins couvertes

Quand l’utiliser ?
Pour cartographier un domaine, découvrir des liens entre travaux peu visibles autrement, explorer des courants de pensée ou des réseaux d’auteurs.

Exemple 2 : Explorer la littérature par question

Elicit : https://elicit.com/

  • Poser une question en anglais (ex. : What are the effects of X on Y?) → sélection d’articles depuis Semantic Scholar + extraction de méthodes, résultats, objectifs, etc.
  • Organiser et filtrer dans un tableau (2 colonnes gratuit)
  • Générer rapport automatique (Research Report) ou synthèse ciblée sur un concept (Summarize Concept)
  • Gratuit avec création de compte, export limité

Quand l’utiliser ?
En phase exploratoire : tester une question de recherche, pour une synthèse rapide, amorcer une revue ou identifier rapidement des tendances.

Exemple 3 : Explorer par mot(s)-clé(s)

LittLLM : https://litllm.onrender.com/

  • Accès à ArXiv, PubMed, Semantic Scholar
  • Téléversement de PDF et interrogation en langage naturel
  • Open source, idéal pour synthèses scientifiques et revue de littérature

Quand l’utiliser ?
       •Rédiger ou enrichir la partie “État de l’art” d’un article scientifique
       •Extraire informations clés et générer des résumés ciblés

Référence :
Agarwal, Shubham et al. “LitLLM: A Toolkit for Scientific Literature Review.” ArXiv abs/2402.01788 (2024)

Étape 3

Exploration pratique – À vous de tester !

Consignes pratiques

  • Travaillez seul·e ou en binôme
  • Choisissez un outil (Elicit, LitLLM ou Connected Papers)
  • Testez-le à partir de votre thématique

Notez :
- Un article trouvé qui vous paraît utile
- Un résultat intéressant (graphe ou synthèse)
- Une limite ou difficulté rencontrée

30 minutes → puis mise en commun

Étape 4

Discussion finale – Retours, limites, bonnes pratiques et perspectives

Retours d’expérience

  • Articles et/ou résultats trouvés ?
  • Outils utiles ou difficultés rencontrées
  • Échanges rapides entre participants

Limites et points d’attention

  • Couverture inégale : SHS, francophonie, qualitatif, certaines bases de publications
  • Dépendance aux mots-clés, formulation et langue
  • Versions gratuites limitées
  • Algorithmes opaques et enjeux RGPD / environnementaux

Bonnes pratiques synthétiques

  • Définir une question claire et ciblée
  • Varier mots-clés et synonymes, croiser sources et outils
  • Vérifier systématiquement la pertinence des articles
  • Documenter ses stratégies et garder un esprit critique
  • Respecter confidentialité et données personnelles 

Rappel clé : les outils IA ne remplacent pas la recherche bibliographique classique, mais peuvent, avec esprit critique, accélérer et enrichir l’exploration documentaire et la synthèse biblio

Recueil des besoins pour le cycle annuel

Objectif : planifier la programmation des ateliers de l’année 

▮ Solliciter vos idées via questionnaire papier :
          •Thématiques ou questions que vous souhaitez explorer
          •Outils ou méthodes que vous aimeriez tester         

Souhaitez-vous intervenir ou seriez-vous intéressé·e pour présenter une question, un outil, une méthode ou une réflexion ?

Perspectives et futurs ateliers

Revue bibliographique assistée par IA
Workflow (Python) : Question → mots-clés → recherche → nettoyage → stats descriptives → analyse

Prochains ateliers – Bât H, BSE, salle créativité

  • 18 ou 25 sept. (16h-17h30) : M. Peyronnet (Comptrasec) – IA et droit
  • 16 ou 23 oct. : N. Charles (CED) – Projet de recherche intégrant l’IA
  • 20 nov. : ? selon besoins (questionnaire)
  • 8-12 déc. (Semaine Data-SHS) : A. Lakel (MICA), Olha, autres – LLMs et SHS, Hyperbase, réseaux, Python/R, WebScraping, Topic model
  • 27-28 mai 2026 : Econom’IA workshop – Cergy (FR)

Objectif : se former, tester outils et méthodes, approfondir bonnes pratiques et échanges interdisciplinaires

Elements en plus (si questions)

Outils explorés

Outil Modèle / éditeur Données sources Fonctions clés IA / algo Open source
Elicit Ought (Claude / GPT) Semantic Scholar Résumés, recherche par question, extraction d’infos LLM propriétaires (Claude / GPT)
LitLLM Communauté open source ArXiv, PubMed, Semantic Scholar, HAL Lecture de PDF, synthèse, génération de questions, chat LLM open source + vecteurs
Connected Papers Startup indépendante Semantic Scholar Cartographie visuelle, exploration de citations connexes Graphe de similarité

Critères de similarité & connexions

Outil Critère de similarité Connexion entre articles Données comparées
Elicit Proximité sémantique (titre + résumé) Pertinence thématique / réponse à une question Embeddings LLM (titre + résumé)
LitLLM Proximité sémantique (texte intégral) Regroupement vectoriel Embeddings à partir du texte complet (PDF)
Connected Papers Co-citations & co-références Graphe bibliographique Références croisées (Semantic Scholar)

🔍 Légende
- Proximité sémantique : Calculée à partir du sens du texte (LLM).
- Embeddings : Représentation vectorielle du contenu.
- Co-citation : Deux articles sont souvent cités ensemble.
- Co-référence : Deux articles partagent les mêmes références.
- Graphe bibliographique : Carte des relations fondée sur les citations.

Limites des outils IA pour explorer la littérature (1/2)

▮ Couverture des données et biais disciplinaires
       • Très dépendants de Semantic Scholar
       • Peu ou pas de publications francophones
       • Faible couverture des SHS (hors psychologie, santé)
       • Peu adaptés aux approches critiques ou théoriques

▮ Dépendance à l’entrée utilisateur
       • Résultats très sensibles à la formulation de la question, au choix des mots clés/article
       • Moins efficaces pour des questions larges ou exploratoires
       • Meilleure performance pour des requêtes causales simples (effet de X sur Y)

Limites des outils IA pour explorer la littérature (2/2)

▮ Fonctions restreintes dans la version gratuite
       • Export ou sauvegarde souvent absents (PDF, Zotero, Word)
       • Nombre limité de recherches ou de colonnes (Elicit, Connected Paper)
       • Synthèses peu personnalisables ou incomplètes

▮ Opaques et peu auditables
       • Algorithmes non open source (Elicit, Connected Paper)
       • Résultats non vérifiables ni justifiables

▮ Enjeux éthiques et environnementaux
       • Conformité RGPD incertaine (données, localisation)
       • Coût énergétique élevé (LLM, serveurs)
       • Pas d’indication sur l’impact environnemental

» Des outils qui peuvent être utiles en phase exploratoire, mais à utiliser avec recul critique.