Explorer, pas à pas, la littérature scientifique avec l’IA
Aller plus vite ou découvrir des chemins encore inexplorés ?
Claire Kersuzan (PUD-Bx, UB, MSH-Bx)
Olha Nahorna (BSE, CNRS, UB)
Karine Onfroy (BSE, UB)
Journée de rentrée du département Changes – 5/09/2025

▮ Soutenu par Changes et le GIS URFIST
▮ Pourquoi ce cycle ?
• Explorer et se former à des outils & méthodes (IA & classiques)
• Partager pratiques & questions
• Favoriser les échanges entre pairs & disciplines
• Réfléchir ensemble : portée, biais, RGPD, éthique, sobriété

Tendance : après la prolifération, certains outils disparaissent → rester attentif à ce qui dure.
| Famille | Exemples | Objectif principal |
|---|---|---|
| Explorer / cartographier | Connected Papers, Research Rabbit | Visualiser les liens entre articles |
| Synthétiser / interroger | Elicit, LitLLM, Scispace | Générer synthèses, extraire infos |
| Lire / discuter avec PDF | ChatBox, PaperQA2, ChatDOC, AnythingLLM | Interroger directement un texte |
Quels sont les impacts de la marche sur la santé, l’économie et la société ?
marche, santé publique, activité physique, bien-être, inclusion sociale, cohésion sociale, coûts de santé, transport actif, économie locale
Les retombées économiques de la marche – Faure & Héran, 2024
What are the health, economic, and social impacts of walking?
walking, public health, physical activity, wellbeing, social inclusion, social cohesion, healthcare costs, active transportation, local economy
The value of walking – Wohlrab et al., 2022 https://doi.org/10.1186/s11556-022-00310-3
ChatBox : https://github.com/chatboxai/chatbox
mistral-8x7b ou gpt-oss)▮ Quand l’utiliser ?
Pour explorer un article en profondeur, poser des questions ciblées, générer un résumé ou synthèse locale.
https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/)https://github.com/chatboxai/chatbox/releases\https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/.txtVoici le texte de l’article : <collez ici le texte>
Questions :
Quels sont les objectifs de cet article ?
Quelles méthodes sont utilisées ?
Quels résultats sont discutés ?
Connected papers : https://www.connectedpapers.com/
▮ Quand l’utiliser ?
Pour cartographier un domaine, découvrir des liens entre travaux peu visibles autrement, explorer des courants de pensée ou des réseaux d’auteurs.
Elicit : https://elicit.com/
▮ Quand l’utiliser ?
En phase exploratoire : tester une question de recherche, pour une synthèse rapide, amorcer une revue ou identifier rapidement des tendances.
LittLLM : https://litllm.onrender.com/
▮ Quand l’utiliser ?
•Rédiger ou enrichir la partie “État de l’art” d’un article scientifique
•Extraire informations clés et générer des résumés ciblés
Référence :
Agarwal, Shubham et al. “LitLLM: A Toolkit for Scientific Literature Review.” ArXiv abs/2402.01788 (2024)
Notez :
- Un article trouvé qui vous paraît utile
- Un résultat intéressant (graphe ou synthèse)
- Une limite ou difficulté rencontrée
30 minutes → puis mise en commun
Rappel clé : les outils IA ne remplacent pas la recherche bibliographique classique, mais peuvent, avec esprit critique, accélérer et enrichir l’exploration documentaire et la synthèse biblio
Objectif : planifier la programmation des ateliers de l’année
▮ Solliciter vos idées via questionnaire papier :
•Thématiques ou questions que vous souhaitez explorer
•Outils ou méthodes que vous aimeriez tester
Souhaitez-vous intervenir ou seriez-vous intéressé·e pour présenter une question, un outil, une méthode ou une réflexion ?
Revue bibliographique assistée par IA
Workflow (Python) : Question → mots-clés → recherche → nettoyage → stats descriptives → analyse
Prochains ateliers – Bât H, BSE, salle créativité
Objectif : se former, tester outils et méthodes, approfondir bonnes pratiques et échanges interdisciplinaires
| Outil | Modèle / éditeur | Données sources | Fonctions clés | IA / algo | Open source |
|---|---|---|---|---|---|
| Elicit | Ought (Claude / GPT) | Semantic Scholar | Résumés, recherche par question, extraction d’infos | LLM propriétaires (Claude / GPT) | ✗ |
| LitLLM | Communauté open source | ArXiv, PubMed, Semantic Scholar, HAL | Lecture de PDF, synthèse, génération de questions, chat | LLM open source + vecteurs | ✓ |
| Connected Papers | Startup indépendante | Semantic Scholar | Cartographie visuelle, exploration de citations connexes | Graphe de similarité | ✗ |
| Outil | Critère de similarité | Connexion entre articles | Données comparées |
|---|---|---|---|
| Elicit | Proximité sémantique (titre + résumé) | Pertinence thématique / réponse à une question | Embeddings LLM (titre + résumé) |
| LitLLM | Proximité sémantique (texte intégral) | Regroupement vectoriel | Embeddings à partir du texte complet (PDF) |
| Connected Papers | Co-citations & co-références | Graphe bibliographique | Références croisées (Semantic Scholar) |
🔍 Légende
- Proximité sémantique : Calculée à partir du sens du texte (LLM).
- Embeddings : Représentation vectorielle du contenu.
- Co-citation : Deux articles sont souvent cités ensemble.
- Co-référence : Deux articles partagent les mêmes références.
- Graphe bibliographique : Carte des relations fondée sur les citations.
▮ Couverture des données et biais disciplinaires
• Très dépendants de Semantic Scholar
• Peu ou pas de publications francophones
• Faible couverture des SHS (hors psychologie, santé)
• Peu adaptés aux approches critiques ou théoriques
▮ Dépendance à l’entrée utilisateur
• Résultats très sensibles à la formulation de la question, au choix des mots clés/article
• Moins efficaces pour des questions larges ou exploratoires
• Meilleure performance pour des requêtes causales simples (effet de X sur Y)
▮ Fonctions restreintes dans la version gratuite
• Export ou sauvegarde souvent absents (PDF, Zotero, Word)
• Nombre limité de recherches ou de colonnes (Elicit, Connected Paper)
• Synthèses peu personnalisables ou incomplètes
▮ Opaques et peu auditables
• Algorithmes non open source (Elicit, Connected Paper)
• Résultats non vérifiables ni justifiables
▮ Enjeux éthiques et environnementaux
• Conformité RGPD incertaine (données, localisation)
• Coût énergétique élevé (LLM, serveurs)
• Pas d’indication sur l’impact environnemental
» Des outils qui peuvent être utiles en phase exploratoire, mais à utiliser avec recul critique.