session-3-diapo

Explorer, pas à pas, la littérature scientifique avec l’IA

Aller plus vite ou découvrir des chemins encore inexplorés ?

Claire Kersuzan (PUD-Bx, UB, MSH-Bx)
Olha Nahorna (BSE, CNRS, UB)
Karine Onfroy (BSE, UB)

Journée de rentrée du département Changes – 5/09/2025

Logo 1 Logo 2

Un atelier qui lance un cycle mensuel de 10 ateliers

▮ Soutenu par Changes et le GIS URFIST

▮ Pourquoi ce cycle ?
       • Explorer et se former à des outils & méthodes (IA & classiques)
       • Partager pratiques & questions
       • Favoriser les échanges entre pairs & disciplines
       • Réfléchir ensemble : portée, biais, RGPD, éthique, sobriété

▮ Comment ça se passe ?
       • Pause active pour stimuler la créativité
       • Discussions libres dans un cadre convivial
       • Séances de 1h30, présentiel/visio
       • Certaines ouvertes à toutes & tous, d’autres par niveau

Logo Change Logo URFIST

Objectifs de ce premier atelier

Comprendre les familles d’outils IA pour explorer la littérature
Expérimenter un chatbot local pour interroger un PDF
Tester en pratique quelques outils dédiés accessibles en ligne
Échanger collectivement sur limites et bonnes pratiques

Déroulé de la séance

Introduction – enjeux et questions de départ
Panorama guidé – de plusieurs outils IA
Exploration pratique – test par binômes/individuel
Discussion finale – retours, limites, bonnes pratiques

Étape 1

Introduction – enjeux et questions de départ

Pourquoi explorer la littérature avec l’IA

Trouver rapidement des articles pertinents
Visualiser les liens entre travaux, auteurs, concepts
Identifier des champs émergents ou controversés
Initier une veille ou un état de l’art rapide
S’inspirer pour construire/affiner sa problématique

Questions à se poser avant de commencer

Mon sujet est-il bien défini ?
Objectif : explorer, synthétiser, interroger ?
Ai-je déjà des références de départ ?
Quels concepts/mots-clés (synonymes, traduction) tester ?

Étape 2

Panorama guidé – Quelques outils IA pour explorer la littérature

De nombreux outils IA pour explorer la littérature ?

Une innovation déclencheuse
- 2023 : ChatGPT/OpenAI → percée médiatique et scientifique
Une vague de nouveaux acteurs
- Startups spécialisées → outils ciblés (Elicit, Research Rabbit, Consensus…)
- Acteurs académiques → innovations (Semantic Scholar, Litmaps…)
Une intégration progressive
- Grands éditeurs (Elsevier, Clarivate) ajoutent des fonctions IA à Scopus AI, Web of Science AI, etc.

Tendance : après la prolifération, certains outils disparaissent → rester attentif à ce qui dure.

Trois familles d’outils

Famille	Exemples	Objectif principal
Explorer / cartographier	Connected Papers, Research Rabbit	Visualiser les liens entre articles
Synthétiser / interroger	Elicit, LitLLM, Scispace	Générer synthèses, extraire infos
Lire / discuter avec PDF	ChatBox, PaperQA2, ChatDOC, AnythingLLM	Interroger directement un texte

Tester ChatBox, Connected Papers, Elicit et LittLLM

🇫🇷 Exemple de question

Quels sont les impacts de la marche sur la santé, l’économie et la société ?

Mots-clés

marche, santé publique, activité physique, bien-être, inclusion sociale, cohésion sociale, coûts de santé, transport actif, économie locale

Article de départ

Les retombées économiques de la marche – Faure & Héran, 2024

🇬🇧 Research question

What are the health, economic, and social impacts of walking?

Keywords

walking, public health, physical activity, wellbeing, social inclusion, social cohesion, healthcare costs, active transportation, local economy

Starting article

The value of walking – Wohlrab et al., 2022 https://doi.org/10.1186/s11556-022-00310-3

Exemple 0 : Interroger un PDF avec un chatbot local

ChatBox : https://github.com/chatboxai/chatbox

Permet de poser des questions directement à un PDF ou un texte scientifique sans coder (interface similaire à ChatGPT)
Connecté à un serveur Ollama Huma-Num (merci!) pour le traitement des modèles (ex. mistral-8x7b ou gpt-oss)
Avantages : ressources de calcul, données hébergées sur serveur Huma-Num (respect du RGPD, idéal pour documents sensibles)

▮ Quand l’utiliser ?
Pour explorer un article en profondeur, poser des questions ciblées, générer un résumé ou synthèse locale.

Prérequis

ChatBox installé
URL temporaire du serveur Huma-Num ( https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/)
Article PDF

Installer et connecter ChatBox

Télécharger ChatBox : https://github.com/chatboxai/chatbox/releases\
Ouvrir Paramètres → Fournisseur de modèle → choisir Ollama
Coller l’URL temporaire du serveur dans Hôte API : https://llm-tools-alpha.huma-num.fr/atelierBordeaux_alia12AGHA/
Dans la fenêtre Modèle, cliquer sur Récupérer, puis sélectionner mistral-8x7b
Lancer une nouvelle conversation, vérifier que le modèle sélectionné est bien mistral-8x7b

Préparer le PDF

Ouvrir le PDF dans Adobe Reader
Menu : Fichier → Enregistrer sous → Texte (.txt)
Vérifier le texte

Alternative rapide : copier-coller depuis le PDF si court

Poser vos questions dans ChatBox

Copier le texte du fichier .txt
Dans la conversation ChatBox (modèle sélectionné), ajouter :

Voici le texte de l’article : <collez ici le texte>

Questions :

Quels sont les objectifs de cet article ?
Quelles méthodes sont utilisées ?
Quels résultats sont discutés ?

Envoyer. Le modèle répond dans la discussion.

Astuces et dépannage

PDF long : commencez par le résumé, l’introduction ou découpez en sections.
Premier message lent : normal si le modèle vient d’être (re)chargé par le serveur.
Plusieurs articles : faites un court résumé pour chacun, puis demandez une synthèse globale en collant tous les résumés.

Exemple 1: Explorer par graphe

Connected papers : https://www.connectedpapers.com/

À partir d’un article clé (DOI ou titre) → graphe interactif des publications proches
Identifier articles fondamentaux, récents ou connexes
Gratuit, pas de compte nécessaire, graphes limités/jour
Utilise l’IA pour calculer similarités sémantiques
Limites : quasi exclusivement anglophone, SHS moins couvertes

▮ Quand l’utiliser ?
Pour cartographier un domaine, découvrir des liens entre travaux peu visibles autrement, explorer des courants de pensée ou des réseaux d’auteurs.

Exemple 2 : Explorer la littérature par question

Elicit : https://elicit.com/

Poser une question en anglais (ex. : What are the effects of X on Y?) → sélection d’articles depuis Semantic Scholar + extraction de méthodes, résultats, objectifs, etc.
Organiser et filtrer dans un tableau (2 colonnes gratuit)
Générer rapport automatique (Research Report) ou synthèse ciblée sur un concept (Summarize Concept)
Gratuit avec création de compte, export limité

▮ Quand l’utiliser ?
En phase exploratoire : tester une question de recherche, pour une synthèse rapide, amorcer une revue ou identifier rapidement des tendances.

Exemple 3 : Explorer par mot(s)-clé(s)

LittLLM : https://litllm.onrender.com/

Accès à ArXiv, PubMed, Semantic Scholar
Téléversement de PDF et interrogation en langage naturel
Open source, idéal pour synthèses scientifiques et revue de littérature

▮ Quand l’utiliser ?
•Rédiger ou enrichir la partie “État de l’art” d’un article scientifique
•Extraire informations clés et générer des résumés ciblés

Référence :
Agarwal, Shubham et al. “LitLLM: A Toolkit for Scientific Literature Review.” ArXiv abs/2402.01788 (2024)

Étape 3

Exploration pratique – À vous de tester !

Consignes pratiques

Travaillez seul·e ou en binôme
Choisissez un outil (Elicit, LitLLM ou Connected Papers)
Testez-le à partir de votre thématique

Notez :
- Un article trouvé qui vous paraît utile
- Un résultat intéressant (graphe ou synthèse)
- Une limite ou difficulté rencontrée

30 minutes → puis mise en commun

Étape 4

Discussion finale – Retours, limites, bonnes pratiques et perspectives

Retours d’expérience

Articles et/ou résultats trouvés ?
Outils utiles ou difficultés rencontrées
Échanges rapides entre participants

Limites et points d’attention

Couverture inégale : SHS, francophonie, qualitatif, certaines bases de publications
Dépendance aux mots-clés, formulation et langue
Versions gratuites limitées
Algorithmes opaques et enjeux RGPD / environnementaux

Bonnes pratiques synthétiques

Définir une question claire et ciblée
Varier mots-clés et synonymes, croiser sources et outils
Vérifier systématiquement la pertinence des articles
Documenter ses stratégies et garder un esprit critique
Respecter confidentialité et données personnelles

Rappel clé : les outils IA ne remplacent pas la recherche bibliographique classique, mais peuvent, avec esprit critique, accélérer et enrichir l’exploration documentaire et la synthèse biblio

Recueil des besoins pour le cycle annuel

Objectif : planifier la programmation des ateliers de l’année

▮ Solliciter vos idées via questionnaire papier :
•Thématiques ou questions que vous souhaitez explorer
•Outils ou méthodes que vous aimeriez tester

Souhaitez-vous intervenir ou seriez-vous intéressé·e pour présenter une question, un outil, une méthode ou une réflexion ?

Perspectives et futurs ateliers

Revue bibliographique assistée par IA
Workflow (Python) : Question → mots-clés → recherche → nettoyage → stats descriptives → analyse

Prochains ateliers – Bât H, BSE, salle créativité

18 ou 25 sept. (16h-17h30) : M. Peyronnet (Comptrasec) – IA et droit
16 ou 23 oct. : N. Charles (CED) – Projet de recherche intégrant l’IA
20 nov. : ? selon besoins (questionnaire)
8-12 déc. (Semaine Data-SHS) : A. Lakel (MICA), Olha, autres – LLMs et SHS, Hyperbase, réseaux, Python/R, WebScraping, Topic model
27-28 mai 2026 : Econom’IA workshop – Cergy (FR)

Objectif : se former, tester outils et méthodes, approfondir bonnes pratiques et échanges interdisciplinaires

Elements en plus (si questions)

Outils explorés

Outil	Modèle / éditeur	Données sources	Fonctions clés	IA / algo	Open source
Elicit	Ought (Claude / GPT)	Semantic Scholar	Résumés, recherche par question, extraction d’infos	LLM propriétaires (Claude / GPT)	✗
LitLLM	Communauté open source	ArXiv, PubMed, Semantic Scholar, HAL	Lecture de PDF, synthèse, génération de questions, chat	LLM open source + vecteurs	✓
Connected Papers	Startup indépendante	Semantic Scholar	Cartographie visuelle, exploration de citations connexes	Graphe de similarité	✗

Critères de similarité & connexions

Outil	Critère de similarité	Connexion entre articles	Données comparées
Elicit	Proximité sémantique (titre + résumé)	Pertinence thématique / réponse à une question	Embeddings LLM (titre + résumé)
LitLLM	Proximité sémantique (texte intégral)	Regroupement vectoriel	Embeddings à partir du texte complet (PDF)
Connected Papers	Co-citations & co-références	Graphe bibliographique	Références croisées (Semantic Scholar)

🔍 Légende
- Proximité sémantique : Calculée à partir du sens du texte (LLM).
- Embeddings : Représentation vectorielle du contenu.
- Co-citation : Deux articles sont souvent cités ensemble.
- Co-référence : Deux articles partagent les mêmes références.
- Graphe bibliographique : Carte des relations fondée sur les citations.

Limites des outils IA pour explorer la littérature (1/2)

▮ Couverture des données et biais disciplinaires
       • Très dépendants de Semantic Scholar
       • Peu ou pas de publications francophones
       • Faible couverture des SHS (hors psychologie, santé)
       • Peu adaptés aux approches critiques ou théoriques

▮ Dépendance à l’entrée utilisateur
       • Résultats très sensibles à la formulation de la question, au choix des mots clés/article
       • Moins efficaces pour des questions larges ou exploratoires
       • Meilleure performance pour des requêtes causales simples (effet de X sur Y)

Limites des outils IA pour explorer la littérature (2/2)

▮ Fonctions restreintes dans la version gratuite
       • Export ou sauvegarde souvent absents (PDF, Zotero, Word)
       • Nombre limité de recherches ou de colonnes (Elicit, Connected Paper)
       • Synthèses peu personnalisables ou incomplètes

▮ Opaques et peu auditables
• Algorithmes non open source (Elicit, Connected Paper)
• Résultats non vérifiables ni justifiables

▮ Enjeux éthiques et environnementaux
       • Conformité RGPD incertaine (données, localisation)
       • Coût énergétique élevé (LLM, serveurs)
       • Pas d’indication sur l’impact environnemental

» Des outils qui peuvent être utiles en phase exploratoire, mais à utiliser avec recul critique.