Thèse IA de Confiance pour l'Aide à la Décision Clinique Agents Augmentés par Graphes de Connaissances et Contrats Sémantiques H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Marie et Louis Pasteur École doctorale : SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques Laboratoire de recherche : Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies Direction de la thèse : Michel SALOMON ORCID 0000000211192760 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-22T23:59:59 Cette thèse propose un middleware neuro-symbolique qui empêche l'interprétation directe par des LLM de dossiers médicaux électroniques (DME) bruts ou de données médicales. Dans cette conception, les agents LLM interagissent exclusivement via une API sémantique clinique adossée à un graphe de connaissances médical formel et régie par des contrats sémantiques.
Un principe de conception critique est que cette architecture est indépendante des tâches. La même couche ontologique et le même catalogue de contrats gouvernent la récupération des données, la génération de comptes rendus de sortie, le codage clinique automatisé (CIM-10/CCAM), la vérification des interactions médicamenteuses et l'audit de conformité des parcours de soins. Les contrats définissent ce que l'agent est autorisé à savoir et à faire - et non le type de tâche qu'il exécute. En déplaçant le raisonnement clinique vers un graphe de connaissances déterministe, l'architecture comble également l'écart de capacités des modèles plus petits, souverains et déployés sur site [5, 11].
La thèse explorera deux axes de recherche interdépendants. Leur périmètre précis, leur priorisation et leur méthodologie seront affinés lors de la phase initiale de revue de littérature, en collaboration avec le doctorant. Les axes ci-dessous constituent une feuille de route, et non une prescription rigide.
Construction du graphe de connaissances cliniques. Comment construire automatiquement et enrichir en continu un graphe de connaissances médical à partir de données cliniques françaises hétérogènes - codes structurés (CIM-10, CCAM, ATC), DME semi-structurés et notes médicales non structurées ? La recherche examinera comment les LLM peuvent soutenir l'extraction automatique d'informations et comment les connaissances obtenues peuvent être structurées en représentations standardisées et interopérables compatibles avec les modèles de données de santé établis (FHIR, OMOP, SNOMED-CT, LOINC) [6, 7, 10]. Garantir la qualité, la cohérence et la validité clinique du graphe de connaissances construit constitue une question centrale encore ouverte.
Agents LLM contraints via des contrats sémantiques. Comment concevoir et évaluer des agents LLM dont les limites opérationnelles sont strictement régies par des contrats formels ? La thèse explorera des formalismes tels que les contrats d'agents [8] - des tuples unifiant spécifications d'entrée/sortie, contraintes de schéma, règles cliniques, exigences de traçabilité et contraintes réglementaires (RGPD) - et les évaluera sur plusieurs types de tâches cliniques (recherche d'information, génération de rapports, codage clinique, vérification des interactions médicamenteuses) afin d'évaluer l'universalité de l'approche pilotée par les contrats. Les principales dimensions d'évaluation incluent la réduction du taux d'hallucinations, la précision clinique, la traçabilité du raisonnement et la latence des réponses par rapport à des bases de référence non contraintes.
Stratégie de validation :
L'évaluation ira au-delà des métriques NLP standard (BLEU, ROUGE) pour se concentrer sur la fiabilité et la sécurité cliniques. Le doctorant définira des protocoles d'évaluation cliniquement pertinents, incluant des évaluations de la cohérence clinique par rapport aux recommandations établies, les taux de violation des contrats, l'exhaustivité de la traçabilité et des comparaisons avec des LLM non contraints dans des scénarios cliniques réalistes. Une évaluation avec intervention humaine (human-in-the-loop) mesurera l'utilité du système comme outil d'aide à la décision augmentée. Le système final devra préserver l'autorité décisionnelle complète du clinicien ; l'IA fournissant une couche analytique traçable plutôt que des prescriptions autonomes. The rapid integration of Large Language Models (LLMs) into clinical workflows presents a fundamental tension: while generative agents offer unprecedented capabilities for processing unstructured medical narratives, their stochastic nature conflicts with the deterministic safety requirements of medical practice. Within the European and French regulatory landscape-defined by the EU AI Act, GDPR, and the HDS (Hébergeur de Données de Santé) certification-deploying clinical AI is simultaneously a performance challenge and a sovereignty mandate. Healthcare institutions require systems that operate on-premise while providing rigorous, auditable decision support.
Current approaches to clinical AI suffer from three critical shortcomings:
1. Stochastic hallucination. LLMs connected directly to Electronic Health Record (EHR) databases may fabricate treatment histories, invent contraindications, or generate clinically plausible but factually incorrect information [1].
2. Protocol deviation. Unconstrained agents frequently prioritize statistically likely outputs over formal medical guidelines (HAS, ANSM), producing recommendations that are linguistically fluent but clinically inappropriate [2].
3. Lack of traceability. Direct database-to-LLM pipelines provide no symbolic reasoning trail, making it impossible for clinicians to audit the logic behind a recommendation-a requirement under the EU AI Act for high-risk systems [3].
These risks are not theoretical: prescribing errors and adverse drug events affect up to 7% of hospitalized patients [4]. The central scientific position of this thesis is that the path forward is not to make the LLM smarter, but to formally constrain it through a symbolic middleware that structurally guarantees patient safety.
Le profil recherché
Nous recherchons un candidat titulaire d'un master (au moment de l'inscription en thèse en Octobre 2026) en informatique ou dans un domaine connexe, justifiant d'une expérience avérée dans au moins deux des domaines suivants : traitement du langage naturel, représentation des connaissances et raisonnement (graphes de connaissances, ontologies), architecture logicielle et apprentissage automatique. Une bonne connaissance des normes relatives aux données de santé (FHIR, CIM-10, SNOMED-CT) et des cadres réglementaires (RGPD, loi européenne sur l'IA) est un atout, mais n'est pas obligatoire. De solides compétences en programmation (Python) et la capacité à maîtriser à la fois les techniques de spécification et de vérification formelles (conception par contrat, surveillance d'exécution, satisfaction de contraintes) et l'évaluation empirique sont essentielles.
Critères de sélection préférentiels :
- Les candidats doivent avoir une expérience en IA - réseaux neuronaux, plus particulièrement les LLM / réseaux profonds, et les frameworks de programmation informatique pour l'apprentissage profond utilisant Python.
- Une maîtrise raisonnable de l'anglais (écrit et parlé) est requise.
Qualités personnelles :
- Compétences interpersonnelles
- Dynamisme et rigueur
- Capacité à travailler en équipe
Les candidats sont invités à envoyer leur candidature aux encadrants de thèse.
Le dossier de candidature doit comprendre les documents suivants :
- CV
- Lettre de motivation
- Au moins une lettre de recommandation
- Copie du diplôme de master, si déjà disponible
- Copie du relevé de notes final et du classement