DNP

Mettre des grands modèles de langage auto-hébergés au service de l’Institut universitaire en santé mentale Douglas

Gabriel Devenyi

Gabriel Devenyi, PhD

8 min de lecture

Les grands modèles de langage font désormais partie du travail clinique et de recherche au quotidien : rédaction de documentation, synthèse de la littérature, exploration de données. Mais les modèles commerciaux les plus performants sont hébergés par des tiers, et les utiliser signifie envoyer son texte — y compris, potentiellement, des renseignements sensibles sur les patients — vers des serveurs hors du contrôle de l’établissement. Pour un hôpital en santé mentale, c’est un problème à résoudre plutôt qu’à accepter.

La Plateforme de neuroinformatique Douglas s’y attaque directement : nous déployons des grands modèles de langage à poids ouverts sur notre propre matériel, servis localement aux cliniciens et aux chercheurs de l’Institut universitaire en santé mentale Douglas. Rien ne sort des murs.

Les modèles

Nous avons retenu un ensemble de modèles à poids ouverts complémentaires pour couvrir l’éventail des besoins cliniques et de recherche :

Offrir plusieurs modèles a son importance. Aucun modèle unique n’excelle en tout, et pouvoir diriger une tâche de synthèse clinique vers MedGemma tout en envoyant une tâche multilingue ou de code vers Qwen ou Gemma donne aux utilisateurs le bon outil sans compromis.

Le service avec vLLM

Tous ces modèles sont servis au moyen de vLLM, un moteur d’inférence conçu pour un service à haut débit et à faible latence. Le traitement par lots continu (continuous batching) et l’attention paginée (paged attention) de vLLM permettent à un seul serveur GPU de gérer efficacement de nombreux utilisateurs simultanés, et son API compatible avec celle d’OpenAI fait que les outils et scripts existants fonctionnent avec notre point d’accès local moyennant des modifications minimes — il suffit de les pointer vers notre URL interne plutôt que vers celle d’un fournisseur.

Cette compatibilité est un choix délibéré. Les chercheurs peuvent continuer à utiliser les bibliothèques et les intégrations d’éditeur qu’ils connaissent déjà, et les cliniciens disposent d’interfaces de clavardage familières, pendant que chaque requête est discrètement traitée à l’intérieur de l’institut.

Pourquoi le local est important : la sécurité des données des patients

La raison centrale de ce travail est la sécurité des données. Les dossiers de santé mentale comptent parmi les données les plus sensibles que détient un hôpital, et ils portent à la fois une protection juridique et une forte obligation éthique. Envoyer ces données vers une API externe crée des risques réels :

L’auto-hébergement élimine ces risques à la source. Lorsque le modèle s’exécute sur du matériel administré par la plateforme, sur le réseau de l’institut :

Résultat : un clinicien peut utiliser un modèle de langage pour aider à rédiger une note ou résumer un dossier, et un chercheur peut analyser des données d’étude sensibles avec l’aide d’un modèle, sans que l’un ou l’autre ait à arbitrer entre productivité et risque d’exposer des renseignements sur les patients. L’option sûre devient l’option par défaut.

Aider les groupes à retirer les RP de leurs données

Le service local règle le problème de la transmission, mais de nombreux groupes de recherche et cliniques doivent aussi nettoyer les renseignements identifiants de leurs propres jeux de données avant de les partager, de les analyser ou de les archiver. C’est difficile à faire correctement à la main, et « il suffit d’effacer les noms » laisse passer les dates, les adresses, les numéros de dossier et les nombreuses autres façons d’identifier une personne dans du texte libre. La plateforme aide les groupes dans cette tâche directement.

Nous appuyons le retrait des renseignements personnels (RP) à l’aide de deux modèles ouverts de classification de jetons conçus pour cette fin :

Ces modèles font de la classification de jetons plutôt que de la génération : ils localisent donc se trouvent les segments sensibles sans réécrire le contenu environnant. Un groupe peut ainsi appliquer la politique qu’il lui faut — caviarder, pseudonymiser ou signaler — et réviser les résultats avant toute publication ou tout transfert. Le modèle bilingue gère notre mélange français/anglais; le modèle de base offre une option éprouvée pour les jeux de données surtout anglophones.

Comme les modèles de langage, ces outils s’exécutent localement, de sorte que les données nettoyées ne quittent jamais l’institut pendant le processus. La plateforme travaille avec chaque groupe pour adapter les outils à ses données et à son flux de travail, transformant la dépersonnalisation d’une corvée manuelle en une étape soutenue et reproductible.

La suite

Ce déploiement est la fondation d’un ensemble plus large d’outils — recherche documentaire interne, extraction structurée à partir de texte clinique, assistants axés sur la recherche — tous bâtis sur une infrastructure qui garde les données là où elles doivent rester. À mesure que les modèles à poids ouverts s’améliorent, une pile servie localement permet au Douglas d’adopter de nouvelles capacités selon ses propres conditions, sans renégocier la sécurité des données à chaque fois.

Les modèles de langage locaux ne sont pas un compromis sur la capacité. Ils sont la façon dont un institut en santé mentale tire profit de l’IA moderne tout en préservant intacte sa première obligation : protéger les personnes dont il a la charge.

Pourquoi une équipe comme la PNI est essentielle

Rien de tout cela ne se fait par défaut. Sélectionner des modèles, monter des serveurs GPU, configurer vLLM, sécuriser les points d’accès, intégrer l’authentification, soutenir le retrait bilingue des RP et faire fonctionner l’ensemble est un travail spécialisé qui dépasse largement la formation des cliniciens et des chercheurs — et au-delà de ce que la plupart d’entre eux ont le temps ou le mandat d’assumer. Laissée aux individus, la décision pratique se réduit à deux mauvaises options : coller des données sensibles dans le premier outil commercial venu, ou se passer entièrement de l’IA moderne.

Une équipe de neuroinformatique dédiée fait disparaître ce dilemme. La Plateforme de neuroinformatique Douglas existe précisément pour porter ce fardeau technique et opérationnel au nom de l’institut :

C’est l’argument central en faveur de l’intégration d’une plateforme comme la PNI au sein d’un hôpital de recherche. Les capacités décrites ici — des modèles locaux performants, servis de façon sûre, avec un soutien à la confidentialité pour ceux qui les utilisent — ne sont pas réellement accessibles à un clinicien ou à un chercheur agissant seul. Elles le deviennent lorsqu’un établissement investit dans une équipe dont le travail consiste à les bâtir, à les sécuriser et à les maintenir. C’est cette équipe qui transforme « l’IA moderne, mais seulement si vous acceptez le risque pour la vie privée » en « l’IA moderne, sur une infrastructure à laquelle vous pouvez vous fier ».