# Outil de génération de bases de données synthétiques et réalistes du SNIIRAM
# Objectifs de l’algorithme
L’objectif de cet outil est de générer des versions synthétiques, sans contrainte de diffusion, de la base de données du SNIIRAM. Il cherche à répondre aux besoins d’utilisation du SNIIRAM, tels que l’enseignement de son utilisation ou l’évaluation de solutions logicielles.
Ces usages ne nécessitent pas de données réelles, mais seulement des données statistiquement réalistes ou réalistes sur certains aspects thématiques à évaluer, en particulier les parcours de soins individuels cohérents.
L’outil est composé d’un moteur de génération de données synthétiques dont les paramètres d’entrée sont :
- D’une part, des distributions de population et de prestations ;
- Et d’autre part, des descriptions de parcours de soins typiques (par exemple : enchaînement d’actes délivrés aux patients, selon leurs conditions et avec des contraintes temporelles).
Le moteur génère des données de patients synthétiques qui respectent ces parcours et ces distributions, leur donnant ainsi un caractère réaliste. Le moteur de génération concrétise les données sous la forme d’une base de données qui respecte le schéma du SNIIRAM. L’outil propose également une solution pour estimer les distributions qui ne nécessitent aucune donnée individuelle. La donnée synthétique qui en résulte est ainsi non-sensible et partageable immédiatement sans restriction. Cet outil met à disposition trois scénarios de génération qui peuvent être utilisés directement : une population non-thématique, une base de données reproduisant la survenue de décès post-AVC et une base de données reproduisant les prises en charge de patientes atteintes de cancer du sein.
# Méthodologie
Le besoin de pouvoir évaluer efficacement des solutions logicielles sur le SNIIRAM ou encore de permettre de faire découvrir le contenu de cette base de données a conduit à développer un outil de génération de données synthétiques. D’un côté, la solution proposée par la Plateforme des données de santé (PDS) permet d’explorer les tables, mais celle-ci manque de réalisme. D’un autre côté, les solutions basées sur des méthodes d’apprentissage automatiques pour reproduire fidèlement des distributions contraignent les possibilités d’utilisation de leurs produits.
La solution originale et intermédiaire que nous avons choisie est d’apporter du réalisme en utilisant des distributions de population et de prestation à partir de données agrégées en libre accès (non-individuelles) et de pouvoir les combiner avec des descriptions expertes, issues d’article de la littérature scientifique ou de certaines trajectoires de soins (par exemple : survie après AVC, traitement du cancer du sein). Notre outil augmente ainsi le réalisme des données sans avoir à gérer les contraintes de diffusion des bases synthétiques.
Ces dimensions de réalisme sont insuffisantes pour être utilisées pour faire de l’évaluation médicale, mais elles permettent de répondre aux besoins d’évaluation technique des algorithmes ou à l’enseignement.
La modélisation statistique des populations est faite par la modèle bayésien relationnel. Les paramètres de ce modèle ont été choisis selon leur ajustement possible à partir de données en libre accès. Concernant la modélisation des parcours pour les patients, l’API du code définit des concepts de haut niveau pour définir des parcours.
Les limites actuelles de l’outil sont :
- Son champs d’application limité à la partie de description des soins du SNIIRAM (les aspects économiques n’ont pas été abordé) ;
- La génération est limitée à une période d’un an ;
- Il n’existe pas d’interface facilitant l’adaptation à un nouveau scénario (nécessite de coder un scénario en Python) ;
- Le simulateur n’intègre pas d'erreurs usuelles rencontrées dans les données (par exemple : duplications d’informations, certaines incohérences constatées, etc.).
# Langage de programmation
- Python
# Auteur
- Thomas Guyet (INRIA)
# Réferences
Outil de génération de bases de données synthétiques et réalistes du SNIIRAM (opens new window)