# Transformer le SNDS au format OMOP : Contexte
La France dispose d'une des bases de données médico-administratives les plus complètes et homogènes au monde : Le Système National des Données de Santé (SNDS). Cette base de données, initialement destinée à la gestion financière de l’Assurance Maladie, a longtemps été sous-exploitée pour la recherche en santé en raison de sa complexité.
Dans ce contexte, le Health Data Hub a été lauréat de deux appels à projets EHDEN (opens new window). A travers un appui financier et un accompagnement humain, ce consortium européen aide ses partenaires à transformer leurs données de santé au format standard OMOP (opens new window) et ainsi pouvoir les mettre en commun pour mener des études de recherche à l’échelle européenne. Ces études permettent notamment de mieux comprendre le développement des maladies et ainsi d'améliorer les soins prodigués aux patients.
Dans le cadre du premier appel à projet, le Health Data Hub a converti un échantillon de 300 000 patients de la base principale du SNDS au format OMOP. Cet échantillon concerne des patients ayant reçu un diagnostic hospitalier de Covid-19 entre janvier et mai 2020. Il comprend leurs données générées de janvier 2019 à mai 2020 (SNDS Fast Track) (opens new window).
Le deuxième appel à projet a concerné un élargissement du périmètre du SNDS à standardiser. Le nouvel échantillon contient les données de 3 millions de patients choisis aléatoirement dans le SNDS, pour les années 2015 à 2021.
Créé par la communauté ODHSI (opens new window), le modèle de données commun OMOP a été créé dans le but de faciliter le déroulement d'études observationnelles, fédérées et à grande échelle. Centré sur une table “patient”, son schéma permet de suivre facilement les parcours de soins. La standardisation au format OMOP comporte deux enjeux : la standardisation syntaxique, c’est-à-dire la structuration de la base en tables et variables standards, et la standardisation sémantique, c'est-à-dire l’utilisation de vocabulaires et terminologies communes pour décrire les événements médicaux intervenant lors des interactions entre le patient et le système de santé (Diagnostics, Procédures, Médicaments, Mesures, Dispositifs médicaux).
La standardisation syntaxique se divise en deux phases, l’écriture de règles de correspondance entre les tables et variables du SNDS, présentées dans cette documentation, et le développement de scripts SQL effectuant la transformation. Ces scripts sont disponibles sur un dépôt GitLab (opens new window) du Health Data Hub.
La standardisation sémantique recouvre la traduction des terminologies du SNDS vers des terminologies standards, telles que SNOMED-CT (opens new window). Cette étape a été réalisée par des internes en médecine sur plusieurs milliers de codes de différentes nomenclatures (CCAM, NABM, CSARR, LPP, etc).
La validation de la qualité de la base de données standardisée a ensuite été réalisée avec les outils de qualité open-source d’OHDSI, tels que Achilles (opens new window) et DataQualityDashboard (opens new window).
Ce travail a permis de réduire de 180 à une vingtaine, le nombre de tables de l’échantillon SNDS, en gardant uniquement les informations les plus pertinentes dans le cadre d'études observationnelles, et facilité la lecture des parcours de soin.
Accéder au code source
Le code source est disponible sur le dépôt Gitlab suivant (opens new window)