Projet pmeasyr : interview exclusive

Nous signalons le projet pmeasyr, package en R, le langage dédié aux statistiques bien connu des DIM, qui permet de réaliser des analyses PMSI en toute autonomie, y compris sur de grosses bases PMSI de plusieurs 100 000 lignes. Il s’agit d’un projet open source, né à l’AP-HP, qui gère tous les champs du PMSI (MCO, SSR, PSY, HAD et ACE). Découvrir pmeasyr en vidéo
Quelques résultats possibles avec pmeasyr :
# séjours MCO avec un code ou une famille de codes diagnostics quelles que soient leurs positions DP, DR ou DAS (ex : séjours avec un code d’épilepsie)
# séjours MCO avec l’acte EBLA003 « Pose d’un cathéter relié à une veine profonde » quelle que soit le RUM dans lequel est codé l’acte
# file active des patients avec un code d’obésité en E66 dans l’établissement et/ou selon la position de codage du code d’obésité
# file active d’une chirurgie en distinguant les activités CCAM
# DMS sur les séjours de plus de 0 jour
# DMS par GHM/GHS

Pour en savoir plus, nous avons interviewé Guillaume PRESSIAT, à l’initiative de ce projet, qui a bien voulu répondre à nos questions.

Bonjour Monsieur PRESSIAT. Quelques mots d’introduction sur le projet pmeasyr. Pouvez-vous nous dire comment est né ce projet au sein du DIM de l’AP-HP ? Pour répondre à quels besoins d’analyses PMSI que ne satisfont pas les logiciels actuels d’analyse PMSI et de statistiques ?

Bonjour, au départ l’idée était de privilégier un logiciel que j’ai plaisir à utiliser. Il ne s’agit pas d’abandonner les autres logiciels pour autant, mais R peut concentrer la plupart des étapes d’une étude : importer les données, faire les analyses, produire un document de présentation des résultats en vue de leur communication. On jongle trop souvent entre plusieurs logiciels, ce qui est source d’erreurs et de confusion.

Le projet est donc né d’un besoin que je partage avec des médecins Dim, internes en santé publique et statisticiens d’avoir accès aux données avec une certaine liberté d’usage, au niveau séjour, si possible sans logiciel du marché. Je ne détaillerai pas ici l’historique du projet : essentiellement, en 2016, la création d’un groupe d’utilisateurs R parmi les Dim AP-HP a ouvert le package à d’autres utilisateurs, et permis d’officialiser l’utilisation du package. La diffusion en dehors de l’AP-HP via github a été actée, avec l’idée suivante : ceux qui ont besoin d’une telle solution peuvent l’utiliser, et l’améliorer en participant s’ils le souhaitent.

Les requêtes possibles sont assez illimitées (limitées par les idées de l’utilisateur et les données). Pour donner un exemple différent de ceux présentés sur le site, il est assez aisé et rapide de faire du chaînage intra/inter champs et ainsi de décrire les parcours de patients. On peut aussi aisément faire des cartographies et visualisations interactives dans R.

Quelle équipe travaille aujourd’hui sur le développement de pmeasyr à l’AP-HP ?

Je suis le développeur de pmeasyr et j’ai autour de moi des collègues statisticiens et des médecins Dim qui utilisent le package, m’apportent leurs idées, remarques et commentaires.

Je tiens à remercier les membres du groupe des utilisateurs de R à l’AP-HP. Particulièrement, le Dr Namik Taright (DIM Siège – DOMU – AP-HP) pour son encadrement et ses idées, le Dr Kristel Cosker (HU Pitié Salpêtrière) pour son utilisation du package, sa disponibilité, et l’ensemble de ses remarques ainsi que le Dr Rémi Flicoteaux (HU Saint Louis Lariboisière) pour sa motivation et les pistes de travail qu’il propose.

Les DIM des différents établissements de l’AP-HP travaillent-ils avec pmeasyr ? Quels sont leurs retours ?

Des Dim de l’AP-HP utilisent le package en effet, leurs retours me permettent d’améliorer la documentation et le package lui-même. Des retours positifs concernent justement la documentation qui permet de bien démarrer ; un autre retour m’a été fait sur la facilité d’utilisation du package. Un retour plus négatif concerne les années prises en charge par le package (l’année de départ est 2011), alors que pour certaines études cliniques (cohortes) il est nécessaire d’avoir des données plus anciennes : dans ce cas pmeasyr ne convient pas. J’explique ce point de départ en 2011 par le fait que, à partir de cette année, les formats sont devenus plus homogènes.

Avez-vous des contacts avec d’autres CH ? Certains d’entre eux travaillent-ils déjà ou ont-ils vocation à travailler sur pmeasyr ?

J’ai eu des contacts venant de plusieurs CH de par la France. J’ai découvert cette dimension intéressante dans l’ouverture d’un outil : échanger avec des personnes exerçant le même métier que nous mais dans des catégories d’établissements différentes. Leurs questions concernent l’installation de pmeasyr, le format des données, ou bien sont inhérentes aux outils de l’ATIH et aux transmissions lamda, et parfois concernent R en général. Leurs retours sur le package sont plutôt positifs.

Lors de l’ouverture du package, nous avions pensé à son utilisation dans le cadre de la mise en place des GHT : mise en commun des données PMSI (elles sont au même format), activité, file active, étude des parcours de patients en intra GHT…

Aujourd’hui pmeasyr importe les zip «officielles » .in et .out produits par les logiciels ATIH après groupage dans les différents champs PMSI. Selon notre expérience, pour de nombreux établissements, produire et accéder en toute fluidité à ces .zip n’est pas évident. Est-il prévu que pmeasyr puisse, à l’avenir, importer et travailler à partir de simples fichiers « bruts » de production (fichiers de rss, de rhs, de rpss, vid-hosp, fichcomp, et…) ?

Mon travail se situe entre les hôpitaux et la transmission ATIH (description d’activités, calculs de valorisations, etc.). Donc les données que j’utilise principalement sont les out, prêtes à être transmises sur epmsi et en accord avec la donnée officielle qui figurera dans la base nationale. L’avantage étant qu’il est possible de “faire le pont” avec les données in en récupérant les numéros administratifs locaux des séjours, avec les fichiers tra.

Mais dans les hôpitaux la demande peut être différente, c’est plus le in qui est intéressant. C’est d’ailleurs un autre retour des Dim AP-HP, souvent leur besoin est d’étudier des données avant transmission. Techniquement c’est possible pour le MCO avec pmeasyr puisque l’import des in est pris en charge, il suffit de nommer le fichier brut finess.annee.mois.rss.txt, mais pour le SSR je n’ai pas rédigé les fonctions d’imports des in. Il y a là une piste d’évolution.

Si ce besoin est urgent, une autre piste pour étudier les données brutes avant transmission dans R est de se connecter avec R à la base de données / outil de recueil dans lequel sont les données, ou exporter ces données au format texte (en csv par exemple) et importer dans R ces fichiers texte (avec le package readr par exemple), sans passer par pmeasyr pour l’import des données.

R est maintenant un langage bien connu des DIMs et ses qualités sont reconnues (gratuité, base de connaissances facilement accessible, importante communauté garante de sa pérennité, performance en volume, fonctionnalité et rapidité). Toutefois, d’après nos échanges avec de nombreux DIM, démarrer avec R « fait peur » (interface austère, installation, premiers imports, premières requêtes). Qu’auriez-vous à dire aux DIM à ce sujet ?

Les langages de programmation, dont R fait partie, peuvent faire peur. Prenons une analogie classique : faire du vélo pour la première fois, cela fait un peu peur, pourtant ensuite le “savoir faire” du vélo est une chose utile et agréable. C’est pareil pour la programmation. En plus, avec la communauté R et la documentation sur internet, il devient de plus en plus facile de trouver réponses aux questions que l’on se pose. Si l’on peut avoir peur de débuter, il ne faut pas avoir peur de poser des questions (autour de soi, ou sur internet, avec les moteurs de recherche). Pour bien débuter il faut donc prendre le temps de se poser des questions : pourquoi cela ne fonctionne pas ? Est-ce que je peux le faire autrement ? Etc.

Au sujet des premiers imports dans R, il y a quelques années c’est vrai que c’était parfois fastidieux, les premières lignes d’un programme commençant par read.csv(?, ?, ?) où chaque ? correspondait à au moins une hésitation. Il existe désormais un ensemble de packages, appelé tidyverse qui fonctionnent en harmonie et facilitent toutes les étapes dans R (import avec readr ou readxl, requêtes et manipulations de données avec dplyr et tidyr, etc.). Mon conseil aux Dim serait de se tourner vers ces packages. pmeasyr s’inscrit dans cette veine. Et depuis que ces packages existent, comparé à d’autres langages, R est très accessible, surtout en utilisant l’interface utilisateur RStudio, ou les notebook Jupyter : on peut exécuter un programme et visualiser le résultat, c’est très pratique et cela rend les données plus concrètes et “palpables”. Ces avantages sont visibles dans la vidéo présentant le package.

En plus, on peut utiliser R sur Windows, Mac Os et Linux, sur un ordinateur fixe ou portable. Et le package pmeasyr fonctionne sur toutes ces plateformes.

Dans un tout autre cadre, des médecins et chirurgiens utilisent désormais R pour la recherche, pour accéder à des plateformes de publications médicales en ligne (comme PubMed). L’utilisation de R / RStudio ne concerne donc plus uniquement le champ des traitements statistiques.

En combien de temps un DIM peut-il raisonnablement prendre en main pmeasyr et produire des premiers résultats ?

Le temps pour l’installation de R + RStudio + pmeasyr ne dépasse pas une vingtaine de minutes.

En suivant la documentation on peut réaliser un premier import en quelques minutes.

En considérant les retours de Dim AP-HP, je dirais que quelques heures suffisent largemment pour commencer à exploiter des données d’une année sur un champ spécifique avec pmeasyr. Une fois un premier projet réalisé, il est assez aisé de repartir de celui-ci pour en faire d’autres.

Est-ce qu’avec pmeasyr, les requêtes, une fois codées, sont bien sauvegardées pour une réutilisation ultérieure ?

Oui c’est un des grands avantages de R, comme de la programmation en général : automatiser ce qui n’est pas forcément le plus passionnant à faire pour se concentrer sur des choses plus intéressantes : les données, ce qu’elles contiennent, leur qualité… Que l’on choisisse de procéder avec un simple script (ou programme), ou que l’on s’oriente vers la structuration de projets avec RStudio, chaque requête peut être sauvegardée et réutilisée rapidement par la suite.

Une partie de mon travail à l’AP-HP concerne d’ailleurs ce point : constituer et mettre à disposition un catalogue de requêtes où l’on peut piocher, pour étudier une thématique. Actuellement nous structurons ces listes de requêtes dans une api (web service). Cette api contient également les référentiels métiers usuels (CCAM, Cim-10, Csarr, finess, etc.), et est accessible partout à l’AP-HP à travers notre intranet.

Sous quel délai, après le 1er mars de chaque année, la mise à jour du package pmeasyr sera-t-elle disponible en MCO et SSR pour importer les nouveaux formats ?

Les formats paraissent en même temps que les outils de l’ATIH, c’est un moment crucial où il faut mettre à jour les tables de formats en même temps que les données sont produites avec les outils. Dès que les données AP-HP sont prêtes, je peux tester mes programmes dessus et les valider.

Les données au format du 1er mars sont produites fin mars, c’est à ce moment que je mets à jour les formats. Pour 2017, j’avais informé sur le blog d’une mise à jour le 9 avril 2017. Je considère que c’est un délai raisonnable pour s’assurer du bon fonctionnement dans tous les champs (dans l’ordre de priorité MCO > SSR > HAD > RSF > PSY), d’autant que la première transmission des données sous ce format est réalisée fin avril.

En exclusivité pour le blog de T2A Conseil, pourriez-vous nous indiquer quelques exemples de résultats produits par pmeasyr pas encore rendus publics sur le site de pmeasyr ?

Dernièrement, nous avons calculé avec pmeasyr :

  • le taux de recours à l’HAD AP-HP des GH AP-HP
  • les indicateurs de performance et d’activité ATIH (IPA)
  • les indicateurs Périnat à venir
  • les effectifs du recours exceptionnel
  • les délais de prise en charge pour la chirurgie du cancer du sein

Le package intègre désormais des fonctions permettant d’intégrer les données dans une base de données : il n’est plus nécessaire de les réimporter ensuite à chaque fois, elles sont dans la base de données.

Je finalise actuellement des fonctions qui automatisent la rédaction et l’exécution de requêtes, ces fonctions seront bientôt disponibles dans le package

Monsieur PRESSIAT, nous vous remerçions