Considérations sur le Big Data en santé

1. Les concepts autour du Big Data

L’informatisation généralisée des systèmes à travers toutes les strates de l’économie et de l’administration a conduit à la génération d’un nombre croissants de données diverses. Le gain de puissance et de capacité de stockage a permis la constitution de base de données centralisant ces informations. Cette profusion de données, désignée sous l’appellation de Big Data, est le nouvel or numérique des entreprises qui ont appris à l’exploiter. Nouvelles applications, nouveaux modèles économiques, réactivité augmentée, les perspectives sont nombreuses pour celles qui abordent ce virage de manière active.

Cette transformation stratégique nécessite aussi de nouveaux moyens techniques, mais aussi humains, avec des savoir-faire spécifiques, pour pouvoir s’accomplir. C’est particulièrement vrai dans le domaine de la santé où, à ces problématiques récurrentes viennent s’en ajouter d’autres, plus spécifiques, comme celles liées au consentement ou à la confidentialité des données dans le cadre du secret médical.

Origine des données BIG DATA :

On caractérise souvent les données du Big Data par 3 points :

Leur volume, qui va croissant – Les bases de données en santé aux US représentent un volume d’information à l’échelle de l’exaoctet (109 Go, soit 1 million de téra-octets).
Leur variété – Il s’agit tout à la fois de données structurées, éventuellement déjà organisées extérieurement en bases de données (informations relatives aux dépenses de santé, par exemple), que de données non structurées comme des fichiers d’imagerie médicale, ou de métadonnées. Dans le domaine de la santé, ces données proviennent aussi bien d’organismes centralisateurs (Assurance Maladie, médecine du travail, milieu médico-social…), que d’établissements de santé ou d’un recueil individuel auprès des patients après anonymisation. Les résultats de recherche, les suivis de cohortes, les données épidémiologiques constituent autant de sources supplémentaires sur une liste non exhaustive.
L’intensité de leur flux – Ceci concerne à la fois la génération/collecte des données que leur stockage au sein de base de données dédiées, et leur mise à disposition pour analyse par les professionnels du secteur.

Méthodes de recueil de la DATA :

La constitution de base de données dédiées permet la centralisation des informations et leur mise à disposition aux acteurs qui exploitent le Big Data. L’architecture de ces bases de données, grâce au travail des ingénieurs data (Data engineer), doit permettre d’offrir une structure qui facilite le partage et l’extraction sélective selon les besoins. C’est donc naturellement que les grands acteurs du numérique que sont les GAFAM sont parmi les premiers à avoir constitué de telles bases et mis au point des outils permettant leur traitement. Selon la taille des structures et le type de données contenues, on parlera alternativement de base, d’entrepôt ou de lac de données (data base, data warehouse, data lake).

Amazon propose ainsi son Health Lake regroupant tous types de data en santé, et les interfaces de programmation (API) permettant de l’exploiter et d’importer ses propres données. Ce dernier point est stratégique, puisque comme l’estime le Conseil National du Numérique, la valeur des données elles-mêmes est plus grande que celle des outils spécifiquement développés pour les exploiter. En France, la Plate-forme des Données de Santé (ou Health Data Hub) est un organisme public qui centralise les données de santé pour en faciliter l’accès aux acteurs de la recherche pour les projets agréés.

Exploitation des données BIG DATA :

L’analyse des données (data analytics) du Big Data bénéficie d’une palette d’outils spécifiques adaptés à la fois aux types de données, structurées ou non, et à leur volume, notamment en permettant leur automatisation, ainsi qu’une sélectivité des données pertinentes pour un thème donné et une amélioration progressive de la vitesse de traitement, grâce aux techniques d’intelligence artificielle.

Le data mining, ou forage de données, permet l’exploration systématique des données et la mise en relation de sources distinctes pour déterminer des motifs (patterns) et dépendances cachés, difficilement détectables par une analyse conventionnelle dirigée.

L’apprentissage automatique (ou machine learning) utilise des algorithmes spécifiques qui vont permettre d’améliorer les performances de l’intelligence artificielle chargée de traiter les données, et l’amener à une sorte d’expertise de la tâche qui lui a été confiée. Le traitement naturel du langage (ou natural langage processing) permet d’exploiter les sources utilisant le langage humain écrit ou parlé (fichiers audio, articles scientifiques…) pour identifier et catégoriser l’information contenue. L’analyse syntaxique et/ou sémantique des contenus par la machine est là aussi rendu performante par un système d’apprentissage profond progressif (deep learning) qui permet à la machine d’intégrer des notions abstraites, des subtilités de langage, ou une terminologie spécifiques à un domaine (médical…).

L’exploitation des données du Big Data peut avoir différentes visées. L’analyse descriptive permet une compréhension de l’existant et une interprétation a posteriori des phénomènes rencontrés. En santé, cela concerne par exemple les analyses à visée diagnostic (imagerie, biologie, exploration fonctionnelle…) ou l’établissement de statistiques.
L’analyse prédictive vise à établir des modèles, à repérer des facteurs de risques, avec un but pronostique. Elle permet ainsi l’établissement d’une stratégie préventive.
L’analyse prescriptive, quant à elle, utilise le flux de données pour orienter la conduite à tenir dans une situation donnée. Il s’agira par exemple d’adapter le suivi d’un traitement d’un patient à l’évolution de sa situation.

2. Opportunités et enjeux pour l’entreprise

Domaines d’applications du BIG DATA :

L’exploitation du Big Data dans le domaine de la santé impacte aussi bien les gestionnaires que les développeurs de solution ou les utilisateurs finaux.
Ainsi, l’apprentissage machine progressif permet « d’éduquer » des modèles interprétatifs en imagerie ou en biologie avec une efficacité diagnostique parfois supérieure à celle de l’homme, et en tous cas complémentaire. L’analyse et le croisement de volumes de données massives, issues de la « vie réelle », permet d’établir de nouveaux modèles prédictifs et des outils décisionnels sur des critères inédits. Ces nouveaux points d’attaque permettent d’anticiper certaines répercussions sur la santé des patients en identifiant de nouveaux facteurs de risques. Le bénéfice rejaillit à la fois sur le patient en termes de bénéfices de santé, mais aussi sur le coût de la gestion et des soins. Il est par exemple possible de lisser les flux de malades au sein des établissements de soin grâce à des modèles prédictifs qui facilitent la gestion des besoins en effectifs et en lits, en temps réel.

Pour les patients eux-mêmes, la mise à disposition d’outils « intelligents » améliore la prise en charge. En se basant sur les données fournies par le patient lui-même (questionnaires de suivi en post-opératoire, applications de suivi des données biologiques liées aux dispositifs connectés (bracelets capteurs, lecteurs de glycémie…)), les modèles alimentés par le Big Data sont capables de fournir une réponse instantanée et individualisée pour améliorer l’efficacité des soins, personnaliser les traitements et prévenir les risques de dégradation de l’état de santé. Il est possible également d’imaginer une géolocalisation des risques, en corrélant par exemple les données concernant les patients asthmatiques et celles donnant les zones de pollution.

On dispose donc à la fois d’outils d’aide au diagnostic et à la prise de décision médicale en amont, de personnalisation et d’optimisation des soins en aval, le tout couplé à de nouveaux modèles de gestion des risques. L’orientation vers une médecine de prévention au détriment d’une médecine interventionnelle permet à la fois d’en améliorer l’efficacité et d’en diminuer les coûts. Ce virage est un point stratégique capital pour les entreprises en santé.

Enjeux annexes du BIG DATA :

L’emploi du Big Data en santé revêt donc un intérêt primordial, tant du point de vue de la performance économique que de l’impact sur la santé publique.
Il s’accompagne par ailleurs d’un certain nombre d’enjeux spécifiques liés à ce nouveau mode de gestion des données. La nature des données collectées, relevant souvent du secret médical, demande de trouver un équilibre entre une réglementation éthique et un cadre ni trop contraignant ni trop sclérosant pour ne pas freiner l’innovation. Cet équilibre doit permettre de simplifier la collecte des données, leur concentration et leur mise à disposition.

Les données personnelles « se rapportant à l’état de santé d’une personne concernée qui révèlent des informations sur l’état de santé physique ou mentale passé, présent ou futur de la personne concernée » sont des informations sensibles. Souvent liées à des informations permettant d’identifier les patients (adresse, date de naissance, numéro de sécurité sociale…), elles nécessitent une anonymisation ou une pseudonymisation efficace.
Celle-ci est rendue compliquée par le fait que les bases de données, nombreuses en France (SNIIRAM…) ne sont pas toutes anonymisées. Par ailleurs, la centralisation au sein des entrepôts de données facilite les possibilités de recoupement et donc de réidentification des patients a posteriori.

Le recueil individuel se fait par principe, en conformité avec le RGPD, dans le cadre d’un consentement individuel, même si le motif de l’intérêt général peut être invoqué dans certains cas. Pour simplifier la compliance aux règles déontologiques, la CNIL (Commission Nationale Informatique et Libertés) notamment, a établi des méthodologies de références (MR) qui facilitent le recueil et l’accès aux données pour qui s’y conforme. Elle maintient les demandes d’accord au cas par cas en dehors de ce cadre.

La sécurité des données est également un enjeu majeur. Les risques de fuite existent, avec comme objectif la revente des données aux régies publicitaires, aux assureurs ou à l’étranger. Ce qui pose également la question de la souveraineté du stockage des entrepôts de données, comme évoquée pour le Health Data Hub qui avait choisi un hébergement aux USA par une filiale de Microsoft. Une solution locale devrait prochainement y être apportée.
Un compromis donc donc être trouvé sur la centralisation des données qui facilite à la fois leur opérabilité tout en limitant les risques de sécurité.

3. Progression du marché du BIG DATA : situation actuelle et projection

Le contexte actuel décrit un plein essor de la démarche Big Data en santé. Celui-ci se ressent tant au niveau des investissements massifs dans le domaine de la recherche liée aux outils d’exploitation des données (intelligence artificielle, deep learning…), que des virages pris dans la gestion des établissements de santé pour en tenir compte, ou des solutions développées en entreprise grâce à ce nouvel outil. Tous ces efforts s’accompagnent d’une démarche d’adaptation de la réglementation locale pour faciliter le développement des initiatives, et faire de la France un des acteurs majeurs dans le domaine.

Cette transformation du paysage des entreprises, qu’il s’agisse de virage stratégique ou du fleurissement de start-up dédiées à ces nouvelles technologies, apporte des bénéfices financiers et organisationnels certains. Le Big Data permet à la fois le développement de nouveaux marchés, la création de nouvelles solutions ainsi que des économies de développement, le tout avec une réactivité améliorée de la part des différents acteurs.
Pour négocier parfaitement cette transition, l’écosystème entier doit se doter d’un système de fonctionnement pérenne qui garantisse à la fois la confidentialité et la sécurité des données, tout en améliorant leur disponibilité. Le cadre réglementaire doit donc s’adapter progressivement, et les infrastructures de stockage et de gestion gagner en performance. L’approche médicale globale doit devenir plus pro-active, avec un passage d’une médecine symptomatique à une médecine d’intervention préventive.
Logiquement, le profil des ressources humaines doit s’adapter à ces nouveaux besoins. Il s’agit pour les acteurs existant de se transformer en permettant aux spécialistes de la santé déjà en place de réinvestir une partie de leurs compétences dans ce nouveau domaine grâce aux apports technologiques. Il s’agit de valoriser leurs compétences tout en leur facilitant l’acquisition de ces nouveaux outils.

Le Big Data dans la santé ne peut en effet pas se satisfaire d’une approche exclusivement technique, à cause des spécificités des données issues de l’écosystème médical (éthique, déontologie, secret médical…).

Réciproquement, les profils de recrutement pour les nouveaux métiers propres au Big Data (data analyst, data engineer, data scientist…) doivent intégrer des composantes leur permettant d’appréhender pleinement la spécificité des données de santé. Leur sensibilité doit leur donner une bonne compréhension des exigences spécifiques du domaine de la santé (nature des intervenants et interlocuteurs, bases scientifiques sur les domaines de travail…).

La répartition des profils recherchés parmi les métiers spécifiques au Big Data tend quant à elle à se modifier légèrement. Si les compétences des data scientists, leur polyvalence et leur capacité d’innovation et leur aptitude à donner du feedback à leurs interlocuteurs ont longtemps été plébiscités, la crise du COVID est passée par là, et un relatif marasme des projets s’est installé. Ils restent malgré tout des vecteurs incontournables de l’innovation, en particulier pour ceux disposant de capacités en machine learning.

La multiplication des sources de données, elle, ne s’est pas tarie, et les compétences des data engineers à organiser l’information et à faciliter son exploitation sont plus que jamais requises, tout comme celles des data analysts devant la masse croissante de données numériques à exploiter.