Notes
- [1]
-
[2]
Jean Delahousse. « Faire vivre les données. 1 : formats et modèles ». Documentaliste - Sciences de l’information, dossier « Les métiers de l’info et la donnée », 2013, vol. 50, n° 3, p. 36-37
- [3]
-
[4]
Ces noms, peu satisfaisants, sont tirés d’une publication qui fait référence, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513664
- [5]
-
[6]
www.hetop.eu/hetop
-
[7]
Au vu des promesses du New Generation Sequencing System (NGS) et de la fertilité du croisement de ses données avec les informations cliniques (ex : www.ncbi.nlm.nih.gov/pubmed/25682737), les institutions organisent des formations pour le traitement de ces données massives (ex : www.canceropole-idf.fr/ngs).
- [8]
- [9]
- [10]
-
[11]
Action d’aider un expert à formaliser ses connaissances pour permettre de les sauvegarder et/ou de les partager.
- [12]
- [13]
- [14]
-
[15]
Voir l’article de B. Menon, p. 32-34 de ce dossier
1 L’usage des données liées dans l’industrie médicale est porteur d’enjeux importants : création de référentiels, pilotage des choix d’ontologies médicales, nécessité de respecter des contraintes juridiques en raison de manipulation de données personnelles, qualification des données. Dans cet objectif, les professionnels de la santé doivent être incités à adopter de bonnes pratiques de description des données pour mieux les partager et les réutiliser.
Pourquoi des ontologies en médecine ?
2 Les données liées supposent le respect de plusieurs contraintes lors de la constitution de leurs identifiants (URI – citations). Le principe de base étant qu’une donnée doit pouvoir être repérée dans un modèle – par exemple, 37,5˚ est la température du corps du patient correspondant au concept de « température » dont l’URI est http://www.institution.fr/SNOMED#A-80190 dans la terminologie Snomed [1] – pour être correctement utilisée par des applications.
3 Une classification, ordonnant des concepts comme des signes et des maladies, sous la forme d’une hiérarchie et représentée dans les langages adéquats – dits du web sémantique – respecte les principes des données liées et permet l’échange et le partage de celles-ci. C’est ce qu’on appelle l’« interopérabilité syntaxique ». Nous appellerons ainsi « système d’organisation des connaissances » ou SOC toute ressource classificatoire qui modélise un domaine. De plus, dans les domaines riches et à la modélisation en devenir, en particulier en médecine, on a besoin de décrire, corriger et manipuler des concepts et des relations complexes – par exemple, pour prendre un cas très simple, le fait que l’appendicite est une inflammation localisée sur l’appendice – et cela ne peut être réalisé que dans des modèles munis d’une sémantique formelle, c’est-à-dire des ontologies [2].
Un domaine créateur de SOCs
4 Historiquement, la médecine est un domaine on l’on a créé beaucoup de classifications et thésaurus en raison de la nécessité de coder les maladies reconnues sur les patients, les actes pratiqués (ces derniers principalement pour des raisons de remboursement et de suivi d’activité), mais aussi pour tout sous-domaine qu’il est nécessaire de décrire – quelle qu’en soit la raison – par exemple, les maladies rares, le handicap, les effets indésirables, etc. Ces SOCs sont depuis longtemps utilisés dans des systèmes informatiques donc bien avant l’émergence des concepts du web sémantique. Cela donne une certaine avance à l’informatique médicale sur le traitement des connaissances par rapport à des domaines, comme la culture, qui se sont engagés plus récemment dans l’informatique. Mais ceci peut être aussi vu comme un désavantage, car freinant l’adoption de normes d’interopérabilité et de modèles de connaissances tels que ceux promus par le web des données, en concurrence avec des normes et des modèles plus anciens.
Autant d’ontologies que de points de vue
5 Dans ce contexte, de nombreuses discussions portent sur le fait de retenir ou non l’ontologie Snomed-CT comme ontologie de référence pour coder la médecine [3]. Ces discussions sont en grande partie inopérantes, car l’adoption d’un SOC, d’aussi bonne qualité soit-il – et la Snomed-CT n’est pas exempte de défauts –, dépend de nombreux autres critères, en particulier le but du codage. En effet, une ontologie a, par définition, un « engagement ontologique » fort. C’est-à-dire que la conceptualisation qu’elle induit contraint fortement la représentation des données. C’est son avantage et son inconvénient : un avantage car c’est la condition sine qua non d’utilisation correcte des données, en particulier pour des traitements sémantiques riches, par exemple le raisonnement ; un inconvénient car les données peuvent avoir des modes de génération/utilisation qui ne correspondent pas au modèle.
6 Ainsi, force est de constater que l’on doit côtoyer de nombreux SOCs, que certains sont des « terminologies de référence », d’autres des « terminologies d’interface » [4]. Ces dernières permettent aux professionnels d’exprimer précisément leur modèle avec un engagement ontologique (aussi) fort (que nécessaire) et la terminologie de référence est le SOC qui permet à différents sous-domaines de partager des concepts. Le métathésaurus de UMLS ou la Foundational Model of Anatomy Ontology (ontologie de la FMA, pour la modélisation de l’anatomie humaine) sont aussi des terminologies de référence.
7 La multiplicité des points de vue et des SOCs implique de construire des ponts entre les différents SOCs, c’est-à-dire des alignements entre leurs concepts et la possibilité d’avoir des lieux où ces SOCs sont référencés, enrichis de métadonnées, versionnés et téléchargeables (cf. infra). De telles plate-formes existent en partie : Bioportal propose ce service au niveau international mais est très orienté recherche [5] ; en France, le CisMeF offre principalement un système de recherche dans les terminologies et les sites indexés par celles-ci avec des services d’alignement et de traductions riches mais ne permet pas le téléchargement des ressources pour des questions de droits [6]. Au niveau administratif, en France mais aussi dans le monde entier, on attend toujours le serveur qui rendra tous les services attendus.
De la réutilisation des données ou « vous avez dit Big Data » ?
8 Le Big Data en santé, c’est l’idée qu’on va réutiliser les données produites dans divers contextes et pour différents usages et qu’on va les croiser pour améliorer la santé ou le bien-être de tous. Quand on veut caractériser le Big Data, quatre dimensions sont souvent évoquées : volume, velocity, variety, veracity. Les deux premières sont liées au stockage, aux algorithmes et à la puissance de calcul, et reçoivent des traitements spécifiques. Les deux autres posent des problèmes plus sournois :
- Variety se résout justement en développant des SOCs, parfois des ontologies, et en les alignant les uns aux autres. Ils vont permettre d’avoir un modèle cohérent pour représenter le domaine de connaissance à modéliser. C’est une tâche d’« intégration de données » qui est poursuivie dans une majorité de domaines médicaux pour croiser les données génomiques et phénotypes au sens large dans un but de compréhension, voire de soins [7]. La capacité des plate-formes d’intégration sémantique est maintenant telle que l’on peut faire de la fouille de données à partir des données multimodales enregistrées dans ces triplestores [8]. Cette dimension doit nous rappeler aussi que près de 80 % de l’information médicale est non structurée, textuelle. C’est la raison de nombreuses expérimentations d’annotation sémantique de textes, dans le but de construire des représentations structurées des textes libres [9] [10] ;
-
Veracity rappelle, avec un peu de recul, trois choses :
- les capteurs de données, en particulier ceux du « bien-être », ne sont pas exempts de dysfonctionnements et d’erreurs bien supérieurs à ce qui est admissible pour des dispositifs médicaux (que la plupart du temps ils ne sont pas) ;
- les données entrées par les humains dans les systèmes d’information en général par quelque interface que ce soit sont souvent de piètre qualité, en particulier en raison des conditions de travail ou d’implication dans cette tâche spécifique ;
- enfin, les données sont entrées dans un contexte et pour des raisons précises. Très souvent, cela obère la possibilité de les réutiliser à bon escient dans un autre contexte (cf. encadré).
Le codage PMSI
Pour cela, chaque épisode hospitalier d’un patient est décrit par un résumé spécifique, des codes de diagnostics issus de la Classification statistique internationale des maladies et des problèmes connexes (CIM-10) et des codes de soins répertoriés dans la Classification commune des actes médicaux (CCAM), deux classifications normalisées et distribuées. Il est souvent reproché à la CIM-10 d’être une classification peu précise et pas assez puissante. Mais, au-delà de ces critiques, se pose la question de savoir si les codes diagnostics posés sont pertinents d’un point de vue médical. De nombreuses études montrent que trop de malades auxquels on a associé un code de maladie sont mal codés [2] [3]. Le biais vient de l’objectif du PMSI qui est plus économique que médical et qui introduit des biais de codage [4]. Ces codes doivent alors être vus comme des indications à poursuivre l’analyse, en les croisant avec d’autres données du dossier médical du patient pour affiner les diagnostics (encore faut-il avoir ces données) ou en lançant une étude clinique pour confirmer telle ou telle hypothèse.
Ainsi, il apparaît que les données sont codées avec des buts précis, avec des règles de codage définies, avec une réduction du sens imposée et un retour difficile vers le texte ou, plus généralement, la ressource d’origine.
Construction des ontologies médicales
9 En raison de l’expression textuelle de la médecine, livres de cours, comptes rendus de toute sorte, le traitement automatique de la langue naturelle (TALN) a montré l’intérêt qu’il avait pour construire des ontologies : pour peu qu’on ait des corpus homogènes, on utilise les algorithmes de la fouille de texte pour repérer les syntagmes nominaux, traces des concepts manipulés par les professionnels. Ainsi, la construction des ontologies s’articule entre des méthodes top down à partir de la réutilisation d’ontologies de haut niveau et des méthodes bottom up d’élicitation [11] des concepts de bas niveaux via des algorithmes de TALN. La partie repérage et modélisation des relations sémantiques nécessite encore des recherches pour proposer des méthodes fiables.
10 Les méthodes à partir de corpus impliquent que l’on anonymise les susdits corpus. Quand les données sont structurées, cette anonymisation est assez aisée. Quand elles sont textuelles, la tâche est plus complexe. Il ne faut de toute façon pas imaginer qu’une donnée n’est pas ré-identifiable. Ce ne serait de toute façon pas souhaitable. Il faut se donner les moyens et les processus pour que ce soit très difficile. Il y a des enjeux plus compliqués à aborder comme les problèmes d’éthique et la différence dans les façons de les traiter, au niveau réglementaire, ne serait-ce qu’entre deux pays européens. À l’heure du nécessaire partage de données pour réduire les coûts et augmenter la puissance statistique des études cliniques, c’est un vrai problème.
Web de données, IA et raisonnements en médecine
11 Il est difficile aussi de passer sous silence le fait que les agences nationales et tout particulièrement l’agence de santé américaine (NIH) poussent un modèle économique fondé sur des subventions publiques attribuées en contrepartie de la mise à disposition « ouverte » des données de la recherche. Cela permettra que quelqu’un extérieur à la recherche d’origine puisse refaire tous les calculs (et même d’autres) de l’étude avec les données de la même cohorte plutôt que sur une autre dont les paramètres environnementaux, sociaux seront forcément différents (en tout état de cause, il faut connaître ces paramètres, cf. encadré).
12 Ces questions sont prégnantes dans le domaine des maladies mentales [12]. Dans ce domaine, les classifications « habituelles » des signes et maladies mentales type Manuel diagnostique et statistique des troubles mentaux (DSM) sont problématiques et le National Institute of Mental Health (NIMH) cautionne ses financements à la description des données en respectant le Research Domain Criteria (RDoC) [13]. On voit ainsi que la demande de transparence [14] de la recherche médicale est en marche mais que, là aussi, il faut s’accorder sur la sémantique.
13 En médecine, les promesses de l’intelligence artificielle (IA) n’ont pas été tenues jusque-là mais la situation est en train d’évoluer. Ainsi, après une vingtaine d’années de recherches séparées sur les modèles ontologiques d’une part et les systèmes d’aide à la décision (Clinical Decision Support System ou CDSS) d’autre part, les deux domaines sont arrivés à une maturité qui permet de voir se développer des CDSS qui font des raisonnements formels fondés sur des ontologies et modélisés avec le couple OWL/SWRL [15].
14 Ces applications et celles de l’intégration sémantique (cf. supra) montrent toute la vivacité d’un domaine, le web des données médical, qui devrait rapidement concourir à augmenter la connaissance médicale en instrumentant différemment la gestion des données et des connaissances des démarches cliniques plus classiques.
Notes
- [1]
-
[2]
Jean Delahousse. « Faire vivre les données. 1 : formats et modèles ». Documentaliste - Sciences de l’information, dossier « Les métiers de l’info et la donnée », 2013, vol. 50, n° 3, p. 36-37
- [3]
-
[4]
Ces noms, peu satisfaisants, sont tirés d’une publication qui fait référence, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513664
- [5]
-
[6]
www.hetop.eu/hetop
-
[7]
Au vu des promesses du New Generation Sequencing System (NGS) et de la fertilité du croisement de ses données avec les informations cliniques (ex : www.ncbi.nlm.nih.gov/pubmed/25682737), les institutions organisent des formations pour le traitement de ces données massives (ex : www.canceropole-idf.fr/ngs).
- [8]
- [9]
- [10]
-
[11]
Action d’aider un expert à formaliser ses connaissances pour permettre de les sauvegarder et/ou de les partager.
- [12]
- [13]
- [14]
-
[15]
Voir l’article de B. Menon, p. 32-34 de ce dossier