“Contribution à un Data Mining explicable et guidé par les connaissances pour l’aide au diagnostic médical : Application aux troubles mentaux chez les enfants ” par Madame Sarah ITANI
Résumé
Parmi l’ensemble des spécialités médicales, la psychiatrie se distingue par le manque de consensus scientifique quant aux bases étiologiques et physiopathologiques des troubles associés.
Bien que cette situation puisse sembler surprenante au regard des progrès scientifiques, elle n’en reste pas moins expliquée par la grande complexité du cerveau humain. La recherche se poursuit donc afin de mieux comprendre les neuropathologies et de détecter des biomarqueurs permettant de les identifier. Il s’agit là d’un enjeu majeur de la recherche médicale.
En effet, venir à bout de ce défi permettrait d’objectiver un processus de diagnostic basé essentiellement sur des critères cliniques descriptifs tels que ceux édictés dans le manuel diagnostique et statistique des troubles mentaux (DSM).
Cette problématique de recherche a attiré la communauté du Data Mining (DM) dont les compétences se prˆetent à l’extraction de connaissances, mais également au développement de modèles capables de prédire un diagnostic. La mise à disposition en ligne de bases de données gratuites a très certainement facilité la contribution des data miners à la recherche psychiatrique. Ce constat est corroboré par le succès de la compétition ADHD-200 lancée en 2012, dont l’enjeu portait sur le développement d’un modèle capable de prédire le trouble du déficit de l’attention avec ou sans hyperactivité sur base de données de neuroimagerie.
Les potentialités du DM sont très intéressantes et offrent une approche différente à la psychiatrie, longuement abordée par le biais des méthodes statistiques traditionnelles. Bien que riche en quantité, cette recherche guidée par le DM semble stagner, se résumant à l’application d’algorithmes aux données. On assiste notamment à une compétition effrénée sur les performances prédictives des modèles développés, mˆeme si cela implique de recourir aux modèles les plus opaques. Mais, s’il est légitime d’aspirer à un niveau élevé de précision, il est également crucial de viser une certaine interprétabilité des modèles développés. Cette propriété permet au clinicien de comprendre chaque recommandation de diagnostic sur base de justifications, et de poser un diagnostic final dont il/elle peut en assumer la responsabilité en toute confiance. Ainsi, interprétabilité et performance sont les garants de l’applicabilité clinique des modèles développés.
Notre thèse porte sur l’aide au diagnostic psychiatrique et vise le développement
d’approches de DM qui favorisent des modèles prédictifs à la fois interprétables et performants.
Ainsi, la recherche est menée dans le cadre de l’implémentation de paradigmes relatifs à (i) une forme d’intelligence artificielle dite explicable, et à (ii) une science de données perméable à l’intégration de connaissances. Ces principes nous semblent en effet indispensables au développement de modèles transparents, dont les mécanismes prédictifs sont accessibles et font sens pour les cliniciens.
Nos approches sont appliquées à l’étude du Trouble du Déficit de l’Attention avec ou sans Hyperactivité (TDAH) et du Trouble du Spectre de l’Autisme (TSA) chez les enfants.
D’une prévalence non négligeable, ces troubles se manifestent très tˆot dans le développement des jeunes, et leurs symptômes restent présents à l’ˆage adulte. Une détection précoce des syndromes permettrait une anticipation de la prise en charge.
“Towards Explainable Knowledge-Guided Data Mining for Medical Diagnosis Aid : Application to Children Mental Disorders”
Summary
Among all medical specialties, the field of psychiatry is distinguished by the absence of scientific consensus on the etiological and pathophysiological bases of the related disorders.
Though this situation may appear surprising in regards to the scientific progress, it remains explained by the high complexity of the human brain. Research is going on to better understand the neuropathologies and to identify biomarkers for their detection. This is definitely a major issue of medical research. Solving this challenge would allow to make the diagnosis process more objective, while it is currently based on descriptive clinical criteria such as those found in the Diagnostic and Statistical Manual of Mental Disorders (DSM).
This research issue has attracted the interest of the Data Mining (DM) community whose skills lend to knowledge extraction, but also to the development of models able to achieve diagnosis prediction. The availability of free databases has certainly expedited the data miners’ contribution to the psychiatric research. This observation is corroborated by the success of the ADHD-200 competition launched in 2012, which challenged research teams to develop a model able to predict attention deficit hyperactivity disorder based on neuroimaging data.
The field of DM has interesting potentialities which offer a different approach to psychiatry, long investigated by means of traditional statistical approaches. Though abundant, this DM-guided research seems to be going in circles, and may be summarized as the systematic application of algorithms to data. In fact, the DM community approach to psychiatric issues has fallen into the practice of achieving the highest performances, even if it meant to resort to the most sophisticated and opaque predictive models. But if it is legitimate to aim at high levels of performance, it is also crucial to target a certain interpretability of the predictive models. This property allows the clinician to understand each diagnosis recommendation based on justifications, and to make a final diagnosis that he/she can assume liability. Thus, interpretability and performance ensure the clinical applicability of diagnosis aid models.
Our thesis tackles medical diagnosis aid with a focus on psychiatry, and aims at the development of DM approaches which favor both interpretable and performant predictive models.
This research is led in the context of the implementation of paradigms related to (i) a form of artificial intelligence called explainable, and (ii) a data science open to the integration of domain knowledge. These principles appear important for the development of transparent models whose predictive mechanisms make sense for the clinicians. These concepts must be implemented in regards to additional constraints imposed by the nature of medical diagnosis.
Our approaches are applied to the study of Attention Deficit Hyperactivity Disorder (ADHD) and Autism Spectrum Disorder (ASD) in children. These disorders become evident in the early childhood development, and persist in adulthood. An early detection of the syndromes would allow an anticipation of therapeutical management, and would thus contribute to ensure the individual welfare.
7000 Mons, Belgique