Version imprimable |
Evaluation de la performance d’un algorithme d’intelligence artificielle dans la prédiction de l’envahissement extra-prostatique en IRM du cancer de prostate (Performance evaluation of an artificial intelligence algorithm in the prediction of extra-prostatic invasion in MRI of prostate cancer) | ||
Mary, Vincent - (2024-09-19) / Universite de Rennes - Evaluation de la performance d’un algorithme d’intelligence artificielle dans la prédiction de l’envahissement extra-prostatique en IRM du cancer de prostate Langue : Anglais Directeur de thèse: Beuzit, Luc Thématique : Médecine et santé | ||
Mots-clés : Cancer de prostate, Extension Extra-Prostatique, intelligence artificielle, Longueur de Contact Capsulaire, Prostate -- Cancer, Cancer -- Caractère envahissant, Imagerie pour le diagnostic, Intelligence artificielle en médecine Résumé : Objectif : Evaluer les performances en IRM de prostate d’un logiciel d’intelligence artificielle (IA) par rapport à des lecteurs de différents niveaux d’expertise dans la mesure de Longueur du Contact Capsulaire (LCC) entre la tumeur et les contours prostatiques, dans l’optique secondaire d’évaluer ce critère pour prédire l’Extension Extra-Prostatique (EPE) du cancer de prostate. Matériels et Méthodes : 56 IRM pré-opératoires de patients ayant bénéficié d’une prostatectomie radicale pour cancer de prostate ont été utilisées. Pour chaque examen, la LCC était mesurée par deux lecteurs juniors, un lecteur expérimenté et un lecteur expert utilisé comme gold-standard. Le logiciel réalisait le contour prostatique et lésionnel et de l’intersection des deux était calculée la LCC. Les différences absolue et relative entre les mesures de LCC du lecteur expert et des autres lecteurs ou du logiciel ont été calculées au seuil de 5% sur la médiane des différences. Le coefficient de corrélation entre la mesure de chacun des lecteurs et du lecteur expert a été calculé. Les performances de prédiction de l’EPE de chaque lecteur et du logiciel ont également été étudiées en se basant sur différents seuils de LCC (10, 15 et 20 mm) et en utilisant comme gold-standard le statut TNM issu de la relecture systématique des pièces de prostatectomie. Les calculs de sensibilité, spécificité et d’accuracy ont été réalisés tout comme les courbes ROC pour chacun des lecteurs et le logiciel. Résultats : Il existait une variabilité de mesure de LCC statistiquement significative du logiciel en comparaison aux différents lecteurs, dont le lecteur expert (p-value de la médiane de la différence des LCC calculée à 0,04) tandis qu’il n’en existait pas entre les autres lecteurs et le lecteur expert. De même, le logiciel mesurait significativement différemment la LCC par rapport aux lecteurs juniors (p-value = 0,04 et 0,02). La corrélation des mesures entre lecteur expert et lecteurs juniors était forte (0,91 [0,80 ; 0,95] et 0,81 [0,51 ; 0,92]) tandis qu’elle était plus faible pour le logiciel (0,48 [0,26 ; 0,67]). Les AUC de détection de l’EPE des différents lecteurs ou du logiciel n’étaient pas significativement différentes. Le seuil de 15 mm était le plus pertinent dans la détection de l’EPE. A partir de ce seuil, il n’a pas été mis en évidence de différence significative de performance de prédiction de l’EPE entre le logiciel et les lecteurs humains, sauf en comparaison avec un des lecteurs juniors qui prédisait significativement mieux l’EPE (p-value <0,01). Conclusion : Le logiciel d’intelligence artificielle testé mesurait significativement moins bien le LCC que les lecteurs humains quel que soit leur niveau d’expertise. La LCC était un critère reproductible et le seuil de 15 mm était le plus pertinent en tant que critère de prédiction de l’EPE. Résumé (anglais) : Objective: To evaluate the performance of a prostate MRI artificial intelligence (AI) software compared with readers of different levels of expertise in the measurement of Tumor Contact Length (TCL) between tumor and prostate contours, with the secondary objective of evaluating this criteria to predict Extra-Prostatic Extension (EPE) of prostate cancer. Materials and methods : 56 preoperative MRI scans of patients undergoing radical prostatectomy for prostate cancer were used. For each MRI scan, TCL was measured by two junior readers, one experienced reader and one expert reader used as a gold-standard. The software generated the prostatic and lesion contours, and the TCL was calculated from both intersections. The absolute and relative differences between the TCL measurements of the expert reader and those of the other evaluators were calculated at the 5% threshold on the median of the differences. The correlation coefficient between each reader's measurement and that of the expert reader was calculated. The EPE prediction performance of each reader and the software was also studied, based on different TCL cut-offs (10, 15 and 20 mm) and using the TNM status from the second-look histological analysis of the prostatectomy specimens as the gold standard. Sensitivity, specificity and accuracy calculations were performed. ROC curves for each reader and for the software were provided. Results: There was statistically significant TCL measurement variability in the software TCL measurements compared with other readers, including the expert reader (p-value of the median TCL difference calculated at 0.04), whereas there was none between the other readers and the expert reader. Similarly, the software measured TCL significantly differently from junior readers (p-value = 0.04 and 0.02). The correlation of measurements between expert and junior readers was strong (0.91 [0.80; 0.95] and 0.81 [0.51; 0.92]), while it was weaker with the software (0.48 [0.26; 0.67]). The AUCs for EPE detection for the different readers or the software were not significantly different. The 15 mm cut-off was the most relevant for EPE detection. From this cut-off, the software's performance in predicting EPE was not significantly lower than that of the other readers, including the expert reader, except with a junior reader who significantly better predicted EPE (p-value <0.01). Conclusion : The AI software tested measured TCL significantly less accurately than human readers, whatever their level of expertise. TCL was a reproducible criteria, and the 15 mm cut-off was the most relevant for EPE prediction. Identifiant : rennes1-ori-wf-1-19803 |
Exporter au format XML |