Google a annoncé DeepSomatic, un outil d’IA capable d’identifier de manière plus précise les mutations liées au cancer dans les séquences génétiques de tumeurs.
Le cancer débute lorsque les mécanismes régulant la division cellulaire dysfonctionnent. Trouver les mutations génétiques spécifiques qui stimulent la croissance d’une tumeur est essentiel pour élaborer des plans de traitement efficaces. Les médecins séquencent désormais régulièrement le génome des cellules tumorales à partir de biopsies afin de définir des traitements ciblés sur la croissance et la propagation d’un cancer particulier.
Publié dans Nature Biotechnology, ce travail présente un outil utilisant des réseaux neuronaux convolutionnels pour identifier avec une plus grande précision les variants génétiques dans les cellules tumorales par rapport aux méthodes actuelles. Google a rendu à la fois DeepSomatic et l’ensemble de données d’entraînement de haute qualité créé pour lui librement accessibles.
Le défi des variants somatiques
La génétique du cancer est complexe. Alors que le séquençage du génome permet de détecter des variations génétiques liées au cancer, distinguer les vrais variants des erreurs de séquençage est difficile, d’où l’intérêt d’un outil d’IA. La plupart des cancers sont causés par des variants « somatiques » acquis après la naissance plutôt que par des variants « génétiques » hérités des parents.
Les mutations somatiques surviennent lorsque des facteurs environnementaux comme la lumière UV endommagent l’ADN, ou lorsque des erreurs aléatoires se produisent lors de la réplication de l’ADN. Lorsque ces variants modifient le comportement cellulaire normal, ils peuvent provoquer une réplication incontrôlée, favorisant le développement et la progression du cancer.
Identifier les variants somatiques est plus difficile que trouver les variants hérités car ils peuvent exister à de faibles fréquences au sein des cellules tumorales, parfois à des taux inférieurs au taux d’erreur de séquençage lui-même.
Comment DeepSomatic fonctionne
Dans les environnements cliniques, les scientifiques séquencent à la fois les cellules tumorales d’une biopsie et les cellules normales du patient. DeepSomatic repère les différences, identifiant les variations dans les cellules tumorales qui ne sont pas héritées. Ces variations révèlent ce qui alimente la croissance de la tumeur.
Le modèle convertit les données brutes de séquençage génétique des échantillons de tumeur et de cellules normales en images représentant divers points de données, y compris les données de séquençage et leur alignement le long des chromosomes. Un réseau neuronal convolutionnel analyse ces images pour différencier le génome de référence standard, les variants hérités normaux de l’individu et les variants somatiques causant le cancer tout en filtrant les erreurs de séquençage. Le résultat est une liste de mutations liées au cancer.
DeepSomatic peut également fonctionner en mode « tumeur seule » lorsque des échantillons de cellules normales ne sont pas disponibles, ce qui arrive fréquemment avec les cancers du sang comme la leucémie. Cela rend l’outil applicable à de nombreux scénarios de recherche et cliniques.
Entraîner un outil d’IA de recherche sur le cancer plus précis
Former un modèle d’IA précis nécessite des données de haute qualité. Pour son outil d’IA, Google et ses partenaires de l’UC Santa Cruz Genomics Institute et de l’Institut National du Cancer ont créé un ensemble de données de référence appelé CASTLE. Ils ont séquencé des cellules tumorales et normales de quatre échantillons de cancer du sein et de deux échantillons de cancer du poumon.
Ces échantillons ont été analysés à l’aide de trois plateformes de séquençage de pointe pour créer un seul ensemble de données de référence précis en combinant les résultats et en éliminant les erreurs spécifiques à la plateforme. Les données montrent que même un même type de cancer peut présenter des signatures mutagènes très différentes, des informations qui peuvent aider à prédire la réponse des patients à des traitements spécifiques.
Les modèles DeepSomatic ont mieux performé que d’autres méthodes établies sur les trois principales plateformes de séquençage. L’outil excelle dans l’identification de mutations complexes appelées insertions et délétions, ou « Indels ». Pour ces variants, DeepSomatic a obtenu un score F1 de 90 % sur les données de séquençage Illumina, contre 80 % pour la méthode suivante la plus performante. L’amélioration était plus spectaculaire sur les données de Pacific Biosciences, où DeepSomatic a obtenu plus de 80 % alors que l’outil suivant a marqué moins de 50 %.
L’IA s’est bien comportée lors de l’analyse d’échantillons difficiles. Les tests ont inclus un échantillon de cancer du sein conservé avec une méthode d’imprégnation de formol et de paraffine (FFPE), une méthode courante qui peut introduire des dommages à l’ADN et compliquer l’analyse. Il a également été testé sur des données de séquençage de l’exome entier (WES), une méthode plus abordable qui séquence seulement 1 % du génome codant pour les protéines. Dans les deux scénarios, DeepSomatic a surpassé les autres outils, suggérant son utilité pour l’analyse d’échantillons de moindre qualité ou historiques.
Un outil d’IA pour tous les cancers
L’outil d’IA a montré qu’il pouvait appliquer son apprentissage à de nouveaux types de cancer sur lesquels il n’a pas été formé. Lorsqu’il a été utilisé pour analyser un échantillon de glioblastome, un cancer agressif du cerveau, il a réussi à identifier précisément les quelques variants connus pour stimuler la maladie. Dans le cadre d’un partenariat avec l’hôpital pour enfants de Mercy à Kansas City, il a analysé huit échantillons de leucémie pédiatrique et a identifié les variants connus tout en identifiant 10 nouveaux, malgré le travail avec des échantillons de tumeurs seuls.
Google espère que les laboratoires de recherche et les cliniciens adopteront cet outil pour mieux comprendre les tumeurs individuelles. En détectant les variants de cancer connus, il pourrait aider à guider les choix de traitements existants. En identifiant de nouveaux variants, il pourrait conduire à de nouvelles thérapies. L’objectif est de faire progresser la médecine de précision et de proposer des traitements plus efficaces aux patients.


