traduction: Maugou

WCG1

Par: l'équipe de recherche de MCM (cartographie des marqueurs du cancer)

15 décembre 2015

Récapitulatif

Les étapes récentes du projet de cartographie des marqueurs du cancer (MCM) ont mis en lumière les interactions protéine-protéine et les chemins biologiques impliqués dans le cancer du poumon, et ont également suggéré des résultats surprenants sur ses biomarqueurs. Une fois l'étape actuelle terminée, MCM passe à l'analyse du cancer de l'ovaire. Merci pour votre aide, nous faisons des découvertes et aidons la communauté de recherche internationale. Le Dr Jurisica, en particulier, est l'un des chercheurs les plus cités dans le monde entier.

Troisième étape de l'analyse du cancer du poumon en cours

Dans notre précédente mise à jour, nous avons annoncé une seconde étape ciblée de la découverte de la signature du cancer du poumon. Depuis, nous avons commencé une nouvelle troisième étape de l'analyse du cancer du poumon: le ciblage de biomarqueurs corrélés à haut scores. Ces différentes étapes font toutes parties d'un effort global visant à comprendre les signatures du cancer du poumon. La première étape a sondé les signatures possibles de cancer du poumon tirées de l'ensemble des biomarqueurs dans notre jeu de données de cancer du poumon. Les statistiques recueillies dans cette première étape ont été utilisées pour affiner la liste des biomarqueurs à explorer dans les étapes ultérieures. Les deuxième et troisième étapes explorent les signatures du cancer du poumon tirées de petits ensembles de signatures performants, choisis par deux méthodes différentes. Dans la deuxième étape, nous nous sommes concentrés sur un sous-ensemble de 1% de biomarqueurs, sélectionné par la fréquence avec laquelle chacun apparait dans les signatures à haut score de la phase initiale. Dans la troisième étape, nous avons sélectionné un sous-ensemble de biomarqueurs qui, à la fois, ont des hauts scores et sont largement décorrélés l'un de l'autre.

La corrélation est une mesure de l'information partagée entre deux sources de données. Deux biomarqueurs sont corrélés s’ils présentent des tendances similaires dans l'ensemble de données sur le cancer. Par exemple, deux gènes corrélés pourraient montrer une forte activité dans un ensemble d'échantillons de tumeur, une faible activité dans un second ensemble, et une activité moyenne dans un troisième. Inclure deux biomarqueurs hautement corrélés à la même signature peut réduire la qualité de la signature, parce qu'ils introduiraient des informations redondantes à la signature. Pour une signature de taille fixe, un biomarqueur redondant pourrait supplanter un autre biomarqueur qui a des contenus d'information différents.

Par analogie, examinez les informations contenues dans une petite bibliothèque de manuels. Disons qu'il y a trois livres, A, B, et C. Si A et B sont deux copies du même manuel, l'un d'eux est redondant. Retirer B de la bibliothèque ne changerait pas l'information contenue dans la bibliothèque, et le remplacement de B avec un manuel différente (D), augmenterait les informations dans la bibliothèque. Si A et B étaient des livres similaires mais pas identiques (par exemple, deux livres sur l'introduction à la biologie moléculaire écrits par des auteurs différents), il y aurait toujours un certain chevauchement dans les textes, et un avantage possible de remplacer B par D.

 

Performance de la signature 

Parce que les biomarqueurs ciblés dans cette troisième étape ont été choisis pour être inter-corrélés au minimum, chaque signature devrait être libre d'informations redondantes. Nous avons donc émis l'hypothèse que les signatures dans la troisième étape devraient donner de meilleurs résultats dans la moyenne que ceux de la deuxième étape. La figure 1 montre les résultats surprenants: les signatures de la deuxième étape (contenant potentiellement des biomarqueurs corrélés) ont surpassé celles de la troisième étape. Nous continuons à analyser ces résultats, afin de déterminer les principales raisons de la différence de performance.

Figure 1. Distribution des scores des signatures pour les signatures de la seconde étape (noir) et la troisième (bleu). Comme attendu, les signatures plus larges surpassent en général les plus petites. Surprenant, les signatures de seconde étape surpassent en moyenne les signatures de la troisième étape.

Effets de la taille sur le rang des biomarqueurs dans les tops signatures

Les grandes signatures (par exemple, les signatures contenant plusieurs biomarqueurs) incorporent plus d'informations et peuvent potentiellement offrir une meilleure précision, mais sont plus complexes et coûteuses à mettre en œuvre en clinique. Toutes les trois étapes de MCM ont jusqu'ici exploré les signatures de cancer du poumon de plusieurs tailles. Pour chaque taille de signature que nous avons considéré, les sous-ensembles cible de biomarqueurs pour la deuxième étape ont été choisis séparément, basé sur les statistiques de la première étape. L'ensemble de biomarqueurs sélectionnés pour la troisième étape est fixé pour toutes les tailles de signature. Cet ensemble fixe nous permet de comparer les effets de la taille de la signature sur la fréquence de chaque biomarqueur dans les signatures à haut score. La figure 2 montre la variation de fréquence lors du passage de 10 biomarqueurs par signature à 20. Chaque point sur le graphique représente un biomarqueur. L'axe des X représente la fréquence à laquelle apparaissent des biomarqueurs dans les signatures de taille 10. L'axe des Y indique fréquence pour les signatures de taille 20. Notez que les biomarqueurs changent dans le classement, mais sont généralement corrélés. Les signatures de taille 10 montrent une plus grande dispersion de la fréquence des biomarqueurs: certains ont une fréquence relativement élevée, et beaucoup sont de basse fréquence. Les fréquences de biomarqueurs dans les grandes signatures (taille 20) sont encore plus dispersées.

Paires de biomarqueurs comme interactions entre protéines?

Nous avons appliqué et étendu l'analyse des paires de biomarqueurs décrits dans la mise à jour d'août 2015 aux premiers résultats tirés des données de la troisième étape, à la recherche spécifiquement de paires de biomarqueurs à la fois dans les deuxième et troisième étapes, qui apparaissent étonnamment souvent dans les signatures de cancer du poumon le plus prolifique. Lorsque deux gènes ou des protéines apparaissent ensemble dans les signatures avec une plus grande fréquence que prévue par le hasard, nous prévoyons une connexion plus forte liée au cancer (interaction).

Nous avons cherché toutes les connexions connues (interactions) de la base d'interactions intégrées (IID), une base de données des interactions protéine-protéine connues et prévues, créé par notre laboratoire. Nous avons trouvé plusieurs interactions dans IID qui reflètent ces interactions de cancer, mais le chevauchement n'était pas statistiquement significatif.

Figure 2. Fréquence des biomarqueurs dans les signatures de taille 10 (size_10) vs. les signatures de taille 20 (size_20). Les points à gauche de la ligne diagonale représentent les biomarqueurs qui apparaissent plus fréquemment dans les signatures de taille 20. Notez la corrélation globale dans les rangs entre les tailles, mais une plus grande variation de fréquences pour les signatures plus courtes.

 

Enrichissement des chemins (biologiques) des cibles des deuxième et troisième phases

Nous avons également pris des gènes sélectionnés pour les deuxième et troisième étapes, et les avons cherchés dans une base de données des chemins biologiques. Voir Figure 3. Nous avons découvert que nos listes de gènes ont été enrichies (présents en nombre statistiquement significatifs; p ≤ 0,01) dans plusieurs chemins. Voir le tableau:

 

Nom de la voie biologique                                                           p-valeur

 

Mevalonate from acetyl CoA step 2 3                         0.003236
Biotinidase Deficiency metabolite                               0.004845
Biotin Metabolism                                                           0.004845
Biotinidase Deficiency                                                   0.004845
Multiple carboxylase deficiency                                   0.004845
Mevalonate biosynthesis                                               0.004845
Synthesis of Ketone Bodies                                          0.006449
Ketone Body Metabolism                                              0.008048
Succinyl CoA 3 ketoacid CoA                                       0.008048
Synthesis and Degradation of Ketone Bodies           0.01
Fatty acid triacylglycerol and ketone body                  0.008892
Vitamin H biotin metabolism                                          0.009643
Dermatan sulfate degradation metazoa                      0.009643

 

 

Bien que notre analyse soit en cours, nous pouvons voir que deux des filières identifiées sont des composants du métabolisme Mevalonate. Les voies du Mévalonate  sont déjà des cibles pour de nombreux médicaments tels que les statines et ont été impliquées en tant que cibles pour le traitement du cancer du poumon. Une partie de l'analyse en aval se concentrera sur la façon dont les signatures découvertes par traitement World Community Grid finiront par se connecter à des voies et d'autres recherches. Nous avons utilisé Mevalonate comme un exemple, mais il y a beaucoup plus qui peut être examiné pour évaluer la viabilité de nos meilleures signatures.

Table 1. Liste des voies biologiques enrichies avec des gènes de « paire découvert » du MCM. P-valeurs < 0,01 indiquent une signification indéniable.

Figure 3. Chemins biologiques enrichis par des cibles de biomarqueurs dans la seconde étape (tailles 10 et 20) et la troisième (toutes tailles). Certains chemins sont communs aux trois.

Transition de l'analyse du cancer du poumon à l'analyse du cancer de l'ovaire

La troisième étape est presque terminée, et sera la dernière pièce de l'analyse de cancer du poumon par MCM sur le World Community Grid avant que nous passions au cancer de l'ovaire.

Le cancer de l'ovaire est une tumeur maligne gynécologique qui occupe le 8e rang pour l'incidence et 5ème pour le taux de mortalité parmi tous les cancers féminins. Le programme du SEER (American National Cancer Institute's Surveillance, Epidemiology, and End Results) estime à 22 240 nouveaux cas et 14 030 décès de cancer de l'ovaire en 2013. Les patients sont généralement diagnostiqués à un stade avancé (61% présentent un cancer métastasé) et ont un mauvais pronostic (27,3 mois pour le cas métastasé).

Le cancer de l'ovaire a été choisi comme notre prochain ensemble de données en raison de la longue expérience de cette maladie dans notre propre laboratoire, dont ceux de collaborateurs. Nous sommes impatients d'utiliser MCM pour glaner de nouvelles connaissances sur le cancer des ovaires.

Nous prévoyons que la transition vers la recherche de cancer de l'ovaire commencera début 2016, et ne prévoyons aucune interruption dans le flux d'unités de travail.

Nous tenons à remercier les membres du World Community Grid pour leur soutien.