Aider à vaincre le cancer est un projet de l'institut du cancer de l'Ontario qui se donne comme objectif l'amélioration des techniques de cristallographie des protéines. La cristallographie est l'une des trois technique qui permet de déterminer la structure 3D d'une protéine, c'est-à-dire la manière dont les acides aminés sont agencés les uns par rapport aux autres dans l'espace. Ce champ de recherche est central, puisque la structure 3D d'une protéine est intimement liée à sa fonction.
Les calculs effectués sur le projet "Aider à vaincre le cancer" visent à analyser et à comparer les images de la cristallographie de 9.400 protéines suspectées de jouer un rôle dans le développement de différents cancers.
La recherche a débuté le 6 novembre 2007 sur World Community Grid et bénéficie actuellement du tiers de la puissance de calcul de la grille (environ 50 Teraflops)
En janvier, l'équipe de recherche a communiqué un document pdf (January 2008 update) pour faire le point sur les progrès des calculs et exposer plus en détail la méthodologie du projet. Voici la traduction :
Extraction d'éléments spécifiques à l'image
Même si plus de 84 millions d'images devront être traitées, nous nous concentrons tout d'abord sur un échantillon de 85.261 images bien définies. Toutes ces images proviennent du criblage à haut débit de plus de 9400 protéines réalisé grâce à la plateforme technologique située à l'institut de recherche médical Hauptman Woodward (HWI). Les automates sont programmés pour tester chaque protéine sous 1536 conditions. Chaque expérience est effectuée sur une plaque constituée de 1536 puits comme vous pouvez le voir sur l'image ci contre.
Le groupe prioritaire d'images couvrait un large éventail de résultats potentiels, il a été analysé sous toutes les coutures par les experts du HWI. World Community Grid a également analysé les caractéristiques de chacune de ces images, le résultat se présente sous la forme d'une matrice (85.000 ; 12.000).
Ces données exceptionnelles sont actuellement en cours d'analyse afin de nous aider à atteindre plusieurs de nos objectifs à court terme :
1. Comparer avec minutie les 12.000 caractéristiques obtenues durant l'analyse des images par la mise en place de 10 catégories qui nous permettront de déterminer les associations fortes entre les indices de reconnaissance et les groupes. Cette étape exploratoire était nécessaire, car, par le passé, la complexité des calculs interdisait l'examen exhaustif d'un grand nombre d'images.
La distribution des indices de reconnaissance selon les groupes d'image est représentée ci-dessous. Les indices de reconnaissance sont divisés en 100 groupes, ordonnés de telle façon que les indices des images soient également distribués dans chaque groupe. (Par conséquent, 1 groupe = 1 centile. Les indices de reconnaissance inférieurs à 1% tombent dans le groupe 1, les 1% suivant dans le groupe 2, et ainsi de suite). Si l'on ne tient pas compte de ces catégories d'image, chaque groupe devrait être organisé de manière égale. Chaque représentation montre la distribution de ces indices de reconnaissance par groupe d'image (normalisé par groupe). Les fortes discordances entre les groupes sont clairement apparentes pour de nombreuses caractéristiques. Chacune de ces 10 catégories est représenté sur une ligne horizontale. Les pixels de cette ligne correspondent à différentes caractéristiques. Des pixels plus clairs signalent des groupes plus peuplés. La légende suivante décrit chacune des 10 lignes de l'image (du haut vers le bas)
a. Transparent
b. Séparation de phase
c. Séparation de phase & précipité
d. Séparation de phase & enveloppe
e. Séparation de phase & cristal
f. Précipité
g. Précipité & enveloppe
h. Précipité & cristal
i. Cristal
j. Reliquat
2. Au vu de la complexité informatique du problème, nous voulions éliminer les caractéristiques non porteuses d'information et les caractéristiques porteuses d'une information limitée mais au prix d'un énorme coût en puissance informatique. L'analyse de petits groupes d'images pourrait mener à des décisions inopportunes au moment de choisir une caractéristique plutôt qu'une autre. Par le passé, ces décisions étaient fréquemment guidées par un objectif de réduction de la puissance informatique et de la mémoire requise. Avec l'aide de WCG et de la communauté, pour la première fois, nous serons en mesure de choisir les caractéristiques appropriées dans une expérience élargie.
Un schéma représentant les corrélations entre les caractéristiques calculées, en ignorant les groupes d'image est représenté ci-dessous. Il existe une relation complexe entre forte corrélation et anti-corrélation
3. L'utilisation d'une série de caractéristiques améliorées permettra une meilleure classification des images cristallographiques par l'automate. Ce qui permettra par la suite de poursuivre les analyses : l'exploration des données pour déterminer les principes de la croissance cristalline, et l'utilisation d'une approche fondée sur le raisonnement à partir de cas précis pour améliorer la cristallisation.
Sur le long terme, nous utiliserons un logiciel de classification d'images cristallographiques amélioré pour analyser les images restantes. Cette analyse nous permettra :
- D'améliorer notre compréhension du processus de cristallisation. En unifiant, dans une même base de données, des informations sur la structuration chimique et les résultats de 14 millions d'expériences sur 9400 protéines (1536 conditions de cristallisation par protéine et 6 clichés sur une période de 4 semaines), nous espérons améliorer nos connaissances de la chimie des protéines.
- Découvrir des protéines qui ont déjà été criblées et qui pourraient avoir des conditions de cristallisation favorable mais qui seraient passées à travers l'analyse lors de la première phase. Ceci exige une amélioration de l'outil qui permet la classification et donc des résultats tels que vous pouvez les voir ci-dessous :
- Mettre à jour la base de donnée et comparer toute nouvelle analyse de protéine avec les résultats obtenus pour les 9400 protéines déjà analysées. Puis déterminer si des optimisations de la cristallisation pourraient être mises en pratiques pour obtenir la structure de la nouvelle protéine.
Sélection de la cible
Il est possible d'utiliser plusieurs stratégies pour sélectionner des cibles en biologie structurale :
- Cibles cancéreuses : nous utilisons l'informatique combinatoire en cancérologie pour découvrir de nouveaux bio-marqueurs. Avec pour objectif de détecter la maladie plus rapidement, détecter les marqueurs pronostics et les marqueurs qui permettront d'optimiser le traitement ou d'évaluer les réponses au traitement. Nous nous concentrons principalement sur le cancer du poumon, de la prostate, de l'ovaire, de la tête et du cou. Découvrir des cibles n'est qu'une étape. Nous devons les valider massivement; nous ne connaissons pas leur structure pour beaucoup d'entre eux, nous devons donc la déterminer expérimentalement. Les résultats des calculs du WCG nous permettront d'atteindre cet objectif.
- Cibles importantes : les structures des protéines se doivent d'être connues dans beaucoup de maladies, ou pour de nombreuses études biologiques élémentaires. Pour permettre une telle recherche à grande échelle, les installations de l'institut Hauptman Woodward analyse les protéines partout dans le monde. A ce jour, l'institut aide 800 laboratoires. Cette très large couverture assure que toutes les protéines importantes seront prises en considération.
- Elargir l'espace des repliements couverts : sélectionner par l'informatique les protéines cibles pour maximiser l'unicité des repliements découverts
L'expérience
Cristallographie des protéines
Les protéines sont impliquées dans tous les processus biochimiques qui permettent la vie. Comprendre la structure des protéines pourra nous aider à comprendre les fonctions de ces importantes molécules. La fonction d'une protéine dépend de sa structure tridimensionnelle.
Il existe trois principales approches pour déterminer la structure d'une protéine : la prédiction in silico (test effectué au moyen de l'outil informatique), la résonance magnétique nucléaire et l'utilisation des rayons X en cristallographie. Actuellement, la méthode la plus efficace pour déterminer la structure d'une protéine est l'analyse des cristaux par diffraction de rayons X, même si de nouvelles innovations dans le domaine de la résonance magnétique nucléaire font que cette approche gagne en importance. L'utilisation de la méthode informatique peut également s'avérer plus adéquate lorsque l'on est en présence d'un grand nombre de structures.
Une expérience de cristallographie débute avec un cristal aux formes régulières qui diffracte idéalement les rayons X, plus le cristal tend vers la perfection et plus la résolution sera grande. Malgré les progrès de cette technique expérimentale, la cristallisation de nouvelles protéines reste un défis, et nous connaissons encore très peu les lois qui font que les protéines adoptent leur structure tridimensionnelle. Ainsi, comprendre ces lois est l'un des défis prioritaire de la biologie moléculaire moderne.
La cristallisation est un processus qui demande l'adéquation de plusieurs paramètres et se déroule en 3 étapes : nucléation, croissance et agglomération. Il existe 2 explications à la difficulté de la technique :
- Un grand nombre de paramètres affectent les résultats de la cristallisation : la pureté de la protéine, sa sursaturation, sa température, son pH, la durée, sa force ionique et la pureté des échantillons chimiques, leur volume et leur géométrie.
- Nous ne comprenons pas encore entièrement les corrélations entre la variation d'un paramètre et la propension à se cristalliser d'une macro-molécule donnée
Théoriquement, la croissance du cristal d'une protéine peut être divisé en 2 phases : la recherche et l'optimisation. La phase de recherche détermine une partie de toutes les conditions de cristallisation possibles qui amènent à la cristallisation de la protéine. Ces conditions sont modifiées durant la phase d'optimisation pour produire des cristaux avec une bonne qualité de diffraction. Aucune de ces deux phases n'est superficielle. Si vous considérez seulement 15 conditions possibles, chacune ayant 15 valeurs possibles, il en résultera 4,3789e017 expériences possibles; on voit bien qu'il est impossible de tous les tester de manière exhaustive. De même, une phase de recherche élargie ne produira pas forcément des conditions prometteuses et de nombreux indices prometteurs feront échouer les stratégies d'optimisation.
Nous pouvons accélérer la phase de recherche et améliorer la phase d'optimisation en appliquant une visualisation robotisée à grande échelle avec une gestion connue. Pour finir, découvrir les principes de la croissance du cristal devrait diminuer les goulots d'étranglement de la cristallisation des protéines dans la biologie structurale moderne.
PDB, la base de donnée des protéines
PDB est une bibliothèque internationale des différentes structures de protéine (http://www.wwpdb.org/). Il est important d'améliorer la détermination de la structure des protéines, car à l'heure actuelle, seulement 37.404 structures de différents organismes sont disponibles. Etant donné que que l'homme possède 25.000 gènes, qui pour la plupart codent une ou plusieurs protéines, nous avons un long chemin à faire avant de déterminer la structure de toutes les protéines de l'Homme. C'est en rationalisant le processus, en combinant une meilleure compréhension de la chimie des protéines et l'utilisation des technologies de la robotique et de l'information, que nous serons en mesure d'atteindre cet objectif.
La sélection des cibles, l'informatique intégrative en cancérologie
Malgré l'introduction de nombreux agents chimiothérapeutiques au cours des deux dernières décennies, de nombreux cancers pèsent encore très lourd sur les taux de mortalité. Pour améliorer sensiblement la recherche sur le cancer, il faudra découvrir de nouvelles approches thérapeutiques pour cibler les métastases de la maladie, diagnostiquer les marqueurs reflétant les changements associés aux premiers signes de la maladie. De meilleurs médicaments pourront être fabriqués, et les médicaments actuels seront rendus plus efficaces par re-engineering ou par une combinaison de thérapies basées sur une meilleure information. L'intégration de techniques bio-informatique est indispensable pour pouvoir s'attaquer à ces complexes problèmes biologiques et influencer la biologie à grande échelle. Ces techniques permettent d'analyser de nombreuses données, développer et appliquer divers algorithmes pour l'analyse et la visualisation de données composites.
La bio-informatique permettra l'analyse, la visualisation, l'interprétation et la modélisation intégrative de ces données. Les réseaux d'intégration entre les protéines (http://ophid.utoronto.ca/i2d) seront utilisés pour définir le métabolisme, les cibles prioritaires, réduire le "bruit" lors du criblage à haut débit et pour la mise en place d'un outil de criblage des protéines en réseau
Avant de voir émerger ce type de réseau, nous utilisons notre logiciel de visualisation en réseau, NAViGaTOR (http://ophid.utoronto.ca/navigator). Afin de réduire la complexité des graphiques, nous utilisons une technique graphique consistant à ajouter de la transparence à des objets tridimensionnels (Alpha Blending). Cette technique permet de rendre transparent les points et les arrêtes. Les points représentent les protéines, leur couleur représente leur fonction biologique issue de GeneOntology, les couleurs en gras représentent la partie de la structure biologique ciblée et en cours d'étude par l'initiative internationale de standardisation des données protéomiques (vert foncé), les marqueurs du cancer du poumon (rouge). Les arrêtes représentent les interactions entre les protéines (I2D, Interologous Interaction Database), les arrêtes en gras représentent les interactions directes entre les protéines marqueurs du cancer du poumon ayant une structure connue et déjà étudiée.