Voici une petite news d'Alessandra Carbone, traduite par f11ksx, donnant quelques explications sur le projet "HELP CURE MUSCULAR DYSTROPHY" phase II, juste avant que les scientifiques partent en vacances.
Salut à tous,
J'ai pensé essayer d'expliquer ce que nous faisons maintenant avant que vous ne preniez des vacances, comme les scientifiques ici. J'espère que ça aidera à sentir que les choses s'améliorent et que le projet est très actif de notre coté. En fait une nouvelle personne rejoindra le groupe en septembre, Anne Lopez. Anne est professeur adjoint en structures bio informatiques, elle a une formation en physique et chimie. elle est très intéressée à travailler sur les problèmes en relation avec les protéines, avec une approche que nous avons développée, et sur l'analyse de la masse colossale de données que vous avez produite!
L'état de l'art est le suivant :
Dans l'article [S. Sacquin-Mora, A. Carbone and R. Lavery (2008), Identification of protein interaction partners and protein-protein interaction sites, Journal Molecular Biology 382, p1276-1289] nous avons développé une méthode numérique pour détecter les protéines partenaires. La méthode a été présentée et testée sur une petite quantité de protéines complexes connues. Comme vous pouvez l'imaginer, dès que les données du HCMD phase 1 sont arrivées (merci pour votre contribution) nous avons re-testé cette approche pour vérifier de façon sûre que nous pouvions confirmer les résultats sur un plus grand jeu de données. Ce qui est vraiment le cas, la méthode marche, et nous pouvons distinguer les protéines partenaires parmi les environ 150 protéines testées. Nous avons observé que le signal est tellement moins caractérisable quand nous travaillons avec 150 protéines qu'avec 12 protéines (comme sur le papier), que ceci nous laisse à penser que du travail supplémentaire pourrait être donné pour améliorer la méthode numérique. Rappelez-vous que pour HCMD2 nous rechercherons jusqu'à 2.200 protéines environ.
A cette heure, nous avons amélioré la formule introduite dans l'article, et nous développons une approche "intelligente" pour arriver vite et surement à identifier un petit nombre de protéines partenaires potentielles pour chaque protéine.
Laissez-moi vous donner un aperçu sur la complexité sous-jacente du problème. Cela à un rapport avec la compréhension de la population de protéines. C'est un point important à assimiler si vous voulez comprendre un petit peu plus notre analyse. Quand nous considérons une protéine nous n'étudions pas seulement une protéine ( c'est à dire sa géométrie et ses caractéristiques physico-chimiques: ceci est déjà pris en compte dans l'algorithme d'accueil qui tourne sur vos ordinateurs et sur JET, le programme qui nous permet de prédire les sites de fixation des protéines) mais nous étudions plutôt son comportement avec la population de protéines qui sont autour de celle-ci (dans la cellule, pour le projet HCMD2 population représente les 2.200 protéines analysées dans vos ordinateurs). Pour dire autrement, quand nous regardons une protéine, nous espérons obtenir un signal sur son partenaire en regardant la façon dont elle interagit avec toutes les autres protéines de la population. Cela signifie que nous espérons étudier aussi bien les bonnes que les mauvaises interactions. L'information que vous nous donnez, nous fournit quelque idée sur ce qui est mauvais et ce qui est bon! mais ce n'est pas assez et nous utiliserons aussi quelques observations supplémentaires sur l'interaction de la protéine dans une population.
Quelques protéines sont glissantes, ceci signifie qu'elles ne semblent coller à aucun partenaire. Quelques autres sont collantes, ceci signifie qu'elles se collent à presque tout. Ensuite il y a plusieurs autres protéines (environ la moitié) qui semblent se coller à la bonne place avec quelque spécificité. Elles sont les plus faciles à étudier. Quand nous utilisons dans nos calculs, les contributions provenant de la population entière, on pourrait penser que cette contributions provient, en principe, de protéines glissantes, protéines collantes et beaucoup d'autres protéines dont le comportement est nettement moins caractérisable. "Le bruit" doit entrer dans le calcul et nous souhaitons le réduire. Étudier tout un jeu d'interactions de protéines signifie étudier à quel groupe appartient la protéine. Une fois ceci déterminé, le critère numérique que nous avons développé peut être ajusté pour prédire plus précisément un partenaire ou un petit ensemble de partenaires, quand c'est possible. La compréhension de tout le jeu de comportements que nous devons prendre en compte pour savoir comment évaluer correctement les données en provenance de WCG est notre but actuel.
Il y a quelque autres préoccupations qui sont dans notre analyse, et elles ont un rapport avec:
1. l'aspect algorithmique concernant la manipulation de grandes quantités d'information à être combinée avec l'approche "d'étude" que j'ai mentionnée ci-dessus.
2. le fait que sur HCMD phase 2 nous utilisons la prédiction JET d'interactions de protéines dans notre critère numérique au lieu de véritables interfaces réelles comme cela se fait dans le document cité ci-dessus.
Ces informations peuvent vous donner quelque aperçu sur la complexité de la question à laquelle nous faisons face aujourd'hui. J'espère que chacun ressentira que nous avançons ensemble, pour un projet bien vivant, et espérons-le qui nous réservera des surprises excitantes à tous. Nous l'attendons.
Passez un bon été.
Alessandra.