Récapitulatif
Le projet Uncovering Genome Mysteries a pris fin, mais le travail de l'équipe de recherche se poursuit alors qu'elle analyse les résultats des calculs et se prépare à appliquer les données à des applications médicales, agricoles et autres applications réelles.

UGM plongeur
Un plongeur recueille des échantillons de bois de mer au large des côtes australiennes. 
Uncovering Genome Mysteries a analysé les séquences de protéines d'une grande variété de formes de vie dans de nombreux environnements tels que l'océan.

 

Contexte
La découverte des mystères du génomeLe projet a commencé sur World Community Grid en novembre 2014, dans le but d'analyser les séquences de protéines pour aider à comprendre comment les organismes fonctionnent et interagissent entre eux et avec l'environnement. Le projet a débuté avec 120 millions de séquences de protéines prévues pour près de 150 000 organismes. Ces séquences de protéines et ces organismes représentent une grande variété de formes de vie connues ou non caractérisées dans notre biosphère. Ils provenaient d'organismes dans des échantillons prélevés dans divers environnements, y compris l'eau et le sol, ainsi que sur et à l'intérieur des plantes et des animaux. En outre, 70 millions de séquences, dérivées d'une analyse prospective des informations génétiques des écosystèmes marins microbiens d'Australie, ont été ajoutées, avec l'objectif d'ajouter à l'identification des fonctionnalités possibles de ces séquences. En juillet 2015,

Grâce aux contributions enthousiastes de plus de 76 000 volontaires du World Community Grid, toutes ces séquences protéiques ont été analysées en environ 24 mois.

Découvrir les mystères du génome a été un projet difficile et ambitieux. Analyser toutes les enzymes et autres protéines prévues encodées dans les informations génétiques connues jusqu'ici de tous les organismes et formes de vie de notre biosphère est une tâche considérable. En raison du développement de nouvelles technologies de séquençage pour une détermination rapide et bon marché du code génétique, des informations de base supplémentaires deviendront disponibles à un rythme accéléré, ce qui rendra de plus en plus difficile d'effectuer une analyse comparative aussi complète à l'avenir. 

Notre tâche ardue consistant à effectuer près de 100 quadrillions de comparaisons est maintenant terminée. Les données résultantes représentent plus de 30 téraoctets d'informations compressées (plus de 150 téraoctets non compressés), même si chaque comparaison n'a abouti qu'à une seule ligne de chiffres pour les similitudes de probabilité les plus élevées entre les séquences de protéines.

Résultats à ce jour et plans pour l'avenir
Alors, quelle est la prochaine étape? L'équipe de recherche de Fiocruz a passé la dernière année à concevoir et tester de nouveaux algorithmes pour transformer la sortie des comparaisons avec des calculs de distance entre les génomes des organismes inclus. La littérature scientifique cite de nombreuses façons différentes de le faire, selon le but de l'analyse et les points de vue sur la biologie évolutive.

Les résultats de la découverte des mystères du génome peuvent être résumés comme suit:

  1. Des informations plus complètes et précises sont désormais disponibles sur la structure et la fonction des protéines codées par les organismes vivants dans notre biosphère. De plus en plus de protéines sont étudiées et expérimentées chaque jour dans des milliers de laboratoires à travers le monde, et en utilisant les résultats de la comparaison effectuée dans le cadre du projet, des parallèles fonctionnels peuvent être établis pour les protéines qui présentent une similitude structurelle entre les organismes. Ceci est particulièrement utile lorsque les fragments de protéines prévus sont comparés à partir d'organismes non caractérisés, par exemple dans des études environnementales et écologiques, telles que celles provenant du laboratoire du co-investigateur Dr Torsten Thomaset son équipe du Center for Marine Bio-Innovation & de la School of Biological, Earth and Environmental Sciences de l'Université de New South Wales, Sydney, Australie. La base de données résultante avec ces annotations fonctionnelles sera mise à la disposition du public en tant que prochaine version de notre base de données de comparaison de protéines, ProteinWorldDB , dans les prochains mois.
  1. La comparaison permet de découvrir de nouvelles fonctions protéiques pouvant avoir des applications médicales, agricoles, technologiques ou industrielles. Il peut s'agir de nouveaux produits biopharmaceutiques, de bioinsecticides, de biodégradation des déchets ou d'enzymes pour la production de produits chimiques, mais surtout lorsqu'ils font partie de nouvelles voies biochimiques dans les cellules, qui aident les laboratoires à développer une nouvelle chimie verte ou une production d'énergie, ou la biosynthèse et la transformation de nouveaux médicaments . Cela ajoute également à la connaissance croissante de la biotechnologie et de la biologie synthétique.
  1. Le groupe de Fiocruz a développé de nouvelles façons de comparer les génomes de différents organismes. Traditionnellement, ces analyses tiennent compte de ce qui est conservé entre les génomes, ce qui entraîne des calculs de distance qui sont utilisés pour les études phylogénétiques et l'estimation des relations évolutives entre les organismes. Cependant, nous pensons que ce n'est qu'une partie de l'image, et l'équipe Fiocruz a conçu un nouvel algorithme qui prend également en compte les différences. Ceci a été couplé à une nouvelle méthode de visualisation pour de telles comparaisons, résultant en un moyen nettement plus rapide d'ajouter de nouvelles données à l'image. Nous espérons que cette méthode nous permettra de garder une trace des données de nouveaux organismes qui deviennent disponibles, en ajoutant des résultats à la base de données ProteinWorld DB en pleine croissance .

Merci à tous les bénévoles du World Community Grid qui ont soutenu ce projet, et nous prévoyons de rester en contact alors que nous aurons d'autres nouvelles sur nos recherches en cours.

 

Par: Wim Degrave, Ph.D.
Laboratoire de génomique fonctionnelle et de bioinformatique Instituto Oswaldo Cruz - Fiocruz
15 déc. 2016
 
 

Traduction de la page du site : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=509