Récapitulatif
Les données Uncovering Genome Mysteries (toutes les 30 téraoctets) ont été transférées aux équipes de recherche au Brésil et en Australie cette année. Maintenant, les chercheurs analysent cette grande quantité de données et cherchent des moyens de le rendre plus facile à comprendre pour d'autres scientifiques et le public.

 

https://youtu.be/A74_9815jeY
Dans cette vidéo, le Dr Torsten Thomas explique les principaux objectifs du projet Uncovering Genome Mysteries.

 

Contexte
L'année dernière, les bénévoles de World Community Grid ont terminé les calculs du projet Uncovering Genome Mysteries , qui a examiné environ 200 millions de gènes d'une grande variété de formes de vie pour aider à découvrir de nouvelles fonctions protéiques. Les principaux objectifs du projet sont les suivants:

  • Découvrir de nouvelles fonctions protéiques et accroître les connaissances sur les processus biochimiques en général
  • Identifier comment les organismes interagissent entre eux et avec l'environnement
  • Documenter la diversité microbienne de base actuelle, permettant une meilleure compréhension de la façon dont les micro-organismes changent sous les stress environnementaux, tels que le changement climatique
  • Comprendre et modéliser des systèmes microbiens complexes

Transfert de 30 téraoctets de données
Les données générées par les volontaires du World Community Grid ont été regroupées sur le nouveau serveur de bioinformatique de la Fondation Oswaldo Cruz ( Fiocruz ), sous la direction du Dr Wim Degrave. De plus, une copie complète de toutes les données a été envoyée au co-investigateur Dr. Torsten Thomas et à son équipe du Center for Marine Bio-Innovationet l'École des sciences biologiques, de la terre et de l'environnement de l'Université de New South Wales à Sydney, en Australie. À l'Université de Nouvelle-Galles du Sud, les résultats des comparaisons de protéines aideront à interpréter les analyses des écosystèmes bactériens marins, où les micro-organismes, les récifs coralliens, les éponges et de nombreuses autres créatures intrigantes interagissent et forment leurs communautés de vie. L'ensemble de données, plus de 30 téraoctets sous forme hautement compressée, a mis quelques mois à être transféré du Brésil à l'Australie.

Traitement et analyse des données chez Fiocruz
L'équipe Fiocruz a été occupée à poursuivre le traitement de la sortie principale du projet. Dans le flux de travail, les données brutes sont développées et déchiffrées, associées aux comparaisons inter-génomes correctes, vérifiées pour les erreurs, tabulées et associées à de nombreux objets de données différents pour les transformer en informations significatives.

L'équipe est confrontée à la croissance rapide de la taille de la base de données et a acheté et installé du nouveau matériel (600 To) pour aider à héberger toutes les données. Ils souhaitent également construire une interface de base de données qui plaira au grand public intéressé par la biodiversité, et pas seulement aux scientifiques qui se spécialisent dans l'analyse fonctionnelle des protéines codées dans les génomes de formes de vie particulières.

Certaines des données sont actuellement utilisées dans des projets tels que la conception de vaccins et de médicaments contre les arbovirus tels que les virus Zika, la dengue et la fièvre jaune, mais aussi pour comprendre l'interaction des bactéries avec leur environnement et comment cela se reflète dans leurs voies métaboliques, lorsque les bactéries vivant librement sont comparées à leurs proches parents qui sont des agents pathogènes humains, tels que Mycobacterium tuberculosis par rapport aux mycobactéries environnementales.

Recherche de partenariats
Fiocruz recherche des partenariats qui ajouteraient des analyses de données supplémentaires et de l'intelligence artificielle au projet. Les chercheurs aimeraient inclure des visualisations des connexions fonctionnelles entre les organismes ainsi que des particularités d'une grande variété d'organismes, y compris les bactéries archaéales d'évent thermique en haute mer; les bactéries et les protistes (tout organisme unicellulaire qui n'est pas un animal, une plante ou un champignon) du sol, de l'eau, de la terre et de la mer ou qui sont importants pour la santé humaine, animale ou végétale; et des génomes végétaux, animaux et humains très complexes.

Nous remercions tous ceux qui ont participé à la partie World Community Grid de ce projet, et nous sommes impatients de partager plus de mises à jour pendant que nous continuons d'analyser les données.

 

24 nov. 2017

 

Traduction de la page du site : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=544