Récapitulatif

La recherche en période de pandémie est plus importante que jamais. Voici comment l'équipe du Microbiome Immunity Project progresse continuellement tout en travaillant à domicile.

Des milliards de bactéries vivent à l'intérieur et sur notre corps. Le Microbiome Immunity Project utilise la puissance de calcul de World Community Grid pour étudier les protéines produites par ces bactéries, qui sont codées dans leurs génomes. Cela aide les scientifiques à comprendre le rôle du microbiome dans la maladie.

Nous tenons à remercier tous nos bénévoles pour leur aide dans le don de précieux temps d'ordinateur ! Jusqu'à présent, nous avons exécuté plus de 300 000 séquences de protéines dans notre pipeline. Avec les modèles prédits et notre nouvelle méthode d'annotation fonctionnelle, nous avons enfin commencé une plongée plus profonde dans l'analyse de nos données !

MIP Zoom Meeting
La réunion de printemps du Microbiome Immunity Project a été virtuelle plutôt qu'en tête à tête cette année.  
Rangée du haut (de gauche à droite): Mary Maranga, Richard Bonneau, Tomasz Kościółek
Rangée du
milieu (de gauche à droite): Julia Koehler Leman, Paweł Szczerbiak, Daniel Berenberg
Rangée du bas (de gauche à droite): Douglas Renfrew, Vladmir Gligorijevic, Chris Chandler
Pas sur la photo: Tommi Vatanen

 

Nous devions nous réunir à New York en mars pour notre assemblée générale de recherche régulière. Cependant, en raison de la pandémie de COVID-19, cette réunion n'a pas pu avoir lieu en tête à tête. Au lieu de cela, nous avons eu des appels vidéo de plusieurs heures via Zoom au cours de ces trois jours, du 18 au 20 mars. Des chercheurs des États-Unis (New York), de Pologne et de Nouvelle-Zélande ont participé à la réunion. Trouver un moment qui a fonctionné pour tout le monde dans ces trois fuseaux horaires différents à travers le monde a été difficile, mais nous l'avons réussi.

 

Le progrès

Notre article sur l'annotation fonctionnelle de la séquence et de la structure (vous pouvez consulter une préimpression ici - traduction cadre en bas de page) a été soumis et est actuellement en cours de révision. Nous croisons les doigts pour des critiques positives !

Nous travaillons également sur deux autres articles qui plongent dans les données collectées tout au long de ce projet, à la fois expérimentales et nos prévisions. Pour cela, nous avons commencé à travailler sur une base de données qui rend ces données facilement accessibles et analysables pour nous en tant que groupe, puis pour la communauté scientifique générale et pour vous tous ! Beaucoup de travail reste à faire, mais assurons-nous que nous progressons. Pour relever ces défis, nous avons également de nouveaux membres dans notre groupe qui peuvent nous aider. L'équipe polonaise s'agrandit grâce à un étudiant diplômé supplémentaire et un stagiaire postdoctoral et notre équipe de NYC a un autre ingénieur logiciel qui nous aide à mettre en place les bases de données. Bienvenue dans notre équipe: Paweł, Mary et Chris.

Dans d'autres nouvelles marquantes, Bryn Taylor, membre de l'équipe de recherche, a défendu avec succès sa thèse de doctorat le 14 avril. Conformément à l'époque, sa défense a été menée via Zoom, ce qui signifiait qu'un grand groupe de famille, d'amis et de collègues pouvait y assister. Félicitations, Dr Taylor !

Nos activités de recherche ont toujours impliqué le travail à distance et la communication en ligne. En ces temps difficiles, nous travaillons aussi fort que jamais et nous espérons que tous les volontaires du World Community Grid prennent des mesures pour rester en sécurité et en bonne santé. Nous vous remercions pour votre soutien continu !

 

Extrait
Les récentes augmentations massives du nombre de séquences disponibles dans les bases de données publiques remettent en question les approches expérimentales actuelles pour déterminer la fonction des protéines. Ces méthodes sont limitées à la fois par la grande échelle de ces bases de données de séquences et la diversité des fonctions protéiques. Nous présentons un réseau convolutionnel de graphes d'apprentissage en profondeur (GCN) formé sur les données de séquence et de structure et l'évaluons sur des protéines ~ 40k avec des structures et des fonctions connues de la Protein Data Bank (PDB). Notre GCN prédit les fonctions avec plus de précision que les réseaux de neurones convolutifs formés uniquement sur les données de séquence et les méthodes concurrentes. L'extraction d'entités via un modèle de langage élimine le besoin de construire plusieurs alignements de séquences ou d'ingénierie d'entités. Notre modèle apprend les relations structure-fonction générales en prédisant de manière robuste les fonctions des protéines avec une identité de séquence ≤ 30% à l'ensemble d'apprentissage. En utilisant la cartographie d'activation de classe, nous pouvons identifier automatiquement les régions structurelles au niveau des résidus qui conduisent à chaque prédiction de fonction pour chaque protéine prédite en toute confiance, faisant progresser la prédiction de fonction spécifique au site. Le débruitage inhérent au modèle entraîné ne permet qu'une baisse mineure des performances lorsque des prédictions de structure sont utilisées, y compris plusieursprotocoles de novo . Nous utilisons notre méthode pour annoter toutes les protéines dans la PDB, faisant plusieurs nouvelles prédictions de fonctions confiantes couvrant à la fois les arbres de pli et de fonction.

 

Par: L'équipe de recherche du Microbiome Immunity Project 
11 mai 2020 

 

 traduit de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=625