WCG - Microbiome Immunity Project : Mise à jour de décembre
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Récapitulatif
Les chercheurs et les développeurs du World Community Grid continuent de travailler sur un nouveau type potentiel d'unité de travail pour le projet.
Contexte
Des milliards de bactéries vivent à l'intérieur et sur notre corps. Le Microbiome Immunity Project utilise la puissance de calcul du World Community Grid pour étudier les protéines produites par ces bactéries, qui sont codées dans leurs génomes. Cela aide les scientifiques à comprendre le rôle du microbiome dans la maladie.
Jusqu'à présent, les chercheurs ont exécuté plus de 300 000 séquences de protéines dans leur système, et ils auront plus de séquences à exécuter à l'avenir.
Nouveau type d'unité de travail potentiel
Comme nous l'avons mentionné pour la première fois dans la mise à jour d'octobre, l'équipe de recherche souhaite apporter des modifications aux unités de travail qu'elle soumet au World Community Grid. Ces changements pourraient potentiellement accélérer leurs recherches.
L'équipe technique de World Community Grid continue de travailler avec les chercheurs sur :
- normaliser la longueur des nouvelles unités de travail,
- décider s'ils auront besoin de plus de mémoire physique que la normale,
- modification des graphiques de l’économiseur d’écran.
Nous continuerons de fournir des informations au fur et à mesure de l'avancement de ce travail.
Nouvelle technologie annoncée
Il y a quelques semaines, les chercheurs ont participé à une conférence bisannuelle sur la prédication de la structure des protéines ( CASP14 ). Cette année, ils ont entendu parler d'une toute nouvelle technologie qui pourrait avoir un impact majeur sur le problème de prédiction de la structure des protéines et sur l'étude des formes des protéines en général. Il est très excitant de voir de tels progrès sur le terrain qui nous profiteront tous à long terme.
Au cours des prochains mois, les chercheurs en apprendront davantage sur cette technologie, comment l'utiliser et si elle est réalisable sur le plan informatique à l'échelle sur laquelle ils travaillent. Ils nous feront savoir si / quand le projet d'immunité au microbiome l'adoptera.
État actuel des unités de travail
- Disponible pour téléchargement : 4 242 lots
- En cours : 4.864 lots (5.865.035 unités de travail)
- Terminé : 321694 lots (2476 lots au cours des 30 derniers jours, soit une moyenne de 82,5 lots par jour)
- Reste-à-faire estimé: 51 jours
11 déc. 2020
traduction de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=672
- Affichages : 1053
WCG - Africa Rainfall Project : Mise à jour de décembre
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Récapitulatif
Le chercheur principal a récemment fait deux présentations sur le projet et les chercheurs recevront une aide universitaire pour aider à améliorer l'organisation de leurs données.
Contexte du projet
Dans le cadre du projet Africa Rainfall Project, des chercheurs de l'Université de technologie de Delft créent des simulations informatiques à haute résolution de tempêtes de pluie localisées en Afrique subsaharienne. Grâce à la puissance de calcul massive et participative de World Community Grid, ils peuvent exécuter des simulations à une résolution beaucoup plus élevée, exactement ce qui est nécessaire pour les orages localisés. Cela n'a jamais été fait pour les orages dans cette région.
Ceci est important car 95% de l'agriculture en Afrique dépend des précipitations. Le projet utilise les données générées par le World Community Grid, les données de The Weather Company et d'autres informations pour fournir des prévisions de précipitations plus précises, ce qui aidera les agriculteurs à mieux cultiver.
Analyse des résultats
L'Université de technologie de Delft fournira aux scientifiques du projet environ 340 heures d'assistance pour aider à l'organisation continue des données. Les chercheurs prévoient d'utiliser cette assistance pour mettre en place une structure afin de rendre les énormes quantités de données qu'ils reçoivent faciles à analyser et à lire.
Deux présentations récentes
Le chercheur principal du projet a fait une présentation lors de deux conférences virtuelles au début du mois. Les chercheurs préparent une mise à jour du projet pour les volontaires sur la base de ces documents.
État actuel des unités de travail
World Community Grid envoie actuellement les générations 39 et 40.
(Une génération est un ensemble de travaux - dans ce cas, un ensemble de simulations informatiques des précipitations en Afrique subsaharienne.)
8 déc. 2020
traduction de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=670
- Affichages : 982
WCG : Les changements de code à venir aideront à améliorer Mapping Cancer Markers
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Récapitulatif
Dans cette mise à jour, l'équipe de recherche Mapping Cancer Markers explique comment un changement de code relativement petit pourrait avoir un impact important sur la capacité du projet à analyser les marqueurs pour différents types de sarcome.
Contexte
Mapping Cancer Markers vise à identifier les marqueurs (parfois appelés signatures) associés à divers types de cancer. Le projet analyse des millions de points de données collectés à partir de milliers d'échantillons de tissus de patients sains et cancéreux. Jusqu'à présent, ceux-ci comprenaient des tissus atteints de cancer du poumon, de cancer de l'ovaire et de sarcome.
Élargir notre capacité à travailler avec des ensembles de données
Des changements de code arrivent bientôt pour améliorer le projet Mapping Cancer Markers. Ces changements élargiront la capacité de l'application Mapping Cancer Markers à traiter des ensembles de données multi-étiquettes et lui permettront de rechercher des signatures plus spécifiques en leur sein.
Figure 1A (ci-dessus) : Cela représente l'ensemble de données sur le sarcome, avec sept sous-types d'échantillons. Mapping Cancer Markers peut utiliser le jeu de données multi-étiqueté tel quel et rechercher des signatures multiclasses (un contre tous). (Le logiciel du projet peut le faire maintenant.)
Avant le jeu de données sur le sarcome, le projet a analysé des jeux de données sur le cancer du poumon et de l'ovaire, qui ont tous deux des étiquettes binaires. Notre ensemble de données sur le cancer du poumon a étiqueté les échantillons comme «cancer» ou «pas de cancer». Notre ensemble de données ovariennes a qualifié les échantillons de survie courte ou longue. L'ensemble de données sur le sarcome est multi-marqueur et marque les échantillons avec sept sous-types différents de sarcome (voir la figure 1A ci-dessus).
La figure 1B (ci-dessus) montre comment MCM peut réduire le sarcome à un ensemble de données binaires, en divisant les sous-types en deux groupes et en recherchant des signatures binaires. (Le logiciel du projet peut le faire maintenant.)
La figure 1C montre une réduction alternative à un ensemble de données binaires. (Le logiciel du projet peut le faire maintenant.)
Lorsqu'un ensemble de données a des étiquettes binaires, Mapping Cancer Markers trouvera des signatures qui peuvent prédire cette étiquette binaire. Avec un ensemble de données multi-étiquettes, cependant, nous pouvons diriger Mapping Cancer Markers pour rechercher des signatures binaires ou multiclasses (voir les figures 1B et 1C ci-dessus pour des exemples). Actuellement, le projet recherche les deux dans l'ensemble de données sur le sarcome. Une signature de sarcome multiclasse distingue chaque sous-type de tout autre; étant donné n'importe quel échantillon de sarcome, il diagnostiquera le sous-type de cancer spécifique. Une signature de sarcome binaire distingue un groupe de sous-types du reste, mais ne distingue pas les sous-types spécifiques. Par exemple, parmi les sept sous-types de sarcome, il y a deux sous-types de leimyosarcome (LMS), les tissus mous et l'utérus. Mapping Cancer Markers recherche actuellement des signatures binaires qui distinguent LMS des autres.
La figure 1D montre comment les nouvelles capacités de Mapping Cancer Marker permettront à une unité de travail de se concentrer sur des sous-types spécifiques. Les échantillons exclus sont gris et barrés. (Nouveau code.)
La figure 1E montre les nouvelles capacités du Mapping Cancer Marker dans leur intégralité, en excluant les échantillons individuels et en modifiant leurs étiquettes. Les échantillons réétiquetés sont encadrés en noir. (Nouveau code.)
Lors de la planification de la transition du projet vers le sarcome, nous avons réalisé que nos experts en sarcome avaient des questions scientifiques sur le sarcome qu'ils voulaient explorer et qui nécessitaient plus de flexibilité dans la conception de l'unité de travail que ce qui était possible avec l'application existante. Ils voulaient explorer les différences entre deux ou plusieurs sous-types spécifiques de sarcome, et en exclure d'autres de l'analyse (voir figure 1D). (Par exemple, ils voulaient explorer des biomarqueurs qui distinguent les sous-types de LMS.) Malheureusement, la possibilité d'exclure des échantillons n'était pas intégrée à l'application originale Mapping Cancer Markers.
En travaillant ensemble, l'équipe Mapping Cancer Markers a conçu une petite extension à l'application qui ajouterait les capacités nécessaires, fournirait une flexibilité supplémentaire pour les besoins futurs et préserverait la compatibilité ascendante, tout en minimisant les changements de code totaux (Figure 1E).
Au cours des derniers mois, les bénévoles du World Community Grid ont traité des milliers d'unités de travail pour tester le nouveau code en version bêta. Ces changements nous donnent le pouvoir de procéder à des ajustements précis qui adaptent l'ensemble de données à la question précise que chaque unité de travail explorera.
Merci à tous ceux qui soutiennent Mapping Cancer Markers.
3 déc. 2020
traduction de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=669
- Affichages : 1117
WCG - Mapping Cancer Markers : Mise à jour de novembre
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Récapitulatif
Les chercheurs terminent un article sur leurs découvertes sur le cancer du poumon et poursuivent leurs travaux sur de nouvelles unités de travail sur le sarcome.
Contexte
Mapping Cancer Markers vise à identifier les marqueurs associés à différents types de cancer. Le projet analyse des millions de points de données collectés à partir de milliers d'échantillons de tissus de patients sains et cancéreux. Ceux-ci comprennent les tissus atteints de cancer du poumon, de cancer de l'ovaire et de sarcome.
Jusqu'à présent, le projet a terminé l'exécution des données sur le cancer du poumon et les marqueurs du cancer de l'ovaire sur le World Community Grid. Les chercheurs étudient actuellement les marqueurs du sarcome, qui est un groupe de cancers qui commencent dans les os, les muscles ou d'autres tissus. Vous pouvez en savoir plus sur les résultats de l'équipe de recherche à ce jour ici.
Examen des résultats des tests bêta avec de nouvelles unités de travail sur le sarcome
L'équipe de recherche a fini d'analyser les résultats des tests bêta. Ils ont demandé à l'équipe du World Community Grid de faire des tests supplémentaires afin de confirmer les résultats du test bêta. Si cela implique un test bêta supplémentaire, nous en informerons tout le monde afin que les volontaires qui souhaitent participer puissent s'assurer qu'ils sont inscrits.
Publications à propos du cancer du poumon
Les chercheurs travaillent sur un article à propos de leurs découvertes sur le cancer du poumon depuis un certain temps. Cela a inclus la collaboration avec leurs collègues qui travaillent dans l'espace clinique pour aider à étoffer le document. Ils sont maintenant proches de la rédaction finale et prévoient de commencer à soumettre le document aux revues afin d'envisager sa publication dans les prochaines semaines.
État actuel des unités de travail
- Disponible pour téléchargement : 872 lots
- En cours : 1066 lots (64 982 542 unités de travail)
- Terminé : 67506 lots
908 lots au cours des 30 derniers jours
30,3 lots en moyenne par jour
- Reste-à-faire estimé : 28 jours
24 nov. 2020 |
traduction de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=668
- Affichages : 1108
Deepmind AlphaFold: une solution à un grand défi de 50 ans en biologie
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Les protéines sont essentielles à la vie, soutenant pratiquement toutes ses fonctions. Ce sont de grosses molécules complexes, constituées de chaînes d'acides aminés, et ce que fait une protéine dépend en grande partie de sa structure 3D unique (cadre 1). Déterminer dans quelles formes les protéines se replient est connu sous le nom de «problème de repliement des protéines» (cadre 2), et représente un défi majeur en biologie depuis 50 ans. Dans une avancée scientifique majeure, la dernière version de notre système d'IA AlphaFold (cadre 3) a été reconnue comme une solution à ce grand défi par les organisateurs de la biennale Critical Assessment of Protein Structure Prediction (CASP) [Évaluation critique de la prédiction de la structure des protéines]. Cette percée démontre l'impact que l'IA peut avoir sur la découverte scientifique et son potentiel pour accélérer considérablement les progrès dans certains des domaines les plus fondamentaux qui expliquent et façonnent notre monde.
La forme d'une protéine est étroitement liée à sa fonction, et la capacité de prédire cette structure permet de mieux comprendre ce qu'elle fait et comment elle fonctionne. Bon nombre des plus grands défis mondiaux, comme le développement de traitements contre les maladies ou la recherche d'enzymes qui décomposent les déchets industriels, sont fondamentalement liés aux protéines et au rôle qu'elles jouent.
PROFESSOR JOHN MOULT
CO-FONDATEUR ET PRÉSIDENT DE CASP, UNIVERSITÉ DU MARYLAND
Cela a été un centre de recherche scientifique intensive depuis de nombreuses années, en utilisant une variété de techniques expérimentales pour examiner et déterminer les structures de protéines, telles que la résonance magnétique nucléaire et la cristallographie aux rayons X. Ces techniques, ainsi que des méthodes plus récentes comme la cryo-microscopie électronique, dépendent d'essais et d'erreurs extensifs, qui peuvent prendre des années de travail minutieux et laborieux par structure, et nécessitent l'utilisation d'équipements spécialisés de plusieurs millions de dollars.
Le "problème du repliement des protéines''
Dans son discours de remerciement pour le prix Nobel de chimie 1972, Christian Anfinsen a postulé que, en théorie, la séquence primaire d'acides aminés d'une protéine devrait déterminer pleinement sa structure. Cette hypothèse a déclenché une quête de cinq décennies pour être en mesure de prédire par ordinateur la structure 3D d'une protéine en se basant uniquement sur sa séquence d'acides aminés 1D comme alternative complémentaire à ces méthodes expérimentales coûteuses et chronophages. Un défi majeur, cependant, est que le nombre de façons dont une protéine pourrait théoriquement se replier avant de s'installer dans sa structure 3D finale est astronomique. En 1969, Cyrus Levinthal a noté qu'il faudrait plus de temps que l'âge de l'univers connu pour énumérer toutes les configurations possibles d'une protéine typique par le calcul de la force brute - Levinthal a estimé à 10 ^ 300 conformations possibles pour une protéine typique. Pourtant, dans la nature, les protéines se replient spontanément, certaines en quelques millisecondes - une dichotomie parfois appelée paradoxe de Levinthal.
Explication du repliement des protéines
Résultats de l'évaluation CASP14
En 1994, le professeur John Moult et le professeur Krzysztof Fidelis ont fondé CASP en tant qu'évaluation à l'aveugle biennale pour catalyser la recherche, suivre les progrès et établir l'état de l'art dans la prédiction de la structure des protéines. C'est à la fois la référence en matière d'évaluation des techniques prédictives et une communauté mondiale unique fondée sur un effort partagé. Fondamentalement, le CASP choisit des structures de protéines qui n'ont été déterminées expérimentalement que très récemment (certaines étaient encore en attente de détermination au moment de l'évaluation) comme cibles pour les équipes afin de tester leurs méthodes de prédiction de structure; elles ne sont pas publiés à l'avance. Les participants doivent prédire aveuglément la structure des protéines, et ces prévisions sont ensuite comparées aux données expérimentales de vérité terrain lorsqu'elles deviennent disponibles. Nous sommes redevables aux organisateurs de CASP et à toute la communauté.
AlphaFold : la réalisation d'une percée scientifique
La principale métrique utilisée par CASP pour mesurer la précision des prévisions est le test de distance globale (GDT) qui va de 0 à 100. En termes simples, le GDT peut être approximativement considéré comme le pourcentage de résidus d'acides aminés (billes dans la chaîne protéique) à une distance seuil de la position correcte. Selon le professeur Moult, un score d'environ 90 GDT est considéré de manière informelle comme compétitif avec les résultats obtenus à partir de méthodes expérimentales.
Dans les résultats de la 14ème évaluation CASP, publiés aujourd'hui, notre dernier système AlphaFold atteint un score médian de 92,4 GDT global pour toutes les cibles. Cela signifie que nos prédictions ont une erreur moyenne (RMSD) d'environ 1,6 angströms, ce qui est comparable à la largeur d'un atome (ou 0,1 nanomètre). Même pour les cibles protéiques les plus dures, celles de la catégorie de modélisation libre la plus difficile, AlphaFold atteint un score médian de 87,0 GDT (données disponibles ici).
AMÉLIORATIONS DE LA PRÉCISION MÉDIANE DES PRÉDICTIONS DANS LA CATÉGORIE DE MODÉLISATION LIBRE POUR LA MEILLEURE ÉQUIPE DE CHAQUE CASP, MESURÉE COMME LE MEILLEUR DES 5 GDT.
DEUX EXEMPLES DE CIBLES PROTÉIQUES DANS LA CATÉGORIE MODÉLISATION LIBRE. ALPHAFOLD PRÉDIT DES STRUCTURES TRÈS PRÉCISES MESURÉES PAR RAPPORT AUX RÉSULTATS EXPÉRIMENTAUX.
Ces résultats passionnants ouvrent le potentiel aux biologistes d'utiliser la prédiction de structure par ordinateur comme outil de base dans la recherche scientifique. Nos méthodes peuvent s'avérer particulièrement utiles pour des classes importantes de protéines, telles que les protéines membranaires, qui sont très difficiles à cristalliser et donc difficiles à déterminer expérimentalement.
PROFESSEUR VENKI RAMAKRISHNAN
LAURÉAT DU PRIX NOBEL ET PRÉSIDENT DE LA ROYAL SOCIETY
Notre approche du problème du repliement des protéines
Nous avons commencé CASP13 en 2018 avec notre version initiale d'AlphaFold, qui a atteint la plus grande précision parmi les participants. Ensuite, nous avons publié un article sur nos méthodes CASP13 dans Nature avec code associé, qui a inspiré d'autres travaux et implémentations open source développées par la communauté. Désormais, les nouvelles architectures d'apprentissage en profondeur que nous avons développées ont entraîné des changements dans nos méthodes pour CASP14, nous permettant d'atteindre des niveaux de précision inégalés. Ces méthodes s'inspirent des domaines de la biologie, de la physique et de l'apprentissage automatique, ainsi que, bien sûr, des travaux de nombreux scientifiques dans le domaine du repliement des protéines au cours du dernier demi-siècle.
Une protéine repliée peut être considérée comme un «graphe spatial», où les résidus sont les nœuds et les bords relient les résidus à proximité. Ce graphique est important pour comprendre les interactions physiques au sein des protéines, ainsi que leur histoire évolutive. Pour la dernière version d'AlphaFold, utilisée par CASP14, nous avons créé un système de réseau neuronal basé sur l'attention, formé de bout en bout, qui tente d'interpréter la structure de ce graphe, tout en raisonnant sur le graphe implicite qu'il construit. Il utilise des séquences liées évolutivement, un alignement de séquences multiples (MSA) et une représentation des paires de résidus d'acides aminés pour affiner ce graphique.
En répétant ce processus, le système développe de solides prédictions de la structure physique sous-jacente de la protéine et est capable de déterminer des structures très précises en quelques jours. De plus, AlphaFold peut prédire quelles parties de chaque structure protéique prédite sont fiables à l'aide d'une mesure de confiance interne.
Nous avons formé ce système sur des données accessibles au public constituées d'environ 170 000 structures protéiques de la banque de données protéiques ainsi que de grandes bases de données contenant des séquences protéiques de structure inconnue. Il utilise environ 128 cœurs TPUv3 (à peu près équivalents à ~ 100-200 GPU) exécutés sur quelques semaines, ce qui représente une quantité de calcul relativement modeste dans le contexte de la plupart des grands modèles de pointe utilisés dans l'apprentissage automatique aujourd'hui. Comme pour notre système CASP13 AlphaFold, nous préparons un article sur notre système à soumettre à une revue à comité de lecture en temps voulu.
UN APERÇU DE L'ARCHITECTURE PRINCIPALE DU MODÈLE DE RÉSEAU NEURONAL. LE MODÈLE FONCTIONNE SUR DES SÉQUENCES DE PROTÉINES LIÉES DE MANIÈRE ÉVOLUTIVE AINSI QUE SUR DES PAIRES DE RÉSIDUS D'ACIDES AMINÉS, PASSANT DE MANIÈRE ITÉRATIVE DES INFORMATIONS ENTRE LES DEUX REPRÉSENTATIONS POUR GÉNÉRER UNE STRUCTURE.
Le potentiel d'impact réel
Lorsque DeepMind a commencé il y a dix ans, nous espérions qu'un jour les percées de l'IA nous aideraient à servir de plate-forme pour faire progresser notre compréhension des problèmes scientifiques fondamentaux. Maintenant, après 4 ans d'efforts pour construire AlphaFold, nous commençons à voir cette vision se concrétiser, avec des implications dans des domaines comme la conception de médicaments et la durabilité environnementale.
Le professeur Andrei Lupas, directeur de l'Institut Max Planck pour la biologie du développement et évaluateur de CASP, nous a fait savoir que « les modèles étonnamment précis d'AlphaFold nous ont permis de résoudre une structure protéique sur laquelle nous étions bloqués pendant près d'une décennie, relançant nos efforts pour comprendre comment les signaux sont transmis à travers les membranes cellulaires. ».
Nous sommes optimistes quant à l'impact qu'AlphaFold peut avoir sur la recherche biologique et le monde en général, et nous sommes ravis de collaborer avec d'autres pour en savoir plus sur son potentiel dans les années à venir. En plus de travailler sur un article évalué par des pairs, nous explorons la meilleure façon de fournir un accès plus large au système de manière évolutive.
En attendant, nous examinons également comment les prévisions de la structure des protéines pourraient contribuer à notre compréhension de maladies spécifiques avec un petit nombre de groupes de spécialistes, par exemple en aidant à identifier les protéines qui ont mal fonctionné et à raisonner sur leur interaction. Ces informations pourraient permettre un travail plus précis sur le développement de médicaments, en complément des méthodes expérimentales existantes pour trouver plus rapidement des traitements prometteurs.
ARTHUR D. LEVINSON PHD,
FONDATEUR ET PDG CALICO, ANCIEN PRÉSIDENT-DIRECTEUR GÉNÉRAL, GENENTECH
Nous avons également vu des signes que la prévision de la structure des protéines pourrait être utile dans les efforts futurs de réponse à une pandémie, en tant que l'un des nombreux outils développés par la communauté scientifique. Plus tôt cette année, nous avons prédit plusieurs structures protéiques du virus SARS-CoV-2, dont ORF3a, dont les structures étaient auparavant inconnues. À CASP14, nous avons prédit la structure d'une autre protéine de coronavirus, ORF8. Un travail extrêmement rapide des expérimentateurs a maintenant confirmé les structures de l'ORF3a et de l'ORF8. Malgré leur nature difficile et ayant très peu de séquences associées, nous avons atteint un degré élevé de précision sur nos deux prédictions par rapport à leurs structures déterminées expérimentalement.
En plus d'accélérer la compréhension des maladies connues, nous sommes enthousiasmés par le potentiel de ces techniques pour explorer les centaines de millions de protéines pour lesquelles nous ne disposons pas actuellement de modèles - un vaste terrain de biologie inconnue. Puisque l'ADN spécifie les séquences d'acides aminés qui composent les structures protéiques, la révolution génomique a permis de lire des séquences protéiques du monde naturel à grande échelle - avec 180 millions de séquences protéiques et comptées dans la base de données Universal Protein (UniProt). En revanche, compte tenu des travaux expérimentaux nécessaires pour passer d'une séquence à une autre, seules 170 000 structures protéiques environ se trouvent dans la Protein Data Bank (PDB). Parmi les protéines indéterminées, il y en a peut-être avec des fonctions nouvelles et passionnantes et - tout comme un télescope nous aide à voir plus profondément dans l'univers inconnu - des techniques comme AlphaFold peuvent nous aider à les trouver.
Débloquer de nouvelles possibilités
AlphaFold est l'une de nos avancées les plus significatives à ce jour, mais, comme pour toute recherche scientifique, il reste encore à répondre à de nombreuses questions. Toutes les structures que nous prévoyons ne seront pas parfaites. Il reste encore beaucoup à apprendre, y compris comment plusieurs protéines forment des complexes, comment elles interagissent avec l'ADN, l'ARN ou de petites molécules, et comment nous pouvons déterminer l'emplacement précis de toutes les chaînes latérales d'acides aminés. En collaboration avec d'autres, il y a aussi beaucoup à apprendre sur la meilleure façon d'utiliser ces découvertes scientifiques dans le développement de nouveaux médicaments, des moyens de gérer l'environnement, etc.
Pour nous tous qui travaillons sur des méthodes informatiques et d'apprentissage automatique en science, des systèmes comme AlphaFold démontrent le potentiel étonnant de l'IA en tant qu'outil d'aide à la découverte fondamentale. Tout comme il y a 50 ans, Anfinsen a lancé un défi bien au-delà de la portée de la science à l'époque, de nombreux aspects de notre univers restent inconnus. Les progrès annoncés aujourd'hui nous donnent une confiance supplémentaire dans le fait que l'IA deviendra l'un des outils les plus utiles de l'humanité pour repousser les frontières de la connaissance scientifique, et nous attendons avec impatience les nombreuses années de travail acharné et de découvertes à venir !
Jusqu'à ce que nous ayons publié un article sur ce travail, veuillez citer :
Prédiction de la structure des protéines de haute précision à l'aide de l'apprentissage en profondeur
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Kathryn Tunyasuvunakool, Olaf Ronneberger, Russ Bates, Augustin Žídek, Alex Bridgland, Clemens Meyer, Simon AA Kohl, Anna Potapenko, Andrew J Ballard, Andrew Cowie, Bernardino Romera- Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Martin Steinegger, Michalina Pacholska, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis.
Nous sommes au début de l'exploration de la meilleure façon de permettre à d'autres groupes d'utiliser nos prédictions de structure, tout en préparant un article évalué par des pairs pour publication. Bien que notre équipe ne soit pas en mesure de répondre à toutes les demandes, si AlphaFold peut être pertinent pour votre travail, veuillez envoyer quelques lignes à ce sujet à
Qu'est ce qu'une protéine ?
<haut de page>
Repliement des protéines
Le repliement des protéines est le processus physique par lequel une chaîne protéique acquiert sa structure tridimensionnelle native, une conformation qui est généralement biologiquement fonctionnelle, d'une manière rapide et reproductible. C'est le processus physique par lequel un polypeptide se replie dans sa structure tridimensionnelle caractéristique et fonctionnelle à partir d'une bobine aléatoire. Chaque protéine existe sous la forme d'un polypeptide déplié ou d'une bobine aléatoire lorsqu'elle est traduite d'une séquence d' ARNm en une chaîne linéaire d'acides aminés. Ce polypeptide est dépourvu de toute structure tridimensionnelle stable (durable) (le côté gauche de la première figure).
Lorsque la chaîne polypeptidique est synthétisée par un ribosome , la chaîne linéaire commence à se replier dans sa structure tridimensionnelle. Le pliage commence à se produire même pendant la traduction de la chaîne polypeptidique. Les acides aminés interagissent les uns avec les autres pour produire une structure tridimensionnelle bien définie, la protéine repliée (le côté droit de la figure), connue sous le nom d' état natif . La structure tridimensionnelle résultante est déterminée par la séquence d'acides aminés ou la structure primaire ( dogme d'Anfinsen ).
La structure tridimensionnelle correcte est essentielle pour fonctionner, bien que certaines parties des protéines fonctionnelles puissent rester dépliées, de sorte que la dynamique des protéines est importante. Le fait de ne pas se replier dans la structure native produit généralement des protéines inactives, mais dans certains cas, les protéines mal repliées ont une fonctionnalité modifiée ou toxique. Plusieurs maladies neurodégénératives et d' autres maladies sont censées résulter de l'accumulation de amyloïdes fibrilles formées par des protéines mal repliées. De nombreuses allergies sont causées par un repliement incorrect de certaines protéines, car le système immunitaire ne produit pas d' anticorps pour certaines structures protéiques.
La dénaturation des protéines est un processus de transition de l'état plié à l' état déplié. Cela se produit en cuisine, lors de brûlures, en protéinopathies et dans d'autres contextes.
La durée du processus de pliage varie considérablement en fonction de l'intérêt de la protéine. Lorsqu'elles sont étudiées à l'extérieur de la cellule, les protéines de repliement les plus lentes nécessitent plusieurs minutes ou heures pour se replier, principalement en raison de l'isomérisation de la proline, et doivent passer par un certain nombre d'états intermédiaires, comme des points de contrôle, avant que le processus ne soit terminé. D'un autre côté, de très petites protéines à domaine unique avec des longueurs allant jusqu'à cent acides aminés se replient généralement en une seule étape. Les échelles de temps en millisecondes sont la norme et les réactions de repliement des protéines connues les plus rapides sont terminées en quelques microsecondes.
<haut de page>
AlphaFold
AlphaFold peut prédire avec précision des modèles 3D de structures protéiques et a le potentiel d'accélérer la recherche dans tous les domaines de la biologie
Éléments de base de la vie
À l'intérieur de chaque cellule de votre corps, des milliards de minuscules machines moléculaires travaillent dur. C'est ce qui permet à vos yeux de détecter la lumière, à vos neurones de se déclencher et aux «instructions» de votre ADN à lire, qui font de vous la personne unique que vous êtes.
Ces machines exquises et complexes sont des protéines . Ils sous-tendent non seulement les processus biologiques de votre corps, mais tous les processus biologiques de chaque être vivant. Ce sont les éléments constitutifs de la vie.
Actuellement, il existe environ 200 millions de protéines connues , et 30 millions supplémentaires sont trouvées chaque année. Chacun a une forme 3D unique qui détermine son fonctionnement et son action.
Mais déterminer la structure exacte d'une protéine reste un processus coûteux et souvent long, ce qui signifie que nous ne connaissons que la structure 3D exacte d'une infime fraction des protéines connues de la science.
Trouver un moyen de combler cette lacune en expansion rapide et de prédire la structure de millions de protéines inconnues pourrait non seulement nous aider à lutter contre la maladie et à trouver plus rapidement de nouveaux médicaments, mais peut-être aussi à percer les mystères de la vie elle-même.
Explication du repliement des protéines
Le problème du repliement des protéines
Si vous pouviez démêler une protéine, vous verriez que c'est comme une chaîne de perles faite d'une séquence de différents produits chimiques appelés acides aminés.
Ces séquences sont assemblées selon les instructions génétiques de l' ADN d'un organisme.
L'attraction et la répulsion entre les 20 différents types d'acides aminés provoquent le repli de la corde dans un exploit d '« origami spontané », formant des boucles et plis complexes de la structure 3D d'une protéine.
Depuis des décennies, les scientifiques tentent de trouver une méthode pour déterminer de manière fiable la structure d'une protéine uniquement à partir de sa séquence d'acides aminés.
Ce grand défi scientifique est connu sous le nom de problème de repliement des protéines.
Qu'est AlphaFold ?
Nous avons commencé à travailler sur ce défi en 2016 et avons depuis créé un système d'IA appelé AlphaFold.
Il a été enseigné en lui montrant les séquences et les structures d'environ 100 000 protéines connues.
Notre dernière version peut maintenant faire des prédictions précises de la forme qu'une protéine formera en fonction de sa séquence d'acides aminés.
Il s'agit d'une avancée majeure et met en évidence l'impact que l'IA peut avoir sur la science.
Rejoindre une communauté de recherche mondiale
En 1994, des scientifiques intéressés par le repliement des protéines ont formé CASP (Critical Assessment of Protein Structure Prediction = Évaluation critique de la prédiction de la structure des protéines).
CASP est un forum communautaire qui permet aux chercheurs de partager les progrès sur le problème du repliement des protéines. La communauté organise également un défi biennal pour les groupes de recherche afin de tester l'exactitude de leurs prédictions par rapport à des données expérimentales réelles.
Les équipes reçoivent une sélection de séquences d'acides aminés pour des protéines dont la forme exacte en 3D a été mappée mais qui n'ont pas encore été publiées dans le domaine public. Les groupes doivent soumettre leurs meilleures prévisions pour voir à quel point ils sont proches des structures révélées ultérieurement.
Parmi les équipes qui ont participé à CASP13 (2018), AlphaFold s'est classé premier dans le défi de prédiction de la structure des protéines. Au CASP14 (2020), nous avons présenté notre dernière version d' AlphaFold, qui a maintenant atteint un niveau de précision considérable pour résoudre le problème de prédiction de la structure des protéines.
Notre travail s'appuie sur des décennies de recherche par les organisateurs de CASP et la communauté du repliement des protéines, et nous sommes redevables au nombre incalculable de personnes qui ont contribué aux structures protéiques au fil des ans, rendant possibles des évaluations aussi rigoureuses.
AlphaFold : la réalisation d'une percée scientifique
Comprendre Covid-19
Lorsque la Covid-19 est apparue, on en savait très peu à ce sujet. Mais des scientifiques du monde entier se sont réunis pour trouver des moyens de s'y attaquer.
Le SRAS-CoV-2, le virus qui cause la Covid-19, est composé d'environ 30 types de protéines, et une dizaine d'entre elles étaient mal comprises.
Notre équipe de recherche a utilisé AlphaFold pour prédire les structures de six protéines sous-étudiées dans le génome du virus SRAS-CoV-2, dans l'espoir qu'elles pourraient faire progresser notre compréhension du virus.
La structure de l'une de ces protéines , connue sous le nom d' ORF3a , a ensuite été élaborée à l'aide d'expériences scientifiques. Et dans le cadre de CASP14, nous avons démontré des prédictions encore plus précises pour ORF8 , une autre protéine SARS-CoV-2.
Ces résultats offrent un aperçu de la façon dont des outils d'IA comme AlphaFold pourraient mieux nous préparer à une future pandémie.
Accélérer la découverte scientifique
Un système comme AlphaFold capable de prédire avec précision la structure des protéines pourrait accélérer les progrès dans de nombreux domaines de recherche importants pour la société.
Par exemple, les informations limitées sur les structures des protéines ont été un obstacle majeur à l'amélioration de notre compréhension des maladies tropicales négligées comme la maladie du sommeil (trypanosomiase) et la leishmaniose , qui ont un impact sur la vie de millions de personnes et causent des dizaines de milliers de décès chaque année.
Elle freine également de nombreux efforts de recherche fondamentale. Par exemple, le développement d'un nouveau médicament peut prendre plus de 2,5 milliards de dollars et plus de 10 ans. AlphaFold pourrait contribuer à une découverte de médicaments meilleure et plus efficace en identifiant la structure de nombreuses protéines humaines impliquées dans la maladie.
Cela pourrait également aider à ouvrir de nouvelles possibilités telles que la recherche de protéines et d' enzymes qui décomposent les déchets industriels et plastiques ou capturent efficacement le carbone de l'atmosphère.
Il y a encore beaucoup de travail à faire avant de pouvoir contribuer à avoir un impact réel dans ces domaines et plus encore, mais le potentiel est énorme.
Si AlphaFold peut être pertinent pour votre travail, veuillez envoyer quelques lignes à ce sujet àCette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. . Bien que notre équipe ne soit pas en mesure de répondre à chaque demande, nous serons en contact dans les cas où il y a place pour une exploration plus approfondie.
Regard vers le futur
Nos recherches sur AlphaFold se poursuivent, mais nos travaux jusqu'à présent - et les évaluations indépendantes d'organisations comme CASP - renforcent notre espoir que ses prédictions aideront bientôt à ouvrir de nouvelles possibilités dans la recherche biologique qui profiteront à la société.
Nous sommes enthousiasmés par cette prochaine phase du voyage d'AlphaFold et avons hâte de poursuivre notre travail avec la communauté scientifique mondiale pour libérer le potentiel des éléments constitutifs de la vie.
<haut de page>
traduction de l'article de DeepMind : https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
- Affichages : 1924
WCG - Smash Childhood Cancer - Mise à jour de novembre
- Détails
- Écrit par : franky82
- Catégorie parente: Actualités
Récapitulatif
Les unités de travail pour la dernière cible de cancer infantile sont presque terminées, et le projet s'arrêtera pendant que les chercheurs détermineront leur prochain domaine d'intérêt.
Contexte
Au cours des 20 dernières années, seul un petit nombre de nouveaux médicaments conçus pour traiter le cancer de l'enfant ont été approuvés par la Food and Drug Administration des États-Unis. La moitié de tous les traitements de chimiothérapie utilisés pour les enfants atteints de cancer existent depuis 25 ans ou plus.
L'équipe de recherche Smash Childhood Cancer a identifié des protéines et d'autres molécules qui jouent un rôle clé dans certains cancers infantiles. L'enjeu est désormais de trouver des candidats-médicaments chimiques qui ciblent spécifiquement ces molécules clés et contrôlent donc les cellules cancéreuses.
En voie d'achèvement du dernier objectif sur World Community Grid
Le cycle de travail actuel sur World Community Grid se concentre sur un gène appelé EWSR1. Ce gène est important dans le développement du sarcome d'Ewing, un cancer infantile rare qui commence généralement dans un os ou dans les tissus mous autour d'un os et peut se propager aux poumons ou à d'autres os.
Le travail a été achevé plus rapidement que prévu (voir ci-dessous le dernier Reste-à-faire estimé). Nous estimons maintenant que le travail actuellement disponible pour téléchargement sera envoyé aux bénévoles dans les prochains jours et qu'il faudra jusqu'à deux semaines pour le traiter.
Une fois toutes les unités de travail de l'EWSR1 terminées, le projet s'arrêtera pendant que l'équipe de recherche finalisera sa décision sur une autre nouvelle cible et construira de nouvelles unités de travail. Nous n'avons pas encore de calendrier pour le redémarrage, mais nous le ferons savoir à tout le monde car nous aurons plus d'informations de la part des chercheurs.
Merci à tous ceux qui ont contribué à la puissance de calcul des calculs pour aider à comprendre le gène EWSR1.
État actuel des unités de travail
- Disponible en téléchargement : 2 lots
- En cours : 100 lots (10 000 000 unités de travail)
- Terminé : 3967 lots
41 lots au cours des 30 derniers jours
Moyenne de 1,36 lots par jour
- Reste-à-faire estimé: 2-3 jours (au 19 novembre)
19 nov. 2020
traduction de l'article WCG : https://www.worldcommunitygrid.org/about_us/viewNewsArticle.do?articleId=667
- Affichages : 1183
- WCG - OpenPandemics - COVID-19 : Mise à jour de novembre
- Les supercalculateurs fabriqués à Jülich établissent de nouvelles normes
- WCG - Help Stop TB : Mise à jour de novembre
- WCG - Microbiome Immunity Project : Mise à jour de novembre
- WCG - Africa Rainfall Project : Mise à jour de novembre
- WCG - Mapping Cancer Markers : Mise à jour d'octobre
Page 14 sur 35