Welcome_to_DockingHome_1308856706244

 

Suite à une publication parue sur le site de Docking@Home en avril concernant le processus de recherche et les résultats de la méthode de calcul, vous trouverez ci-dessous le document traduit en français

 

RÉSUMÉ

 

 
 

Les simulations d'amarrage sont couramment utilisées pour comprendre l’attache des médicaments mais elles nécessitent la recherche d'un grand volume de conformations protéine-ligand. Le calcul distribué permet de calculer des simulations d'amarrage par informatique à un tarif jamais vu auparavant, mais dans un même temps le besoin de scientifiques pour faire face à ces données est plus important. En analysant ces ensembles de données, une pratique commune consiste à réduire le nombre résultant de candidats de 10 à 100 conformations basées sur des valeurs d'énergie et laisser la tâche fastidieuse aux scientifiques de sélectionner subjectivement un possible ligand quasi-native. Les scientifiques effectuent normalement cette tâche manuellement à l'aide d'outils visuels. Non seulement le processus manuel dépend toujours de résultats d'énergie imprécis, mais peut aussi être fortement prédisposé aux erreurs.

 
 
 

 

 
 

Les contributions de ce papier sont double: d'abord, nous aborderons le problème du volume de recherche concernant les conformations protéine-ligand, appuyées par le projet de calcul bénévole Docking@Home (D@H). Deuxièmement, nous aborderons le problème de la précision, et automatiquement, de la sélection de ligand quasi-native parmi le grand nombre de résultats D@H en utilisant une classification probabiliste hiérarchique basée sur la géométrie ligand. Notre méthode soutient que, même lorsque nous testons une recherche qui n'est pas biaisée par le fait de partir de conformations ligand quasi-native, elle surpasse nettement les méthodes basées sur l'énergie.

 

 

 
 

 

1. INTRODUCTION

 

 
 

La conception de nouveaux médicaments repose sur la recherche de petites molécules, appelées ligands, qui s’amarrent aux protéines et jouent un rôle essentiel dans l’activation ou la désactivation des fonctions de celles-ci. L'étude des interactions protéine-ligand dans les laboratoires est extrêmement coûteuse en temps et exigeant en particulier pour la détermination de la structure expérimentale par cristallographie aux rayons X et résonance magnétique nucléaire (RMN). Des simulations sur ordinateur sont utilisées pour accélérer ce processus et réduire les coûts. La recherche informatique pour les médicaments putatifs (c'est-à-dire des ligands qui accostent bien dans une protéine) est une recherche incertaine car il existe un très grand volume de conformations possibles d'accueil, ce volume est formé par la protéine, le ligand, les méthodes de calcul, et les degrés de liberté voulant être explorées [11].

 
 

 

 
 

Afin d'explorer un vaste volume, les scientifiques peuvent compter sur les technologies de calcul distribué, telles que le cloud computing et le calcul bénévole. Ces technologies peuvent effectuer de coûteuses simulations de calcul protéine-ligand à un rythme jamais vu auparavant. Dans le même temps, cette capacité conduit à des ensembles de données de simulation de plus en plus grands, ce qui entraîne de nouveaux défis pour les scientifiques qui ont pour but d’analyser ces données. Particulièrement, dans ses simulations d’accueil cela aboutit à l'analyse de très vaste jeu de conformations ligand amarrées dans une protéine. En plus de la taille des données, les scientifiques doivent relever le défi de la sélection de ligands sous l'incertitude. Les enchainements d'amarrage protéine-ligand sont normalement basés sur des valeurs d'énergie rapprochées. Malheureusement, ces estimations d'énergie peuvent être inexactes; en d'autres termes les conformations d'énergie minimale ne correspondent pas toujours à la bonne conformation quasi-native. Ainsi, le choix de la bonne conformation des ligands quasi-natives d'un vaste ensemble de conformations est un processus de sélection incertain.

 
 

 

 
 

Lorsqu'il s'agit d’analyser de grands ensembles de données ligand, une pratique courante consiste à réduire le nombre de candidats de 10 à 100 conformations fondée sur des valeurs énergétique et laisser ensuite aux scientifiques la tâche fastidieuse de sélectionner subjectivement un ligand quasi-native possible. Les scientifiques effectuent normalement cette tâche manuellement à l'aide d'outils visuels tels que VMD [10] ou Chimera [5]. Non seulement le processus manuel dépend toujours de résultats d'énergie imprécis, mais il peut aussi être fortement prédisposé aux erreurs. Au meilleur de nos connaissances, la plupart des méthodes avancées de traitement de cette tâche ne sont pas entièrement automatisé et il y a toujours un besoin d'amélioration de la méthodologie et de l'automatisation de ce processus.

 
 

 

 
 

Les contributions de ce papier sont double: d'abord, nous aborderons le problème de la taille de l’espace de recherche concernant les conformations protéine-ligand, appuyées par le projet de calcul bénévole Docking @ Home (D @ H). Deuxièmement, nous aborderons le problème de la précision, et automatiquement, la sélection de ligand quasi-native parmi le grand nombre de résultats D @ H. Dans cet article nous:

 
 

 

 
 

• Utilisons le calcul bénévole du projet D@H visant à recueillir les résultats de simulation de deux différents algorithmes d’amarrage (chacun avec différents niveaux de précision pour la représentation des solvants) et deux approches différentes pour générer des conformations ligand initiales.

 
 

• Présentons une méthodologie de regroupement qui permet une analyse précise et efficace de la grande base de données, même en présence de l'incertitude des données. Notre méthode utilise une classification probabiliste hiérarchique qui organise efficacement les structures ligand dans un nombre variable d'ensembles en fonction de leur géométrie.

 
 

• Utilisons notre méthode pour identifier avec moins d'incertitude, le vaste ensemble de données recueillies par D @ H et nous sélectionnons une structure unique de ligand qui représente potentiellement le meilleur candidat à une conformation quasi-native.

 
 

• Prouvons empiriquement que notre méthode est insensible aux différentes protéines, aux algorithmes d’amarrage, des conditions de démarrage et en moyenne, elle fournit une solution précise quasi-native dans 85% des cas examinés dans ce travail.

 
 

 

 
 

Le reste de cet article est organisé comme suit: La section 2 présente comment D@H explore le vaste espace de conformations ligand. La section 3 introduit le problème de la précision de la sélection des conformations quasi-native. La section 4 décrit notre réseau probabiliste hiérarchique et comment l'utiliser pour analyser de grandes séries de données d'amarrage protéine-ligand. Le chapitre 5 présente nos résultats avec une comparaison d'une méthode plus traditionnelle pour la sélection des conformations quasi-native. La section 6 parlera des discussions liées au travail et l'article 7 conclura le dossier.