SIMAP (Similarity Matrix of Proteins)
URL du projet : http://boinc.bio.wzw.tum.de/boincsimap/ |
Calcul des similitudes et des domaines de protéines permettant de tenir à jour une base de données libre pour l'éducation et la recherche publique.
Centre national de recherches GSF pour l'environnement et la santé
Université technique de Munich - Univesité de Vienne
Liens du Projet
|
L'Alliance Francophone
|
Statistiques
|
Résultats
|
|
- Les résultats : Domaine public
- Début du projet : 6 Novembre 2005
SIMAP est devenu un projet périodique, des unités sont à calculer seulement au début de chaque mois.
La base de donnée SIMAP est actuellement à jours. Au début de chaque mois, une mise à jours est effectuée. Elle consiste à comparer les nouvelles séquences découvertes ainsi que les séquences tombées dans le domaine public au cours du mois précédent avec la totalité de la base de donnée SIMAP. A chaque fois, une analyse de similitude (Simap) et une analyse de domaine (hmmer) sont effectuées.
SOMMAIRE :
SIMAP consiste à construire une grande base de donnée des séquences similaires et des domaines de protéine. Cette base de données contiendra à terme toute les protéines tombées dans le domaine publique et sera continuellement mise à jour.
En raison de la quantité énorme de séquences de protéine connues dans les bases de données publiques il est apparu clairement que la plupart d'entre elles n'auraient pas pu être expérimentalement testées dans un proche avenir.
D'où l'utilité de la base de donnée SIMAP.
SIMAP est un projet commun du centre national de recherches GSF pour l'environnement et la santé, de l'université technique de Munich, et du centre de la vie et des sciences de l'alimentation Weihenstephan.
L'utilisation des résultats de SIMAP est totalement libre pour l'éducation et la recherche publique.
En outre Simap soutien de nombreux autres travaux en science de la vie. Choisir SIMAP c'est accélérer non seulement les recherches du projet mais aussi les recherches de nombreux autres projets à travers le monde.
Description en détail du Projet
SIMAP est une base de données de similitude entre protéines et des domaines protéiniques. Celle-ci rassemble toutes les séquences de protéines actuellement publiées et est continuellement mise à jour. Les similtudes entre protéines sont calculées à l'aide de l'algorithme FASTA qui fournit une vitesse optimale et une sensibilité nécessaire. Les domaines de protéines sont calculés en utilisant la base de donnée et les méthodes d'InterPro. SIMAP est selon nous le seul projet qui combine les vastes connaissances relatives à toutes les protéines actuellement connues tout en la tenant continuellement à jour.
Du fait de l'énorme quantité de séquences de protéines connues dans les bases de données publiques, il est certain que la plupart d'entre-elles n'auraient jamais été testées expérimentalement dans un avenir proche . Néanmoins, les protéines qui se sont développées à partir d'un ancêtre commun partagent souvent les mêmes fonctions (dites orthologues). Il est donc possible de déduire la fonction d'une protéine orthologue non-caractérisée grâce à sa fonction connue. Un exemple bien connu est donné par la recherche fondamentale sur les gênes et les protéines de souris . Leurs résultats valent aussi dans de nombreux cas pour les gênes et les protéines orthologues humaines. Les similitudes entre protéines fournissent des informations sur les relations entre elles et sont nécessaires à la prévision d'orthologues.
Les domaines de protéine (souvent appelés les domaines de fonction) sont les modules structuraux des protéines. Ils sont responsables des fonctions de certaines protéines, par exemple lier de petites molécules, de réactions catalytiques ou se lier à d'autres protéines pour former de grands complexes. La matière première au sujet des domaines protéiniques sont stockées dans d'énormes "bibliothèques" comme les bases de données d'InterPro. La prévision du domaine des protéines nouvellement ordonnancées est basée sur ces bases de données et fournit une caractérisation fonctionnelle entièrement automatique de ces protéines. Par conséquent nous calculons les domaines de toutes les protéines présentes dans SIMAP, fournissant de ce fait le plus grand système de prévision des fonctions de protéine au monde.
Il est possible de s'appuyer sur de nombreuses méthodes bio-informatiques pour calculer les similitudes et les domaines de protéines. Notre base de données fournit des données de similitude et de domaine pré-calculées et représente l'espace connu des protéines. Cela ouvre vraiment de nouvelles perspectives comparé à la méthode communément utilisée qui consiste à recalculer de manière répétitive ce type de données. SIMAP est régulièrement mise à jour. La matrice des similitudes est simplement étendue de manière incrémentale si de nouvelles séquences arrivent. L'utilisation de SIMAP est complètement gratuite pour l'Education et la Recherche Publique.
Pourquoi avons-nous besoin du calcul distribué pour SIMAP ?
Les coûts informatiques pour calculer les données similaires dépendent de la taille du nombre de séquences contenues dans la base. Donc l'effort de calcul informatique pour tenir la matrice à jour augmente constamment . Nos ressources internes qui effectuent depuis des années des calculs pour SIMAP n'étaient plus suffisantes pour traiter toutes les nouvelles séquences. C'est pourquoi nous avons mis en service une application SIMAP basée sur l'algorithme FASTA compatible avec la plateforme BOINC (Berkeley Open Infrastructure for Network Computing) pour détecter les similitudes entre séquences.
La situation des domaines de protéines est quelque peu différente mais d'une complexité similaire. Les coûts informatiques sont proportionnels au nombre de séquences et au nombre de domaine modèles. En raison de la croissance de l'univers des séquences et des mises à jour fréquentes de la base de donnée de domaine, l'effort informatique pour maintenir les prévisions de domaine à jour augmente constamment.
Quelles sont les institutions à l'origine de SIMAP ?
SIMAP est un projet commun du Centre National de Recherche pour l'Environnement et la Santé ( GSF) , Neuherberg et l'Université Technique de Munich, le Centre de Vie et des Sciences de l'Alimentation de Weihenstephan (toutes deux basés en Allemagne). Pour toute information, veuillez contacter Thomas Rattei (Département de Génome Bio-informatique Orientée, TU Munich)
Les questions fréquement posées au sujet du projet SIMAP
Quelle est la différence entre les applications simap et hmmer ?
Les deux applications analysent les séquences de protéine dans SIMAP. Alors que l'application Simap calcule les similitudes entre les séquences à l'aide de l'algorithme FASTA, hmmer (qui se prononce " hammer " ) recherche dans les séquences présentes dans SIMAP des domaines de protéine, mathématiquement décrites par les modèles cachés de Markov. Voir la description en détail du projet pour obtenir une vue d'ensemble de ce pour quoi ces résultats sont utilisés.
Est-ce que je dois modifier quelque chose dans mon manager BOINC du fait que le projet BOINCSIMAP se modifie : des unités Simap vers hmmer?
Non. Votre client BOINC va automatiquement se diriger vers l'application appropriée lorsque les unités de BOINCSIMAP changent.
L'application SIMAP va t'elle disparaître lorsque hmmer commencera ?
Non. En raison des mises à jour fréquentes des ordres de protéine nous devrons maintenir la matrice de similitude à jour. Ceci se fait en utilisant l'application Simap. Le temps entre les mises à jour de simap sera employé pour le calcul des domaines de protéine en utilisant hmmer. Dans le futur proche nous nous attendons à 3 unités hmmer pour 1 unité Simap
De quel puissance de calcul BOINCSIMAP aura-t-il besoin à l'avenir ?
Il y a deux sous projets, représentés par ces deux applications : Le calcul de similitudes n'aura plus besoin de la totalité de la puissance de calcul du projet de BOINCSIMAP, car le travail en attente des années 2005/2006 (du fait des mises à jour et des extensions) pourrait être calculé d'ici à septembre 2006. Le deuxième sous projet - le pre-calcul de domaines de protéine - aura besoin de beaucoup plus de puissance de calcul car seul un petit ensemble de données est d'hors et dejà calculé. Pendant l'année 2007 nous comptons avoir assez de travail pour que hmmer utilise la totalité de puissance de BOINCSIMAP.
Pourquoi est-ce que j'obtiens plus/moins de crédits que mes résultats réclamés ?
BOINCSIMAP a mis au point un systeme de points spécifique (aussi appelés « crédits fixes par unité »). Par conséquent les crédits que vous obtenez pour chaque résultat valide n'est pas calculé à partir des crédits réclamés par votre client BOINC (optimisé/non-optimisé), mais à partir de la quantité de séquences/de modèles présents dans l'unités (hmmer et simap) et du nombre de pics dans le résultat (seulement sur simap du fait du difficile post-traitement des pics). Ceci rend les crédits plus justes et vraiment concomitants à la puissance de calcul que vous avez donné au projet. Comme ce n'est pas la façon par défaut d'attribuer des crédits sur les projets BOINC, nous sommes ouverts à discuter au sujet de notre systeme de point spécifique (visiter svp nos forums).
Le téléchargement/volume de téléchargement va t-il être diminué pour des utilisateurs qui ont une faible bande passante ?
Pas vraiment. Nous travaillons actuellement à une compression 7zip des unités et des résultats. Ceci diminuera les réceptions et les émissions de plusieurs pour cent. Mais le volume de transfert de données est directement lié à la technique de l'analyse biologique d'ordres : il est nécessaire de transférer les données d'ordre à analyser. Cacher local n'est pas une option, car la chance d'obtenir plusieurs unités contenant les mêmes ordres ou domaines modèles est extrêmement bas. Par conséquent nous suggérons aux utilisateurs ayant une faible bande passante de limiter dans le Manager BOINC le projet BOINCSIMAP à un pourcentage qui vous est encore acceptable.
A propos des graphiques pour les applications hmmer et simap ?
Oui, nous voulons mettre au point des graphiques pour nos applications, mais jusqu'ici nous ne pouvions pas le faire car le peu de programmeurs en C++ de notre équipe étaient occupés par la partie fonctionnelle de nos applications. Par conséquent nous projetons d'envoyer des graphiques statiques (pour une description voir : API pour la programmation graphique ) qui montrera quelques informations sur l'unité actuellement traité, si tout va bien d'ici la fin 2006.
Pourquoi les applications ne sont pas optimisées en fonction des types de processeur xyz ?
Actuellement le client BOINC ne peut pas choisir une application basée sur un type particuliuer de processeur, mais il le fait en fonction des principales plateformes. Par conséquent nous fournissons des applications pour les plateformes qui sont généralement employées dans les projets BOINC. Il y a des discussions en cours dans la communauté des développeurs BOINC au sujet d'un mécanisme de choix automatique de l'application en fonction des types de processeurs. Dès qu'une telle méthode sera disponible nous fournirons différentes applications pour les principaux types de processeurs.
Où puis-je poser une question ou avoir de l'aide pour un problème ?
Sur notre forum vous trouverez des de FAQ ainsi que des conseils pour vos problème. Il vous est libre de posé autant de question que vous le vouler. L'inscription aux forum exige une inscription, différente du compte BOINC.
Les membres de l'équipe du projet SIMAP
- Coordonnateur: Dr. Thomas Rattei, département du génome orienté Bioinformatique (TU Munich), contact: t.rattei (à) wzw.tum.de
- Développement du logiciel client: Mathias Walter (étudiant en bioinformatique)
- administration et modération du forum: Alexander Kräutler "alex@simap" (étudiant en biologie)
- administration et modération du forum: Roland Arnold "surveillant" (étudiant de Ph.D. en bioinformatique)
- administration et modération du forum: Jonathan Hoser "Jonathan" (étudiant en bioinformatique)
- modération de forum: Corinna Klausing "Cori" (équipe BOINC@Heidelberg)
- modération du forum: Jörg Glasing "Joogie" (équipe BOINC@Heidelberg)
BOINCSIMAP est un projet universitaire qui ne pourrait fonctionner sans étudiants engagés qui y passent beaucoup de leur temps libre. C'est pourquoi tout problème ne peut être résolu immédiatement, mais nous essayons de répondre à chaque question, suggestion, commentaire et problème sur notre forum.