Lattice est une grille multi-projets de l'Université du Maryland
Le projet actuel (GARLI) effectue une classification phylogénétique.
Télécharger Boinc ( tutoriel )
URL du projet : http://boinc.umiacs.umd.edu/
Code source : Ouvert
Liens du Projet
|
L'Alliance Francophone
|
Statistiques
|
|
Il est possible de choisir le projet que l'on désire soutenir, pour cela, il faut se rendre sur son compte à la rubrique Préférences utilisateurs . Puis appuyer sur Edit The Lattice Project preferences pour faire son choix :
GARLI, HMMPfam et/ou MARXAN
Sommaire :
Une communauté de chercheurs, de scientifiques, et le personnel enseignant de l'université du Maryland travaillent pour intégrer et déployer des ressources informatiques, des intergiciels de grilles, des applications scientifiques spécialisées et des services web sémantiques dans une grille complète pour l'analyse scientifique. Nous appelons cet effort le projet Lattice. Les directeurs de recherche sont :
Un large éventail de recherches dans le domaine des sciences de la vie tireront partie de l'accès accru à d'importantes ressources informatiques. Aujourd'hui, plusieurs domaines de la recherche scientifique du vivant ont besoin d'une grande puissance de calcul.
- L'analyse quantitative dans le domaine de la biologie expérimentale. La nature même d'un nombre important de recherches sur le vivant impliquant des tests d'hypothèses et déductifs qui exigent une puissance de calcul.
- L'augmentation croissante de la taille et du nombre d'analyses informatiques notamment pour les bases de données, les tests, et les expériences.
- La complexité croissante des modèles analytiques et l'augmentation concomitante de l'espace des solutions possibles. Un maximum de calculs de probabilités, de Monte Carlo et d'autres méthodes stochastiques de simulation exigent de plus en plus de paramètres. Alors que de tels modèles peuvent contribuer à améliorer notre compéhension des processus naturels fondamentaux étudiés, dans la plupart des cas, ils entrainent une augmentation exponentielle du nombre des solutions possibles.
Malgré cela, les réponses prometteuses qui s'adressent individuellement à ces questions, l'environnement informatique dans lequel beaucoup de scientifiques du vivant évoluent reste substantiellement déficient, générant un frein matériel aux progrès dans un certain nombre de domaines. C'est notre but de mettre en place les ressources informatiques suffisantes et de les rendre disponibles à une communauté active de chercheurs.
Le projet Lattice développe un système de grille communautaire qui intègre les technologies d'intergiciels de grilles et de grille élargie pour une utilisation dans le domaine des sciences de la vie. Ce système est basé sur une architecture en grille novatrice qui englobe des grappes de serveurs et des processeurs d'ordinateurs de bureau. Nous sommes fortement attentifs aux principes de développement de logiciels au code source accessible, et nous avons l'intention de partager tous les logiciels en tant que code source librement accessible à l'exception de très infimes cas où l'utilisation est commerciale.
Le projet Lattice est une technologie hybride entre une grille au sens premier du terme et des composants personnalisés. Une grille modèle est basée sur une grappe de serveurs conventionnelle où les noeuds reçoivent le travail grâce à un noeud principal. Ce prototype a tiré avantage des importants développements pour s'occuper de la gestion des unités, le transfert des données, et la sécurité. Pour ces raisons, la trousse à outils Globus est l'épine dorsale de notre grille. Elle fournit une mise en oeuvre libre de droit d'un certain nombre de services et protocoles de grille. Notre système utilise actuellement le service Grid Resource Allocation and Management (GRAM - Gestionnaire d'allocation des ressources d'une grille), le service Reliable File Transfer (RFT - Transfert de fichiers fiable), la Grid Security Infrastructure (GSI - Sécurité de l'infrastructure de la grille), et le Monitoring and Discovery Service (MDS - Service de surveillance et de découverte), pour n'en citer que quelques-uns. Dans de nombreux cas, le logiciel d'ordonnancement Condor vérifie les ressources autorisées que Globus répartit.
Une autre approche du calcul en grille est la grille d'ordinateur de bureau (DGrid), dans laquelle les cycles processeurs inexploités sont recupérés sur un grand nombre de ressources hétérogènes et distribuées puis utilisés pour les calculs scientifiques à grande échelle et fortement parallèle. Un des premiers projets à avoir été lancé fut SETI@home, qui continue à utiliser la capacité de traitement d'un grand nombre de machines dans sa recherche d'une intelligence extraterrestre. L'architecture principale d'un DGrid se compose d'un serveur qui coordonne, distribue et effectue un suivi des travaux sur un large parc de machines pouvant être potentiellement imprévisibles et non sûres. Nous employons l'infrastructure ouverte de Berkeley pour le calcul en réseau, ou BOINC, pour y intégrer les ressources de calcul public de notre grille. Intégrer BOINC en tant que ressource accessible pour Globus est l'une de nos plus belles réussites.
Ce schéma fourni une vue d'ensemble de ce processus.
Voici certains des projets et études fonctionnant sur Lattice :
Le laboratoire Edwards utilise HMMPfam pour calculer les domaines Pfam de toutes les séquences de protéines bactériennes, plasmidienne, et virales présentent dans les bases de données Swiss-Prot, TrEMBL, GenBank, RefSeq, et TIGR's CMR, ainsi que dans une base de données incluant toutes les prévisions plausibles réalisées à l'aide d'un programme de prévision, Glimmer , du génome des bactéries présentent dans la base de données RefSeq. Ces séquences de protéines, et leurs domaines Pfam, sont utilisées dans la base de données d'identification rapide des micro-organismes ( www.RMIDb.org - Rapid Microorganism Identification Database). HMMPfam est également utilisé sur la grille Lattice comme modèle pour des applications bio-informatiques nécessitant un nombre important de données, une collaboration entre les laboratoires Cummings et Edwards.
Le laboratoire Cummings utilise gsi pour évaluer la représentativité des statistiques dans une variété de situations.
Maile Neel et Joanna Grand utilisent Marxan pour évaluer les conséquences de l'utilisation de données incomplètes et de mauvaise qualité sur la capacité à comprendre la diversité biologique des réserves naturelles.
Le laboratoire de David Fushman fait tourner "Protein" : un algorithme de liaison moléculaire entre protéines sur Lattice. En s'appuyant sur des contraintes expérimentalement, ce projet aidera à la modélisation des structures de grands complexes multi-protéiques, et aux interactions de ces protéines avec divers ligands. CNS est le service de la grille réservé à ce projet.
Floyd Reed et Holly Mortensen du Laboratoire de Sarah Tishkoff ont fait tourné les simulations MDIV et IM sur le projet Lattice. Ce sont des études sur la génétique moléculaire des populations qui cherchent à utiliser le polymorphisme de la séquence nucléotidique de l'ADN pour estimer les dates de divergence et les taux de migration nette parmi la diversité ethnique des populations africaines.
HmmPfam fait partie du paquet HMMER. HMMER consiste en la mise en oeuvre des modèles de Markov cachés ( profil HMMs ) pour l'analyse de séquences biologiques. Les profils HMMs permettent la construction de modèles statistiques à partir des alignements multiples des séquences. Ils capturent des informations sur la façon dont se présente chaque colonne de l'alignement, et les probabilités des résidus sont estimées. Pour plus d'informations, visiter le site internet de HMMER (en anglais).
Les recherches du laboratoire Edwards
La majeure partie de mon travail de recherche se concentre dans le domaine de la protéomique. Soit déterminer par l'utilisation de la spectrométrie de masse quelles protéines, et combien d'entre elles, sont présentes dans un échantillon biologique donné. Travaillant en collaboration avec le laboratoire Fenselau, j'espère aider à ce que la protéomique basée sur la spectrométrie de masse tienne toutes ses promesses, en construisant un protocole bio-informatique fiable rendant possible l'expression d'un gène, la détermination de son génotype et son séquençage.
Je travaille actuellement sur la construction d'une base de données des séquences d'acides aminés qui reflèterait mieux les séquences de peptides observés dans le déroulement des opérations d'identification des peptides. La spectrométrie de masse en tandem résiste à l'identification par les moteurs de recherche des bases de données de séquences pour plusieurs raisons, une des raisons est que les bases de données actuelles ne contiennent pas les séquences de tous les peptides observés de façon expérimentale. Ma recherche aborde ce problème en intégrant des séquences putatives de peptides dans les sources des données génomiques et en compressant les séquences en résultant de sorte que la durée de recherche demeure réaliste. Voir les bases de données sur les séquences de peptides pour plus d'informations.
Je travaille également sur la mise au point d'outils bio-informatiques pour l'identification rapide de micro-organismes par la spectrométrie de masse. En collaboration avec Fernando Pineda, de l'École publique de la santé John's Hopkins Bloomberg, je fais fonctionner Rapid Microorganism Identification DataBase (RMIDB - base de données pour l'identification rapide des micro-organismes), qui regroupe des protéines et des peptides issus des séquences du génome des bactéries en les liant aux pics de la spectrométrie de masse. RMIDB permet aux utilisateurs de définir arbitrairement les sous-ensembles du monde des protéines bactériennes correspondant aux protéines connues comme étant naturellement abondantes, ou de les sélectionner pour la préparation d'un échantillon. RMIDB indique la famille des protéines Pfam et TIGRFAM ; espèces, genres, des notes sur l'organisme, le mot-clé UniProt ; et les modifications de post-traductionnels liées à la perte initiale de methionine pour chaque biomarqueur. Les protéines intactes et les biomarqueurs tryptiques des peptides sont supportés. L'accès au prototype actuel est limité au campus de l'Université du Maryland par défaut, mais l'accès de personnes issues d'autres campus est accepté sur simple demande.
GARLI réalise des recherches heuristiques sur la phylogénétique en utilisant un modèle de substitution de nucléotides basés sur le GTR (Temps Général Réversible) à l'aide d'une distribution gamma des taux d'hétérogénéités et de sites invariants. Pour plus d'informations, visitez le site internet de l'application GARLI (en anglais)
La modélisation des réserves naturelles - MARXAN
MARXAN est un programme d'aide à la décision pour aménager les réserves naturelles. Ce programme est utile pour sélectionner une réserve naturelle lorsque l'on dispose d'un grand nombre de sites possibles qui satisferont un certain nombre de critères écologiques, sociaux et économiques. Par exemple, certaines espèces ou caractéristiques de conservation doivent être correctement préservées à l'intérieur de la réserve naturelle, ou la réserve naturelle ne doit pas compter plus qu'un nombre spécifié de sites. L'utilisateur traduit ces critères en objectifs de conservation de telle sorte que les caractéristiques de conservation soient préservées (c'est à dire la population pour chaque espèce ou le pourcentage de chaque type d'habitat à inclure dans la réserve naturelle), et optionnellement le coût plafond ou le degré de concentration des sites. MARXAN modélisera les réserves sélectionnées en fonction de ces contraintes de conception tout en réduisant simultanément au minimum le coût de l'aménagement (c'est-à-dire le nombre de sites requis pour satisfaire tous les objectifs de conservation).
Données de mauvaise qualité et sélection des réserves naturelles :
Joanna Grand, Maile Neel, Michael Cummings (Université du Maryland), Taylor Ricketts (WWF), et Tony Rebelo (institut national sud-africain de la biodiversité) coopèrent sur un projet utilisant MARXAN afin de mesurer la capacité de sélectionner des réserves naturelles à partir de distributions d'espèces de mauvaise qualité et incomplètes. La plupart des distributions d'espèces sont d'une façon ou d'une autre de mauvaise qualité (c'est-à-dire une intensité d'échantillonnage élevée à proximité des routes ou à l'intérieur des réserves actuelles); pourtant, elles sont généralement utilisées pour sélectionner les sites devant faire partie des réserves naturelles parce qu'elles sont considérées comme les meilleures données actuellement disponibles. La capacité des réserves à protéger convenablement la biodiversité lorsque les emplacements sont sélectionnés à partir de données de mauvaise qualité et incomplètes est encore mal comprise.
La première série de calcul compare l'efficacité et l'effictivité des réserves sélectionnés et générés à l'aide de MARXAN et de données d'espèces complètes mais de mauvaise qualité. En tant que référence pour les données complètes, nous avons utilisé les données issues d'un échantillon virtuel exhaustif de plantes à fleurs de la famille des Proteaceae dans la Région Floristique du Cap en Afrique du Sud. Pour produire un éventail suffisant de solutions en vue de les comparer à la solution basée sur des données exhaustives, nous avons simulé un ensemble de 1000 données de mauvaise qualité et aléatoirement incomplètes à partir de l'ensemble de données des Proteaceae. Chaque ensemble de données a alors été calculé 1000 fois par MARXAN. Cette étude a exigé 1,2002 x 107 modélisations MARXAN, ces calculs ont été effectués en seulement quelques semaines à l'aide de la parallélisation des calculs sur la grille Lattice.
Actuellement, nous étudions la capacité des réserves à protéger des espèces lorsque l'aménagement de ces réserves est basé sur des distributions détaillées d'espèces qui sont souvent incomplètes et de mauvaise qualité, par rapport à des conditions ambiantes brutes, plus facile à acquérir et insensibles aux biais de l'échantillonage. Nous comparerons les solutions obtenues avec MARXAN et générées à l'aide de données d'espèces complètes, biaisées, et aléatoires, à celles générées avec des données environnementales (groupes de végétaux), et les combinaisons de ces deux types de données. Cette analyse demandera plus de 7,6 x 107 simulations MARXAN et utilisera de nouveau la grille Lattice afin de rendre possible le traitement de cette énorme quantité de calcul.
Ici, vous pouvez télécharger les versions les plus récentes de notre logiciel de grille.
Grid Services Base Library (GSBL) :
Grid Services Base Library (GSBL) est une trousse à outils en Java qui vise à réduire la complexité de l'écriture de services pour les grilles en utilisant la boite à outils Globus (version 4). GSBL fournit la classification de base à partir de laquelle les clients et les services peuvent être étendus. De plus, il fournit les outils pour faire fonctionner et gérer les travaux et les transferts de fichiers à distance. Comme cette trousse à outils possède un certain nombre de méthodes qui sont utilisées particulièrement par notre système de grille, nous espérons que d'autres personnes pourront adapter une partie ou la totalité de ce code pour leurs propres recherches.
Nouveau! Télécharger GSBL-GT4 version 0.9.5. La documentation Java est également disponible (en anglais)
Veuillez noter que cette distribution GSBL contient un module en Perl, GSBL::Client, qui doit être installé afin que le langage en Perl du client qui produit Grid Services Generator puisse fonctionner.
cd [unpacked_GSBL_directory]/GSBL/Client
perl Makefile.PL
make install
Grid Services Generator (GSG)
Comme complément à la bibliothèque GSBL, Grid Services Generator (GSG) accélère le développement du service distribué en créant automatiquement l'ossature des dossiers exigés par un service GSBL. Ceci inclut les dossiers WSDL, les dossiers de Java, les dossiers de configuration Globus, et d'autres. Voir le dossier README inclus dans la distribution pour plus de documentation.
Nouveau! Télécharger GSG-GT4 version 0.9.5.
Ce programme est libre, vous pouvez le redistribuer et/ou le modifier selon les termes de la Licence Publique Générale GNU telle que publiée par la Free Software Foundation ; soit la version 2 de cette licence, soit (à vous de voir...) toute autre version ultérieure.