Un article de 7 pages est consacré aux grilles informatiques dans le N° 361 de la revue Pour la Science (Novembre 2007, 96 pages). L'article revient assez largement sur les projets de calcul distribués, BOINC et Seti@home. Vous trouverez également dans ce numéro, des articles extrêmement intéressants permettant de mieux appréhender certains projets BOINC. "Carthographier l'Univers" et "le nouvel élan de la cosmologie" (Cosmology@home), "Antennes gravitationnelles" (Einstein@home), "Des géants pour traquer l'infinément petit" (LHC@home), "L'aventure du génome",...
L'auteur de l'article sur l'informatique répartie est Thierry Priol, directeur de recherche à l'INRIA et responsable scientifique de l'équipe-projet paris, (Programmation des systèmes parallèles et distribués pour la simulation numérique à grande échelle), au Centre de recherche INRIA, Rennes.
Voici un court extrait de cet article :
L'ordinateur tel que nous le concevons est condamné. Pour disposer d'une puissance de calcul et de stockage nécessaire aux grands projets scientifiques, on utilise des machines dont les éléments sont répartis dans le monde et reliés par l'Internet. Nos ordinateurs seront ces éléments !
Aujourd'hui, beaucoup de grandes avancées scientifiques dépendent des progrès de l'informatique. En effet, la compréhension de nombreux phénomènes, par exemple en biologie et en physique, nécessite de les modéliser avec des outils mathématiques de plus en plus complexes afin d'être le plus proche de la réalité. Il s'agit de représenter le phénomène étudié sous la forme d'équations mathématiques qui sont ensuite traduites en un programme informatique. Celui-ci est alors exécuté sur de puissants ordinateurs. La simulation numérique gagne aussi d'autres domaines, telle la finance qui l'utilise pour l'analyse de risques.
Pour certaines sciences, comme l'astronomie ou la physique des hautes énergies, le problème n'est pas seulement de pouvoir effectuer un grand nombre de calculs en peu de temps, mais aussi de stocker de grandes quantités de données produites par des instruments, par exemple les radiotélescopes et les collisionneurs à très haute énergie. Ainsi, le futur LHC (le Large Hadron Collider) du CERN produira environ 14 péta-octets (un pétaoctet est égal à 215 octets) de données par an. Autre cas, les recherches en génomique requièrent la mise en relation de plusieurs banques de données réparties géographiquement: le but est d'effectuer un très grand nombre de comparaisons afin notamment de prédire les structures tridimensionnelles de protéines à partir d'une suite d'acides aminés.
Ces « appétits » en puissance de calcul et de stockage s'accompagnent également d'un besoin en outils de travail coopératif de sorte que plusieurs chercheurs, de compétences diverses et dispersés de par le monde, puissent travailler ensemble à l'interprétation des résultats issus d'une même expérience.
Pour toutes ces applications, les scientifiques disposent-ils du matériel suffisant? Certes, depuis l'apparition des micro-ordinateurs depuis bientôt 30 ans, l'informatique a vu sans cesse croître la puissance de traitement des ordinateurs et de leurs capacités de stockage (voir l'encadré de la page 116). Toutefois, les besoins augmentent plus vite que les performances, notamment celles des processeurs qui doublent tous les deux ans selon la loi de Moore.
(.....)
Historiquement, les grilles informatiques du premier type (ordinateurs personnels) ont été utilisées pour le calcul des nombre premiers ou le décodage d'un message crypté par l'approche "force brute" qui consiste à essayer toutes les combinaisons possibles de clés de cryptage. Cette technique se prête bien à une exécution sur ce type de grilles, car les combinaisons sont testées simultanément et leur nombre est largement supérieur au nombre d'ordinateurs généralement disponibles
Les ressources individuelles
C'est le projet SETI@tome qui, en 1999, a rendu ces infrastructures populaires (voir la figure 3). Les internautes étaient invités à participer à la recherche de signaux témoignant d'une intelligence extraterrestre parmi ceux captés par le radiotélescope d'Arecibo, à Porto Rico. Aujourd'hui, SETI@home représente une puissance de plusieurs centaines de téraflops. Le principe consiste en la mise à disposition de ressources de calcul inutilisées par l'utilisateur volontaire via le téléchargement et l'installation d'un logiciel sur sa machine. Ce logiciel s'active lorsque la machine n'est pas utilisée, sous la forme d'un économiseur d'écran, et s'adresse alors à un serveur central qui lui confie des calculs. Une fois ceux-ci terminés, le logiciel renvoie le résultat au serveur qui lui propose d'autres calculs. Un serveur unique coordonne plusieurs millions de machines réparties dans le monde. Cette idée a été reprise dans de nombreux projets, par exemple le Décrypthon, en France, pour accélérer les recherches en génomique.
Le succès de cette méthode a conduit les concepteurs de SETI@home à proposer un nouveau système, nommé BOINC, qui héberge de nombreux projets pouvant bénéficier de ce type de grilles. Une vingtaine de projets dans des domaines divers utilisent ce système : parmi les plus récents, la modélisation de la flexibilité de la protéase du VIH et des molécules médicamenteuses candidates, et la résolution du problème des N-Dames qui consiste à placer N dames sur un échiquier (N X N) sans que l'une puisse en prendre une autre.
Cette méthode a rencontré un succès incontestable, mais plusieurs problèmes restent à résoudre. Le premier d'entre eux concerne les applications qui peuvent en tirer bénéfice. En effet, seules sont compatibles celles que l'on peut décomposer en un très grand nombre de tâches indépendantes: elles sont peu nombreuses. Dans le cadre du projet XtremWeb, des travaux ont mis au point une façon de contourner cette limitation et permettent ainsi à un plus grand nombre d'applications de tirer parti de ce type de grille.
Un autre souci, sans doute le plus important, est l'encouragement des individus à « prêter » leurs machines sans être rétribués. Pour ce faire, le créateur de la grille propose souvent un classement où chaque participant se voit attribuer des crédits (sous forme de points) selon le nombre de résultats fournis. La volonté d'être bien placé suffit à assurer qu'un grand nombre de machines sont proposées. Ajoutons que la motivation à participer au progrès de la science joue un rôle également important, notamment avec des applications liées à la médecine, tel le Décrypthon.
Vices et vertus du volontariat
Ce type de grille, fondé sur des ressources individuelles, est volatil, c'est-à-dire qu'à tout moment, une machine peut être retirée par son utilisateur ou simplement tomber en panne. Que faire si cette machine calculait? Le système doit relancer le calcul sur une autre machine. Dans les faits, il soumet un même calcul à plusieurs machines, de sorte qu'il sera effectué à coup sûr. Cette réplication autorise également la détection d'erreurs à l'issue du calcul en comparant l'ensemble des résultats. Ces erreurs sont parfois intentionnelles et ont obligé les concepteurs du projet SETI@home à utiliser des dispositifs cryptographiques pour être certains que les résultats fournis par l'ordinateur d'un individu ne sont pas modifiés lors de leur transfert vers le serveur central.
Un autre problème est la sécurité de la machine qu'un individu met à disposition de la grille. En téléchargeant le logiciel de calcul et en l'installant sur sa machine, il peut s'exposer à des comportements malicieux introduits par le concepteur du logiciel. En effet, celui-ci peut avoir accès aux données de l'utilisateur et prendre le contrôle de sa machine. Pour éviter cela, des informaticiens ont proposé des techniques qui isolent parfaitement le logiciel qui fonctionne sur la grille du reste de la machine. Ainsi, la « sandbox » (le bac à sable) interdit l'accès aux ressources de la machine (mémoire, réseau...). De la même façon, une machine virtuelle simule une architecture matérielle. Dans les deux cas, le logiciel ne peut communiquer qu'avec le serveur et n'a plus accès aux données de l'utilisateur.
3. SETI@home traque les signaux d'une intelligence extraterrestre dans les signaux reçus par le radiotéléscope d'Arecibo, à Porto Rico (a). Pour ce faire, dès que votre ordinateur est en veille, un logiciel démarre et analyse les données que lui envoie un serveur central (b). Près d'un million d'ordinateurs personnels reliés par le réseau Internet participent à ce projet |