Message du 13/08/07 traduit du site du projet SIMAP :

SIMAP a commencé à fournir mensuellement des similarités pour les protéines à grande échelle et des données caractéristiques pour le projet Gene3D.

Le projet Gene3D a pour but de caractériser la distribution des domaines structurels des protéines dans la nature et d’utiliser cette information pour accomplir des recherches sur l’évolution et la fonction des protéines. Les protéines des cellules vivantes, codées par l’ADN, constituent les entités fonctionnelles. Elles ont à la fois la fonction de catalyseur, d’où le soutien du métabolisme cellulaire, et celle d’unités structurelles, fournissant structure et organisation aux cellules. Pratiquement toutes les protéines sont faites d’un domaine ou plus. Ces domaines sont des séquences secondaires semi-indépendantes qui forment ce qu’on appelle les pliures, dont on pense qu’il en existe seulement quelques milliers avec 20 « superpliures » dominant la majeure partie des structures de domaine.

La base de données jumelle de Gene3D, CATH, utilise une suite d’outils logiciels combinée à une analyse experte pour déterminer les limites des pliures des données structurelles 3D – comme celles produites par la diffraction de rayons-X à travers un cristal – et hiérarchiser les pliures selon leurs caractéristiques structurelles et leur probabilité d’associations évolutives. Gene3D prend ensuite les séquences (les protéines sont composées de chaines d’acides aminés) et les utilise pour construire des modèles – connus sous le nom de Hidden Markov Models (HMMs ou Modèles Cachés de Markov en Français) – des domaines. Ces modèles identifient spécialement les séquences susceptibles d’évoluer en rapport avec les domaines de base de CATH. De là, nous pouvons en conclure qu’elles formeront les mêmes structures.

Il y a actuellement plus de 6000 modèles HMMs dans la bibliothèque CATH-Gene3D. Ces modèles sont confrontés à toutes les séquences de protéines connues (plus de 7 millions) et utilisés pour déterminer leur domaine de composition. Cela représente un gros volume de calcul et est normalement seulement faisable sur un parc informatique important. La comparaison de l'architecture des domaines ainsi que l’analyse directe des similarités des séquences du domaine nous permet de transférer des connaissances issues de l’expérimentation du très petit nombre de protéines décrites au grand nombre déduits du séquençage de l'ADN (i.e the Human Genome Project – Le Projet du Génome Humain)

En outre, il est possible de déduire directement les relations fonctionnelles par l’identification des subtiles signaux de l'évolution, comme pour la co-évolution utilisant le profilage phylogénétique ; en pratique, il y a une myriade d’applications. En conséquence, de nombreuses recherches basées sur CATH & Gene3D, et plus encore sur les structures de protéines en général, ont eu un retentissement sur notre compréhension des stades des maladies ainsi que sur le développement de nouveaux médicaments.