Message du 13/08/07 traduit du site du projet SIMAP :
SIMAP a
commencé à
fournir mensuellement des similarités pour les
protéines à grande échelle et
des données caractéristiques pour le projet Gene3D.
Le projet Gene3D
a pour but de
caractériser la distribution des domaines structurels des
protéines dans la
nature et d’utiliser cette information pour accomplir des
recherches sur l’évolution
et la fonction des protéines. Les protéines des
cellules vivantes, codées par l’ADN,
constituent les entités fonctionnelles. Elles ont
à la fois la fonction de
catalyseur, d’où le soutien du
métabolisme cellulaire, et celle
d’unités
structurelles, fournissant structure et organisation aux cellules.
Pratiquement
toutes les protéines sont faites d’un domaine ou
plus. Ces domaines sont des
séquences secondaires semi-indépendantes qui
forment ce qu’on appelle les
pliures, dont on pense qu’il en existe seulement quelques
milliers avec 20 « superpliures »
dominant la majeure partie des structures de domaine.
La base de
données
jumelle de Gene3D,
CATH,
utilise une
suite d’outils logiciels combinée à une
analyse experte pour déterminer les
limites des pliures des données structurelles 3D –
comme celles produites par
la diffraction de rayons-X à travers un cristal –
et hiérarchiser les pliures
selon leurs caractéristiques structurelles et leur
probabilité d’associations
évolutives. Gene3D
prend ensuite les séquences (les protéines sont
composées de chaines d’acides
aminés) et les utilise pour construire des
modèles – connus sous le nom de
Hidden Markov Models (HMMs ou Modèles Cachés de
Markov en Français) – des domaines.
Ces modèles identifient spécialement les
séquences susceptibles d’évoluer en
rapport avec les domaines de base de CATH.
De là, nous
pouvons en conclure qu’elles formeront les mêmes
structures.