400.000 nouvelles séquences génomiques en provenance de la base de données Ensembl vont être analysées ce mois-ci sur Simap. Elles viennent s'ajouter aux 150.000 séquences issues des bases de données PDBRefSeq et Uniprot. Toutes ces séquences seront comparées par rapport à l'intégralité des séquences (18 millions) archivées dans la base de données SIMAP.
Ensembl est un système bio-informatique d'annotation automatique de génomes géré conjointement par l'Institut européen de bio-informatique et l'institut Wellcome Trust Sanger. L'idée centrale est d'organiser de vastes champs d'information biologique autour de séquences génomiques. Pour chaque génome analysé, Ensembl tente d'identifier par un processus automatique l'ensemble des gènes qu'il contient. Il s'appuie pour cela sur des données de séquences existantes (ARN, protéines), qu'il "raccroche" sur le génome, pour en déduire la structure des gènes. Sur cette première strate d'annotation, celle de la structure des gènes, Ensembl va ajouter d'autres éléments (les variations communes, les éléments régulateurs des gènes, des informations sur les protéines codées par les gènes, des annotations externes à travers le Distributed Annotation System, les gènes similaires à d'autres organismes, les maladies génétiques et les syndromes cliniques reliés à ce gène) - voir l'article wikipédia
Au vu des calculs à effectuer, des unités SIMAP devraient être disponibles pendant toute cette semaine, ensuite il faudra attendre le 1er juillet pour charger de nouvelles unités.