Et voilà, la première phase du projet Genome Comparison est sur le point de se terminer (99%). Voir la page d'avancement du projet. 1783 années de calculs, 3 773 412 unités ont été calculées depuis le lancement du projet il y a 4 mois.
On devrait donc rapidement enchainer sur la deuxième et sans doute dernière phase du projet. Elle consiste en une mise à jours des données génomiques nouvellement publiés, 393 999 nouvelles séquences protéiques seront vérifiées et annotées pour éviter de répéter les séquences (des fois que les deux banques en aient en commun). En complément, les reférences d'une base de donnée thérapeuthique ont été ajoutées (SwissProt - 254 609 séquences), elles contriburons à recouper les données. Pour finir, une série de données expérimentales, d'environ 3 millions de séquences de protéines potentielles, dûes au décalage du cadre de lecture ouvert (ORF : Open Reading Frames , qui permet a une meme séquence d'ADN de donner plusieurs proteines différentes) ont été ajouté, afin d'essayer de découvrir des séquences de protéine où des modèles de codage additionnels.
Cette deuxième phase devrait durer 4 mois supplémentaires