Performance record pour la recherche d’images dans les très grandes bases de données

Détails: Écrit par : Heyoka; Catégorie parente: Les Projets BOINC; Publication : 6 février 2008

L'analyse d'image et la reconnaissance des formes est un outil émergent dans le domaine médical. Deux projets Boinc ont été lancé sur la base de cette technologie qui nécessite énormément de puissance de calcul :

Help Defeat Cancer (World Community Grid) dont le but est de construire une base de donnée des tissus et tumeurs cancéreuses. Cette base de donnée sera consultable par tous les médecins à travers le monde, les tissus cancéreux des patients pourront alors être analysés, archivés et partagés automatiquement, pour fournir un diagnostic informatique extrêmement précis. A terme, cet outil devrait offrir une aide au diagnostic, afin de renforcer où infirmer les conclusions des cancérologues. L'objectivité, la reproductibilité et la précision de la technique informatique permettra de venir contrebalancer la subjectivité inérante au diagnostic du médecin. Les calculs du projet se sont achevés le 3 Avril 2007, les derniers développements ont été exposés dans un message du Dr Foran le 12 Juin dernier.
Le projet Lutte contre le Cancer (World Community Grid) de l'Université de Toronto. Le but de ce projet lancé le 6 novembre dernier est d'amener à une meilleure compréhension des principes sous-jacents à la cristallographie des protéines. Pour ce faire, c'est plus de 86 millions clichés de cristaux de protéine qui seront traités. Chaque image sera analysée par le programme de reconnaissance de forme "CrystalVision", qui déterminera le résultat des analyses de cristallisation (cristal, microcristal, séparation de phases, effet de peau, précipité ou pas de changement). Cette base de donnée exige plus de 25 To d’espace de stockage (l’équivalent de 9 000 DVD).

La reconnaissance des formes sera très certainement la prochaine grande innovation des moteurs de recherche au cours des prochaines décennies. Aujourd'hui, il est possible de faire des recherches en partant d'un mot, d'une suite de mot ou d'une expression. Dans le cas de la recherche d'images, les moteurs de recherche utilisent un moyen détourné en faisant des recherches sur le texte situé à proximité d'une image. La technique est imparfaite puisque la personne qui publie une photo ne décrit jamais en totalité tous ce qu'il s'y trouve, et assez souvent l'auteur de la photographie ignore le nom des objets, animaux, végétaux, individus qui y apparaissent.
La grande révolution des prochaines décennies offrira la possibilité de partir d'une image donnée puis de trouver toutes les images similaires. Par exemple, de partir d'une photo de fleur et de trouver toutes les photos dans le monde ou le même type de fleurs apparaîssent, y compris sur des photos de paysage ou appaissent des milliers de fleurs et de végétaux différents (à la condition que la résolution de la photographie soit suffisante). De partir de la photo d'une personne, puis de trouver sur internet toutes les photos où cette personne apparaît, puis ensuite des photos ou apparaissent des sosies plus ou moins proches. La prochaine étape à plus long terme sera d'intégrer dans ces moteurs de recherche nouvelle génération toutes les images contenues dans toutes les vidéos disponibles sur internet.
Après se posent les même problèmes d'éthique qui se sont posés lors du lancement d'internet et des moteurs de recherche de texte, avec la possibilité de trouver énormement d'information sur une personne à son insu. Pour les moteurs de recherche de texte, il est possible de détourner le problème en utilisant un pseudo au lieu de son nom et de son prénom usuel, mais dans le cas de la reconnaissance des formes d'une image, aucune parade n'existe, à part celle qui consiste à se ballader constament avec une cagoule sur la tête.

C'est dans ce contexte de recherche extrêmement compétitive dans ce domaine, que le CEA et l'entreprise française Bull viennent d'annoncer une importante innovation. Le moteur développé par l'organisme de recherche public français permet d'effectuer une recherche à la vitesse de 3,7 millions images par seconde, soit 5 fois plus rapidement que précédement. Un aperçu des possibilités offertes par ce moteur de recherche appelé Piria est disponible sur le site du CEA. Un autre prototype du groupe de recherche (Automatic Linguistic Indexing of Picture) est disponible à l'adresse suivante : http://alipr.com/. ALIPR est actuellement en phase d'apprentissage du monde, vous pouvez l'aider en chargeant une image puis en la décrivant en anglais.

Vous trouverez ci dessous le communiqué de presse publié hier par le CEA :

Le CEA et Bull annoncent avoir atteint une performance record dans la recherche d’images dans les très grandes bases de données. Ainsi, le nouveau moteur permet d’effectuer une recherche de 3,7 millions d’images par seconde, ce qui est 5 fois plus rapide que précédemment. Cette performance record a été obtenue sur un supercalculateur conçu et fourni par Bull, en utilisant le logiciel de recherche multimédia spécialement développé par le CEA LIST1 dans le cadre du projet FAME22. Il ouvre la voie à un vaste champ applicatif allant de la veille stratégique à la comparaison d’images médicales, des « fouilles » de données sur Internet au commerce électronique ou à la gestion de contenu.

Une technologie révolutionnaire de recherche d’image aux applications multiples…
Aujourd’hui, les moteurs sur Internet effectuent des recherches d’images uniquement à partir de leur description textuelle (noms, légende). En effectuant les recherches à partir de l'analyse du contenu des images, le moteur de recherche Piria3 développé par le CEA, apporte une solution beaucoup plus puissante, ouvrant la voie à un vaste champ applicatif : de la veille stratégique à la comparaison d’images médicales, des « fouilles » de données sur Internet au commerce électronique ou à la gestion de contenu. Le CEA LIST, qui mène des recherches en ingénierie de la connaissance multimédia multilingue, développe depuis plusieurs années des techniques d’extraction de connaissances pour améliorer la pertinence des résultats. Le principe de la recherche d’images par le contenu est de calculer, pour chaque image de la base, une signature visuelle ou codée et de regrouper ces signatures dans un index. La requête, matérialisée par une image, donne lieu à une réponse sous forme d’images similaires. Ces techniques de recherche par le contenu, qui analysent en premier lieu la valeur des pixels, sont intrinsèquement très consommatrices en calcul.

… aujourd’hui rendue possible par la maîtrise des très grandes puissances de calcul
Dans le cadre du projet FAME2 auquel participe le CEA, les chercheurs ont pu accéder à de puissants moyens de calcul haute performance pour tester l’application de recherche d’images Piria dans une base de données de grande dimension.
Le test a nécessité l’adaptation du code du moteur Piria à l’architecture parallèle du supercalculateur développé par Bull (88 coeurs de processeurs Intel® Itanium® et 50 téra octets de disque), permettant d’intégrer la base de 22 millions d’images d’un volume de 2,9 Téra octets. Cette action, pilotée par le CEA/DAM4, a fait l’objet d’une collaboration étroite entre les équipes du CEA LIST et de Bull. Les résultats de ce développement ont été présentés durant l’été 2007 : les 22 millions d’images ont été indexées en moins d’une semaine de calcul, en exploitant 48 coeurs de processeurs Intel® Itanium® du supercalculateur ; une fois la base de données indexée, l’utilisateur peut soumettre sa requête depuis son navigateur et obtenir des réponses quasi-instantanées.

Un record de performance mondial
Le moteur Piria permet d’effectuer en 6 secondes une recherche parmi 22 millions d’images, au lieu de 15 secondes pour une recherche d’image parmi 11 millions avec le système Cortina, système de recherche d’images par le contenu accessible par Internet et développé par l’Université de Californie de Santa Barbara (UCSB). Cette épreuve était l’un des grands défis que le projet FAME2 se proposait de relever.
Cette réussite montre la puissance des technologies de reconnaissance d’images développées au CEA LIST sur de très grandes bases de données comptant plusieurs téraoctets. Ces technologies sont commercialisées par la société NewPhenix5.

Création : 6 février 2008

Mis à jour : 14 octobre 2015