Les scientifiques de Help Stop TB nous donnent un aperçu des algorithmes utilisés pour le projet, et les raisons de leur choix.
Matériel, système d'exploitation, logiciel, langues utilisées pour #HelpStopTB.
Dans le cadre de notre projet, nous utilisons les serveurs WCG aux côtés de nos machines locales. Ces petites centrales électriques (toutes nommées d'après des icônes australiennes !) fonctionnent sous Linux et ont chacune entre 10 et 20 cœurs et 64 à 128 Go de RAM. La plupart des calculs scientifiques se déroulent désormais sur Linux, et cela est particulièrement important pour nous car nous en avons besoin pour travailler avec GROMACS, le logiciel de dynamique moléculaire que nous utilisons pour simuler les acides mycoliques sur le WCG. Beaucoup de nos scripts sont codés en Perl ou en Python, et nous sommes sur un processus lent de transfert de plus de processus vers Python. Python s'est avéré très utile pour les analyses récentes - en raison de sa nature et de sa popularité open source, il existe de nombreux supports pour développer les outils sur mesure et la formation nécessaires pour les données sur l'acide mycolique.
Certaines des techniques que nous utilisons.
D'après la taille des données et les efforts de l'équipe jusqu'à présent, il est clair que bon nombre des techniques que vous utiliseriez traditionnellement pour étudier la dynamique moléculaire ne sont pas adaptées à un ensemble de données aussi vaste que le nôtre (en particulier avec des molécules aussi souple que nos acides mycoliques !). Pour analyser les données, nous devons utiliser des algorithmes d'apprentissage automatique capables de nous dire pourquoi les acides mycoliques se replient dans certaines formes, mais ce n'est pas aussi simple que de lancer n'importe quelle vieille IA sur le problème. Pour extraire ces informations de pliage cruciales des données, nous avons besoin d'outils d'IA explicables sans les limitations de la boîte noire de nombreuses approches. C'est là qu'intervient notre nouveau membre de l'équipe, Connor : avec une expérience en IA, en calcul scientifique et en développement de méthodes,
Nous avons aussi eu des succès locaux ! Nous avions un peu l'intuition que nous examinions des données non linéaires, et nous avons donc commencé à utiliser une technique d'apprentissage compétitive appelée cartes auto-organisées qui agissent comme une alternative non linéaire aux méthodes linéaires moins efficaces. De plus, nous avons utilisé le travail mathématique de Lyapunov (dont la femme est malheureusement décédée de la tuberculose en 1918) pour commencer à comprendre encore plus en détail les propriétés cachées des acides mycoliques. La prochaine étape avec ces approches consiste à augmenter l'échelle de nos systèmes de test à l'ensemble de données complet. Malheureusement, cela prend du temps à développer et à mettre en œuvre sur quelque chose de cette taille, mais nous continuons à faire des progrès constants.