Notes pour le 1er juillet 2021
Un résumé mensuel des nouvelles et des notes pour MLC@Home
Résumé
Joyeux premier anniversaire à MLC@Home ! Ce projet a été mis en ligne le 1er juillet 2020 et a fait son chemin assez rapidement dans la communauté BOINC. Nous sommes restés concentrés sur notre objectif, qui est d'ouvrir la boîte noire des réseaux de neurones pour expliquer pourquoi ils font les choix qu'ils font. C'est tellement important que l'apprentissage automatique imprègne de plus en plus notre vie quotidienne ; des voitures autonomes aux décisions bancaires et aux diagnostics médicaux. Nous avons besoin de recherches pour comprendre comment éviter les biais de ces systèmes.
Nous sommes également le premier, et à ce jour le seul, projet public BOINC axé sur l'apprentissage automatique. Cela signifie que bien que nous puissions tirer parti du cadre BOINC pour la gestion des tâches, nous devons créer la plupart de l'infrastructure client ML à partir de zéro. Cela n'a pas toujours été facile, mais nous avons accompli tant de choses au cours de la dernière année malgré tout.
Au cours de la dernière année, nous avons :
- Contributions reçues de plus de 2500+ bénévoles et de 9200+ hôtes
- Traitement de plus de 3,4 millions d' unités de travail BOINC
- Formation de plus de 1,1 million de réseaux de neurones pour l'analyse de 3 ensembles de données différents, les plus grands ensembles de données de leur genre
- Généré plus de 4,3 To de données pour l'analyse
- Publication d'un article académique (d'autres à venir..)
- Présenté au Workshop BOINC 2021
- Publication de 47 versions client ciblant 3 architectures CPU différentes, 2 architectures GPU et plusieurs versions de Windows et Linux.
- Dépassé le serveur initial au cours des premiers mois !
Je suis submergé par notre communauté et ce que nous avons accompli ensemble. Nous avons déjà montré que les réseaux entraînés avec les mêmes données se regroupent dans l'espace de poids, malgré le caractère aléatoire associé à l'entraînement des réseaux de neurones. Nous avons également montré que nous pouvons utiliser ce clustering pour détecter les réseaux formés avec des données empoisonnées par rapport à des données propres, une découverte importante sur le terrain.
Mais il y a encore tellement à faire ! Alors que nous voulons reconnaître et célébrer ce que nous avons accompli ensemble jusqu'à présent, regardons également vers l'avenir et fixons-nous quelques objectifs lâches pour la prochaine année de MLC@Home :
- MLDS continuera à court terme !
DS4 est (presque) prêt et étend l'ensemble de données pour inclure les types de réseau CNN ainsi que les RNN utilisés dans DS1-3. DS5 variera probablement légèrement la forme et la taille de chaque réseau pour voir si le clustering se produit toujours lorsque la forme varie. Le futur travail MLDS au-delà de DS5 est à déterminer, mais nous nous attendons à ce qu'il y ait beaucoup de WU DS4/DS5 pendant de nombreux mois à venir. Nous prévoyons de mettre à jour le document avec les dernières séries au cours du mois prochain.
- Nous aimerions nous développer au-delà du MLDS !
Nous sommes le premier projet à faire du ML à l'échelle de BOINC. Nous aimerions nous étendre pour soutenir d'autres domaines de recherche et nous engager à mettre en ligne au moins un autre projet de ML au cours de la prochaine année. Veuillez nous contacter si vous êtes un chercheur intéressé à travailler avec la plateforme !
- Nous devons améliorer l'aspect technique du projet
Du client prenant en charge les GPU AMD et OSX à l'optimisation de l'utilisation des cartes graphiques à un meilleur processus de validation pour les WU, il existe une longue liste de problèmes techniques que nous aimerions résoudre, et que nous n'avons pas fait si efficacement au cours des trois derniers mois. Nous arrivons également à des cas particuliers de la pile logicielle BOINC qui sont difficiles à contourner. Si vous êtes un développeur et que vous souhaitez aider, nous serions heureux de recevoir votre assistance.
- Nous aimerions améliorer la sensibilisation
Pour impliquer davantage de personnes, nous aimerions produire quelques courtes vidéos sur le projet, ce que nous avons trouvé et comment les autres peuvent aider. Ceux-ci doivent être courts, facilement accessibles et faciles à partager. Nous aimerions en produire au moins un dans les 6 prochains mois.
Ce sont des objectifs lâches mais qui devraient vous donner une idée de ce sur quoi nous concentrons nos efforts pour l'année prochaine. Si vous avez d'autres idées, veuillez les partager ci-dessous ou sur Discord.
Merci encore pour votre soutien à MLC@Home, et voici encore de nombreuses années de recherche fructueuse et importante dans un domaine important.
Autres nouvelles
- DS3 est presque complet (juste quelques 130+ derniers ruissellements !). Je considère DS3 comme l'ensemble de données le plus important et j'ai hâte d'effectuer notre analyse sur l'ensemble !
- À partir de maintenant, nous allons exploser les WU DS1 (puis DS2) dans les files d'attente GPU et CPU jusqu'à ce que cela se termine et/ou jusqu'à ce que DS4 soit prêt. Nous essaierons de les faire franchir le pas dès que possible.
- Quelques nouvelles amusantes! Tankbuster, utilisateur de MLC Discord, a mis à jour le graphique de notre bannière ! Voir la bannière mise à jour sur les pages du projet et d'accueil !
- Encore plus excitant, Tankbuster a créé un prototype d'application graphique pour MLC@Home ! Vous pouvez voir des maquettes et des vidéos et suivre la discussion sur le serveur MLC Discord (lien en bas).
Aperçu de l'état du projet
(notez que ces chiffres sont approximatifs)
Merci encore à tous nos bénévoles !
Les mises-à-jour mensuelles précédentes (auparavant hebdomadaires) sont, habituellement, traduites sur le forum, ici.
- La page d'accueil des administrateurs MLC@Home : https://www.mlcathome.org/
Discord invite : https://discord.gg/BdE4PGpX2y
Twitter: @MLCHome2
traduction de l'article MLC@Home : https://www.mlcathome.org/mlcathome/forum_thread.php?id=212