le 9 juillet 2015 à 14:00
NOMAD : Un cadre distribué pour les modèles de variables latentes. Les modèles de variables latentes sont la pierre angulaire de nombreux problèmes d’apprentissage automatique. À mesure que la taille et la complexité des données augmentent, c’est un défi contemporain de développer des algorithmes évolutifs et distribués pour cette tâche. Dans cette présentation, je me concentrerai sur deux de ces problèmes d’intérêt considérable : l’achèvement de la matrice et la modélisation des sujets. Nous abordons ces problèmes en développant un nouveau cadre, que nous appelons NOMAD. Dans nos deux problèmes, certaines variables se comportent NOMAD-ically, car elles migrent du processeur au processeur après avoir effectué leurs tâches à chaque processeur. Grâce à notre framework, les algorithmes distribués correspondants sont décentralisés, sans verrou, asynchrones et sérialisables (ou presque sérialisables). En raison de ces propriétés, nos algorithmes NOMAD-ic présentent un bon comportement d’échelle sur les problèmes de complétion de matrice avec des milliards de notes et des problèmes de modélisation de sujets avec des milliards de mots. Par exemple, sur une machine distribuée avec 32 processeurs où chaque processeur a 4 cœurs, nous pouvons résoudre un problème de complétion de matrice avec des cotes de 2.7B en 10 minutes, et un problème de modélisation de sujet avec 1.5B occurrences de mots et 1024 sujets en 16 minutes.