YouTube-8M : video dataset
Un dataset est un regroupement d’éléments (par exemple des images) qui seront catégorisées ou labelisées, permettant ainsi de les regrouper / filtrer selon des thèmes communs.
Les datasets labelisés ont permis une avancée non négligeable dans le domaine du machine learning. En guise d’exemple ImageNet, un énorme dataset d’images labelisées, ayant notamment permis des avancées considérables dans le domaine de la détection d’objets dans les images.
C’est dans cette idée que Google a lancé le tout récent YouTube-8M, un gigantesque dataset regroupant 8 millions de video YouTube labelisées selon 4800 entités, devenant ainsi le plus grand dataset vidéo actuellement disponible.
Les développeurs ont utilisé le système automatisé des annotations YouTube pour créer ce dataset, contrecarrant ainsi l’un des principaux problèmes des datasets vidéo, à savoir que l’annotation manuelle est un travail gargantuesque.
Sur YouTube-8M, un explorateur de dataset est disponible permettant de parcourir et rechercher les différentes entités en fonction de la catégorisation prévue par la plateforme.
Un des problèmes avec l’analyse vidéo, c’est que le traitement est très gourmand en ressources et que les vidéos demandent un grand espace de stockage. Ceci rend le travail des chercheurs souhaitant travailler avec ce genre de datasets beaucoup plus compliqué. Dans cette optique, les vidéos ont été prétraitées, permettant ainsi de fournir des extractions de caractéristique d’1 image par seconde compressées pour tenir sur un disque dur de moins d’1.5 TB. Cette possibilité permet aux chercheurs et étudiants n’ayant pas accès au Big Data des recherches bien plus poussées avec des datasets bien plus importants que précédemment.