Bienvenue sur le site de l'école thématique BDA

L’école thématique « Masses de Données Distribuées » (MDD) est issue de la communauté des chercheurs en bases de données. Elle a pour but de compléter la conférence nationale annuelle « Journées Bases de Données Avancées –BDA », organisée depuis 32 ans, dont la qualité constante est reconnue nationalement et internationalement. Le comité de pilotage BDA a souhaité renforcer la composante pédagogique (tutoriels) dans le cadre d’une manifestation indépendante, volonté qui a donné naissance à l’école MDD dont la première session s’est tenue aux Houches en 2010, à Aussois en 2012, à Oléron en 2014 et enfin Urrugne en 2016.

Le thème de l'école 2016: Processus intégrés d'analyse de données massives respectueux de la vie privée

L'exploitation des méga-données demande plusieurs compétences : savoir gérer de telles informations, et savoir les analyser au moyen de méthodes statistiques. Les deux communautés portant ces compétences sont en général disjointes, et les spécialistes de la gestion de données n'ont pour certains pas de formation concernant l'analyse des données elles-mêmes. De plus, les systèmes de gestion de données classiques sont souvent inadaptés au traitement de données scientifiques, comme indiqué par le récent prix Turing Michael Stonebraker (« Science Data and RDBMSs Are Mismatched » ). Répondre au défi des méga-données scientifiques nécessite donc la mise en commun de ces compétences diverses (« Data scientists need skills not just in data management and large-scale data processing tools and platforms, but also in business intelligence, computer systems, mathematics, statistics, machine learning, and optimization » ). Ainsi, le premier objectif de notre école est de présenter de grandes méthodes d'analyse de données, en prenant en compte la difficulté du stockage et la flexibilité de l'analyse.

Dans ce cadre, les méthodes probabilistes et/ou approximatives ont un intérêt particulier pour résoudre des problèmes de très grande taille. Notre second objectif est de familiariser notre public à l'emploi de méthodes probabilistes approximatives, pour accélérer les calculs ou réduire le temps d'accès aux données.

Un autre grand défi associé à la gestion de méga-données est la pérennité des processus de traitement. S'il est relativement aisé de mettre en place un calcul devant s'exécuter une unique fois sur un grand jeu de données, il est plus délicat de garantir la reproductibilité de ce calcul en faisant varier les paramètres de contrôle, la source des données, tout en raisonnant sur la qualité des résultats (audit). Notre troisième objectif est de fournir aux participants les outils permettant de raisonner sur les processus de traitements de données pérennes, répétables, et auditables, en utilisant des outils comme les workflows scientifiques et la notion de provenance.

Enfin, l'analyse de données massives concerne en particulier les données personnelles, dans un objectif d'e-Santé par exemple. La manipulation de ces données par de grandes infrastructures de calcul dont la localisation et le niveau de sécurité ne sont pas connus pose un problème sociétal évident. Notre dernier objectif sera de présenter les concepts et algorithmes facilitant une exploitation des données massives respectueuse de la vie privée.

Une semaine de rencontres et d'échanges

Un objectif fort de l'école MDD est de favoriser les échanges entre participants et de donner à chacun(e) l'occasion de s'exprimer, de présenter ses travaux quel que soit leur stade d'avancement, et enfin de rencontrer d'autres chercheurs ou futurs chercheurs dans une ambiance conviviale et détendue. Nous organisons en particulier des sessions spéciales pour que les doctorants (et autres éventuellement) donnent, à l'occasion d'un court exposé (15-20mns) un aperçu de leur sujet de thèse et de leur démarche.

Le lieu: centre VVF d'Urrugne (Saint-Jean-de-Luz, Pyrénées-Atlantiques)

L'édition 2016 ura lieu à Urrugne du 5 au 10 juin. Le lieu d'accueil est le VVF d'Urrugne, parfaitement équipé pour accueillir dans les meilleures conditions des journées de travail studieuses dans un très beau cadre. Ce site présente le centre, ses équipements et son environnement.

L'audience

Le public visé par cette école est constitué prioritairement de jeunes chercheurs dans le domaine des bases de données ainsi que dans des domaines connexes ou pluridisciplinaires (gestion de grandes masses de données pour des applications scientifiques par exemple). Par jeunes chercheurs, nous entendons les doctorants et post-doctorants. L’école est ouverte également à des enseignants chercheurs et chercheurs plus confirmés dans l’objectif d’une ouverture thématique, de la création d’un réseau d’échange ou d’une reconversion. L’école s’adresse évidemment au ingénieurs de recherche du secteur privé (R&D, startup, …).