Présentation de l'école thématique BDA 2018

L'école thématique CNRS MDD « Masses de données distribuées » est une école thématique récurrente ayant lieu tous les deux ans depuis 2010. Cette école est une émanation de la communauté des bases de données en France, structurée autour de la conférence BDA : Gestion de données - principes et applications, qui a fêté ses 30 ans d'existence en 2016. Si notre conférence est le lieu de rencontre de notre communauté, l'école thématique MDD permet d'exposer en détails des thèmes fondamentaux pour la compréhension de l'évolution de notre domaine de recherche, et de préparer les doctorant(e)s à suivre – et provoquer – ses évolutions.

À ce titre, la communauté de la gestion de données constitue un pilier nécessaire au développement continu de la révolution des méga-données (big data). Cette révolution, rendue possible par la croissance et la démocratisation des capacités de stockage et de calcul, n'en est qu'à ses débuts : de plus en plus de données sont rendues disponibles, et leur analyse statistique massive permet progressivement d'en tirer des connaissances et de prendre des décisions utiles pour la société. Cependant, le coût d'analyse, de maintien et de sécurisation de ces données ne cesse d'augmenter, en raison d'un manque d'analystes de données formés à ces techniques, de la difficulté d'organiser entre eux des processus de traitement de données massives, hétérogènes et provenant de plusieurs sources, et du manque de sécurisation généralisé des logiciels supports. L'enjeu de notre école thématique est donc de former les chercheurs de notre communauté, en particulier nos doctorant(e)s, aux défis spécifiques liés aux méga-données, en particulier scientifiques (gestion, interrogation et analyse efficace, pérennisation des processus de traitement, sécurisation).

L’école MDD s’est attachée lors des quatre premières sessions à aborder des thèmes liés à ces défis. La première session (2010), a ainsi traité des systèmes distribués de gestion de données et du Web sémantique ; la seconde session (2012) s’est consacrée aux opérateurs de traitement de requêtes à l’échelle du Pétaoctet, aux nouvelles sources d’information (réseaux sociaux), à l’intégration de données issues d’environnement indépendants ; la troisième session (2014) a été dédiée à la visualisation analytique de données, à la qualité des données et au crowdsourcing. La dernière session (2016) a porté sur les processus intégrés d'analyse de données massives respectueux de la vie privée.

Thème abordé cette année

L'exploitation de données massives (big data) est maintenant à l'agenda de nombreuses entreprises et collectivités. C'est également un enjeu bien identifié dans plusieurs communautés scientifiques (Informatique bien sûr, mais aussi Sciences de la matière, Sciences humaines et sociales, etc., comme le montre l'activité MASTODONS du CNRS). De nombreuses techniques d'analyse et d'exploration de données existent, mais se heurtent actuellement à plusieurs difficultés. D'une part des algorithmes d'analyse initialement conçus pour opérer en mémoire vive ne s'appliquent plus sur des données massives réparties sur plusieurs machines, proches ou distantes. D'autre part une algorithmique exacte n'est plus toujours envisageable, et le recours à des algorithmes avec erreur contrôlée, utilisant des techniques probabilistes peut s'avérer nécessaire. Par ailleurs, pour être crédibles, les algorithmes d'analyse doivent s'intégrer à des processus de traitement des données (acquisition, correction, rendu visuel, exploration). Ces processus doivent être reproductibles, traçables, et auditables. Enfin, l'exploitation de données massives personnelles exposent les utilisateurs / consommateurs à des risques sur leur vie privée.

Notre école thématique souhaite éclairer ces différents enjeux au moyen des méthodes issues de la gestion de données. Le thème général, « Scalable Data Analytics » sera décliné en 4 thèmes :

  1. How to conduct experiments,
  2. Data analytics,
  3. Systems, storage and indexing,
  4. Large scale data analytics algorithms.

Scalable Data Analytics

Cours et ateliers

  1. Data acquisition and cleansing
    • Data quality: measures, assessment
    • Data cleansing: duplicate detection, missing data handling
    • Query explanation, data provenance
  2. Conducting experiments
    • Experimental setup: benchmarks, data preparation, infrastructure
    • Performance measures: correctness, scalability, speedup, parallelism
  3. Data: streams and networks
    • IoT data analytics: streaming data, event/pattern detection, indexing
    • Social networks: graph mining, graph matching
  4. Systems
    • Data stacks, data lakes
    • MapReduce: Spark, Hadoop, Flink
    • Message-passing / Valiant's Bulk Synchronous Parallel model
  5. Application example
    • Web archiving: acquisition, storage and indexing
  6. Programming and Algorithms
    • Cloud/grid computing
    • Data parallelism, map-reduce
    • Parallel / distributed data analytics

Interactions

  1. Session rapide de présentation (gong session)
  2. Présentation des activités des participants (par exemple, présentation de sujets de thèses sous forme de posters)
  3. Problem solving sessions : rencontre avec des chercheurs confirmés autour d'un problème posé par les participants
  4. Présentation du GdR MaDICS