Présentation de l'école thématique BDA 2016

L'école thématique CNRS MDD « Masses de données distribuées » est une école thématique récurrente ayant lieu tous les deux ans depuis 2010. Cette école est une émanation de la communauté des bases de données en France, structurée autour de la conférence BDA : Gestion de données - principes et applications , qui a fêté ses 30 ans d'existence cette année. Si notre conférence est le lieu de rencontre de notre communauté, l'école thématique MDD permet d'exposer en détails des thèmes fondamentaux pour la compréhension de l'évolution de notre domaine de recherche, et de préparer les doctorant(e)s à suivre – et provoquer – ses évolutions.

À ce titre, la communauté de la gestion de données constitue un pilier nécessaire au développement continu de la révolution des méga-données (big data). Cette révolution, rendue possible par la croissance et la démocratisation des capacités de stockage et de calcul, n'en est qu'à ses débuts : de plus en plus de données sont rendues disponibles, et leur analyse statistique massive permet progressivement d'en tirer des connaissances et de prendre des décisions utiles pour la société. Cependant, le coût d'analyse, de maintien et de sécurisation de ces données ne cesse d'augmenter, en raison d'un manque d'analystes de données formés à ces techniques, de la difficulté d'organiser entre eux des processus de traitement de données massives, hétérogènes et provenant de plusieurs sources, et du manque de sécurisation généralisé des logiciels supports. L'enjeu de notre école thématique est donc de former les chercheurs de notre communauté, en particulier nos doctorant(e)s, aux défis spécifiques liés aux méga-données, en particulier scientifiques (gestion, interrogation et analyse efficace, pérennisation des processus de traitement, sécurisation).

L’école MDD s’est attachée lors des trois premières sessions à aborder des thèmes liés à ces défis. La première session (2010), a ainsi traité des systèmes distribués de gestion de données et du Web sémantique ; la seconde session (2012) s’est consacrée aux opérateurs de traitement de requêtes à l’échelle du Pétaoctet, aux nouvelles sources d’information (réseaux sociaux), à l’intégration de données issues d’environnement indépendants ; la troisième session (2014) a été dédiée à la visualisation analytique de données, à la qualité des données et au crowdsourcing.

GRANDS AXES DU PROGRAMME « Processus intégrés d'analyse de données massives respectueux de la vie privée »

Cours et ateliers

  1. Analyse effective de données massives - Michel Crucianu

    L'analyse statistique des données massives doit permettre de comprendre des phénomènes complexes et de prendre des décisions justifiées. Ce tutoriel a pour objectif de fournir une vue d'ensemble de la modélisation descriptive et décisionnelle à partir de données. La majeure partie sera consacrée aux différentes familles de problèmes de modélisation et à quelques méthodes couramment employées. Nous examinerons ensuite le passage à l'échelle de ces méthodes et notamment l'exécution sur des plateformes distribuées. L'après-midi, un atelier permettra de réaliser une analyse simple d'un jeu de données en utilisant des installations locales de Apache Spark.

  2. Parallel Pattern Matching – Alexandre Termier

    Pattern mining is a task of data mining focusing on extracting regularities from data. It is extremely computationally intensive, making it a good candidate for exploiting large parallel platforms. However computation structure of pattern mining algorithms is mostly irregular, so parallelizing these algorithms is non-trivial. We will present several successful approaches for parallelizing pattern mining algorithms that allow them to benefit from parallel platforms, either multicore processors or distributed platforms. We will focus on flexible pattern mining algorithms that allow the user to tailor the definition of patterns to their needs.

  3. Business Process Analytics – Daniela Grigori

    Les processus métiers sont inséparables de données : données d'exécution des processus, documentation et description des processus, modèles et versions des processus, artefacts et données générées ou échangées pendant l'exécution du processus. Ces données peuvent être sous diverses formes : structurées, semi-structurées ou non structurées. Une variété d’outils de capture, collecte de données et la mise en œuvre de processus dans différents systèmes ont amplifié la quantité de données qui sont disponibles autour des processus.

    Pour améliorer la qualité des services offerts et être compétitives, un problème central pour les entreprises est l'identification, la mesure, l'analyse et l'amélioration de leurs processus. Ce tutoriel est une introduction aux concepts, méthodes et techniques permettant l’analyse des données de processus.

  4. Initiatives open data et défis technologiques – Nicolas Terpolilli

    Dans un monde où la création de valeur est de plus en plus distribuée et où l'intermédiation est la principale menace pour la plupart des organisations établies, l'Open Data s'impose comme une démarche efficace techniquement et économiquement.

    L'objet de ce cours sera donc de faire une mise en perspective assez générale de l'économie de la données et ses mutations depuis l'avènement du numérique. De présenter comment l'Open Data s'inscrit dans cette dynamique. Puis d'expliquer très concrètement quel est le modèle d'affaire d'OpenDataSoft afin d'avoir un exemple très concret. Enfin se sera l'occasion d'évoquer les problématiques techniques ou les questions plus juridiques de licences.

  5. Fast data analytics for time series and other ordered data - Denis Shasha

    The relational model is based on a single data type and a few operations: unordered tables which can be selected, projected, joined, and aggregated. This model is in fact unnecessary for simplicity and needlessly limits the expressive power, making it difficult to express query on ordered data such as time series data and other sequence data.

    This talk presents a language for expressing ordered queries, optimization techniques and performance results. The talk goes on to present experiments comparing the system against other popular data analytic sys tems including Sybase IQ, Python's popular Pandas library and MonetDB using a variety of benchmarks including the ones that those systems use themselves. On the same hardware, our system is faster.

  6. Scientific Workflows - Christophe Pradal

    Analysing scientific data may involve very complex and interlinked steps where several tools are combined together. Scientific workflows systems have reached a level of maturity that makes them able to support the design and execution of such in-silico experiments. They provide a systematic way of describing the scientific and data methods, and execute complex analysis on a variety of distributed resources.

    In this lecture, we will review main features of scientific workflows (representation, composition, model of computation, execution, mapping), present different workflows systems, and illustrate how algebraic scientific workflow and provenance can enhance reproductibility in the analysis and simulation of complex systems in biology.

  7. Approximation and randomized algorithms - Pierre Senellart

    Numerous data management tasks are intractable: it is NP-hard, or worse, to determine the exact answer to those tasks. This needs not be the end of the story: in many cases, it is actually possible to obtain an approximation of the answer, with certain guarantees. Deterministic approximation algorithms provide a way to efficiently approximate, within a certain factor, the answer to some intractable problems. Randomized approximation algorithms provide a probabilistic approximation guarantee. In this lecture, we will review some basic approximation algorithms, see cases where hardness of approximation itself can be shown, and illustrate how randomized approximation algorithms (from naive Monte Carlo sampling to more elaborate polynomial-time approximation schemes) can be used in data management applications.

  8. Decentralized Personal Data Management, using secure devices - Nicolas Anciaux & Luc Bouganim

    This tutorial will discuss existing cloud based architectures for personal data management and will propose some alternatives, based on decentralization and secure devices.

  9. Privacy-Preserving Data Publishing : Where Are We Now? - Tristan Allard

    The massive personal datasets collected by today's companies or institutions are valuable resources, both for the entities that hold them and for society at large. Privacy-preserving data publishing aims at opening personal datasets to large-scale analysis without jeopardizing the individuals privacy. The problem is hard, ranging from the definition of an adequate privacy criteria to the design of efficient and useful privacy algorithms. Ten years after the publications of the two seminal l-Diversity and Differential Privacy works, this lecture is a guided tour of the main privacy-preserving data publishing models and algorithms. We will synthesize the partition-based and differential privacy families of models and algorithms, analyze their strengths and weaknesses, and try to extract strong tendencies from the past decade.

Interactions

  1. Session rapide de présentation (gong session)
  2. Présentation des activités des participants (par exemple, présentation de sujets de thèses sous forme de posters)
  3. Problem solving sessions : rencontre avec des chercheurs confirmés autour d'un problème posé par les participants
  4. Présentation du GdR MaDICS