Programme de l'école
Dimanche 8 juin : accueil des participants
Lundi 9 juin: Sémantique des données complexes
-
Tutoriel (9h-12h30)
-
Web sémantique et Open-linked data
- François Goasdoué, Univ. Rennes 1 / ENSSAT / IRISA
(
détails
)
Le Resource Description Framework (RDF), standard du W3C pour le Web Sémantique, suscite un intérêt croissant de la part de la communauté Bases de données. Ce modèle de données est en effet particulièrement adapté à la représentation de Big Data (données très hétérogènes, incomplètes, etc)
et a déjà une application phare dans ce domaine : les données liées (http://linkeddata.org).
Dans ce tutoriel, nous mettrons en lumière les spécificités du modèle de données RDF en le rapprochant de modèles (formels) classiques en bases de données. Par exemple, nous verrons que RDF a des similitudes avec les bases de données déductives car la sémantique de données RDF est obtenue par application de règles de déduction jusqu’à l’obtention d’un point fixe. Nous verrons aussi des similitudes avec les bases de données incomplètes car des données RDF peuvent être encodées dans les V-tables d’Imielinski et al. Nous aborderons ensuite les challenges découlant de ces spécificités afin de mettre en œuvre des techniques efficaces de gestion de données ; nous présenterons quelques solutions issues de la littérature. Nous terminerons ce tutoriel par une ouverture sur l’autre standard du W3C pour le Web Sémantique, OWL.
- Exposé (14h-15h)
-
Visualisation analytique
- Jean-Daniel Fekete (INRIA/LRI)
(détails)
A venir.
- Atelier (15h30 - 17h30)
-
Présentations sélectionnées lors des inscriptions.
Animateurs
A venir.
Mardi 10 juin: benchmarks et expérimentations
- Tutoriel 1 (9h-10h30)
-
Bancs d'essais et expérimentations répétables
- Ioana Manolescu (DR, INRIA Paris-Saclay)
(détails)
A venir.
- Tutoriel 2 (11h-12h30)
-
Gestion de données en mémoire Flash
- Luc Bouganim (DR, INRIA Paris-Rocquencourt)
(détails)
Les mémoires électroniques de type Flash ont des caractéristiques très
intéressantes (rapidité, faible consommation, résistance aux chocs) et
révolutionnent les systèmes de stockages de données traditionnellement
basés sur des disques magnétiques, et donc bien sûr, les systèmes de
gestion de données.
Ce tutoriel a un double objectif. D'une part, il cherche à clarifier les
techniques et contraintes des mémoires flash, des SSD ainsi que les
challenges associés pour la gestion de données. D'autres part, le contexte
de la mémoire flash servira de cadre pour illustrer les difficultés liées au
benchmarking et à l'expérimentation et décrire les solutions qui ont été
adoptées.
- Ouverture (14h-15h)
-
Aperçu du programme MASTODONS
--
Bernd Amann (PR, Paris 6), Sofian Maabout (MC, Bordeaux 4)
(détails)
Cet exposé présente différentes actions dans le cadre du programme CNRS MASTODONS. Il étudie des problèmes de gestion, d'interrogation, d'exploration, d'analyse et de visualisation de données à large échelle (big data) dans le cadre de données astrophysiques (DEEPHY, GAIA, AMADEUS, PETASKY) et de données socio-sémantiques (ARESOS). Il donnera une vision synthétique et une comparaison des enjeux et de quelques résultats de recherche récents dans ce type d'applications qui doivent manipuler des grands volumes d'information numériques et symboliques structurées selon différentes dimensions (temporelles, spatiales, sociales).
- Atelier (15h30-17h30)
-
Présentations sélectionnées lors des inscriptions, en lien avec la
thématique du jour.
Mercredi 11 juin: Ateliers et activités de groupe
- Atelier (9h-12h30)
-
Présentations sélectionnées lors des inscriptions, , en lien avec
la
thématique du jour.
- Sortie (après-midi).
- L’après-midi sera consacrée à une sortie en groupe, à
déterminer ultérieurement.
- Banquet (soir).
Réunissant participants, organisateurs et intervenants.
Jeudi 12 juin : : Acquisition participative et qualité des données
- Tutoriel 1 (9h-10h30)
-
Crowdsourcing
-- François Charoy (LORIA)
(détails)
Le crowdsourcing exprime le recours à un grand nombre d'utilisateurs pour résoudre une tâche, comme reconnaître du texte dans une image (ReCaptcha), traduire un texte (Transifex), obtenir des informations géolocalisées (OpenStreetMap) ou résoudre un problème complexe (FoldIt). Les utilisateurs recrutés sont en général accessibles via le réseau. Dans cette session, nous présenterons les défis à relever pour la constitution de plate-formes de crowdsourcing. On peut citer par exemple le manque de généralité des plate-formes existantes (Amazon Mechanical Turk), la difficulté de confier des tâches à des utilisateurs volatils, l'absence de modèle de coût permettant d'optimiser le placement des tâches. Plusieurs solutions issues de la communauté des bases de données seront présentées (CrowdDB, Deco, approches Datalog, ...).
Le crowdsourcing pose en particulier le problème de la qualité des données obtenues. La qualité est d'ailleurs une préoccupation pour de nombreuses applications, comme la mutualisation de données ouvertes (OpenData), l'interrogation de données en pair-à-pair, l'archivage du Web ou l'évaluation de processus métiers
- Tutoriel 2 (11h-12h30)
-
Analytics and Probabilistic Approaches for Data Quality
-- Laure Berti-Equille (Qatar Computing Research Institute)
(détails)
Ascertaining the veracity and accuracy of information available on-line is extremely challenging. This tutorial explores the progress that has been made for discovering truth, checking facts, and detecting anomalies with the emphasis on Bayesian approaches, statistics, and exploratory data analysis. It presents algorithms and techniques to evaluate the correctness and truthfulness of data, two important dimensions of data quality and describes interesting approaches for quantitative cleaning based on statistical machine learning. Finally, it identifies a range of open, exciting problems for both data mining and data management communities.
- Tutoriel 3 (14h00 - 15h30)
-
Data Quality Problems beyond Consistency and Deduplication.
-- Floris Geerts (ADReM)
(détails)
Recent work on data quality has primarily focused on data repairing algorithms for improving data consistency and record matching methods for data deduplication. In this tutorial, several other challenging issues that are essential to developing data cleaning systems, namely, error correction with performance guarantees, unification of data repairing and record matching, relative information completeness, and data currency, will be accentuated. Apart from an overview of recent advances in the study of these issues, a recently developed unifying logical framework and corresponding system will be discussed.
- Atelier (16h-18h)
-
Présentations sélectionnées lors des inscriptions
Vendredi 13 juin: départ
Le départ doit avoir lieu au plus tard vendredi après le déjeuner.