Archive 2020
ValidationCC+examen
EnseignantStéphane Gaïffas
Horaires hebdomadaires 2 h CTD
Années M1 Mathématiques et Informatique

Syllabus

  • Connaitre les technologies modernes pour le traitement de données massives.
  • Maitriser l’utilisation de librairies pour le traitement de données distribuées.
  • Etre capable d’utiliser ces outils dans des cas concrets, en utilisant une solution cloud.

Sommaire

  1. Introduction to Database Management
  2. Focus on basic and advanced SQL
  3. Introduction to Big Data
  4. The ubiquitous Hadoop and Map Reduce
  5. Main-memory processing of massive data: Spark
  6. Large scale data warehouse: Hive (large scale SQL)
  7. Hands-on problems (text processing, web-log analysis)

Bibliographie

  • Chambers, B., and Matei Z. (2018). Spark: the definitive guide: big data processing made simple. O'Reilly Media, Inc.
  • Karau, H., & Warren, R. (2017). High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark. O'Reilly Media, Inc.
  • Kleppmann, M. (2017). Designing data-intensive applications: The big ideas behind reliable, scalable, and maintainable systems. O'Reilly Media, Inc.
  • Ramakrishnan, R., & Gehrke, J. (2000). Database management systems. McGraw Hill.