ValidationCC+examen
EnseignantMarie Candito, Benoit Crabbé, Ewan Dunbar
Horaires hebdomadaires 2 h CM
Années M2 Mathématiques et Informatique pour la Science des Données (DM) M2 Mathématiques et Informatique appliquées à la Science des données

Syllabus

  • Familiarisation avec les principales méthodes du traitement automatique des langues (TAL)
  • Appliquer des notions d'apprentissage à la modélisation du langage. Cas de l'apprentissage structuré (séquences et arbres)
  • Présentation / utilisation des principales librairies incluant des modules de TAL prêts à l'emploi (Spacy, NLTK)
  • Présentation / utilisation de librairies génériques d'apprentissage profond pour le TAL (pytorch)

Sommaire

  1. Linguistique 101
  2. Segmentation du texte, notion de mot, lexique, entités nommées
  3. Représentations sémantiques lexicales et sémantique distributionnelle
  4. Etiquetage morphosyntaxique
  5. Modélisation de séquences de mots
  6. Analyse syntaxique automatique de la langue naturelle
  7. Traduction automatique
  8. Quelques application à l'analyse textuelle (résumé, analyse de sentiment, anaphore, cartographie de texte, ...)

Bibliographie

  • Eisenstein, J. (2019). Natural Language Processing. MIT Press.
  • Jurafsky, D., and Martin, J. (2019), Speech and Language Processing. Pearson.
  • Russel, R. and Norvig, P. (2016). Artificial Intelligence: A Modern Approach. Pearson.