Page 70 - Catalogue Formations 2024
P. 70
EN
RÉALISABLE
AVANCÉ ATELIER
TRAITEMENT AUTOMATIQUE EN ANGLAIS
DU LANGAGE NATUREL DATES & LIEUX
NLP ET TEXT MINING Du 24/04/2024 au 26/04/2024 à Paris
Du 09/10/2024 au 11/10/2024 à Paris
FC9BD10 PRIX : 2 470 € DURÉE : 3 JOURS PUBLIC/PRÉREQUIS
Pauses et déjeuners offerts Ingénieurs, chefs de projet devant
traiter des données textuelles.
Des connaissances en langage
INTELLIGENCE ARTIFICIELLE ET SCIENCES DES DONNÉES Les données linguistiques possèdent une structure profonde mais Fabian SUCHANEK
Python sont nécessaires afin de tirer
PRÉSENTATION
pleinement profit de cette formation.
RESPONSABLE(S)
implicite, qui se base sur la connaissance d’une (ou plusieurs)
langue(s) donnée(s). Elles sont ubiquitaires (sur le Web, dans des
documents, dans les emails, etc.), mais ne se prêtent pas à des
Enseignant-chercheur à Télécom Paris.
analyses automatiques. Le traitement automatique de langue et la
Il a fait ses recherches à l’Institut Max
fouille de texte (Text Mining) ont pour but de permettre l’extraction
Planck en Allemagne, chez Microsoft
d’informations et de connaissances de ces données. Elles sont
donc d’importance capitale pour les entreprises qui manipulent
Microsoft Research Silicon Valley/USA,
et à l’INRIA Saclay. Il est l’auteur principal
des données textuelles (Web, échanges avec les clients, rapports,
de YAGO, une des plus grandes bases
documentation, etc.). Research Cambridge/ UK, chez
de connaissances publiques dans le
monde.
OBJECTIFS
Matthieu LABEAU
Enseignant-chercheur à Télécom Paris.
- Présenter les outils de traitement de langue, qu’ils soient basés sur des
Son activité de recherche en traitement
méthodes statistiques ou sur de méthodes symboliques
automatique du langage, concerne
- Décrire le fonctionnement et identifier les atouts et les faiblesses des principalement l’apprentissage de
grands modèles de langage LLM comme GPT-4 représentations et la modélisation du
- Évaluer les techniques et les adapter à chaque type de problème langage.
- Comparer et combiner les approches : exploration d’outils statistiques
(approches fréquentistes, similarité sémantique, plongements) et MODALITÉS
formels (langages formels, logiques de premier ordre et de description,
PÉDAGOGIQUES
lambda-calcul, ontologies)
La formation comprend des travaux
pratiques qui permettent d’appliquer les
PROGRAMME notions théoriques abordées.
Introduction à la linguistique - Utilisation de SentiWordNet pour la
classification des critiques
Approches neuronales - Utilisation de réseaux de neurones sur le
même corpus de textes, comparaison des
Approches statistiques résultats ; possibilité d’approche hybride
- Désambiguïsation de mot (plongement d’arbres syntaxiques)
- Classification supervisée de textes - Travaux pratiques
- Similarité et parenté sémantiques
- Pré-traitement du texte Approches symboliques
- Modèles fréquentistes : Représentation - Langages formels Graphes conceptuels/
Bag-of-words, modèles de langue ontologies/bases de connaissances
n-gram, et dérivés. - Extraction d’informations
- Deep learning et modèles de langue - Désambiguïsation
neuronaux - Détection d’entités
- Plongements et applications - Travaux pratiques
- Modèles séquentiels et mécanisme
d’attention Synthèse et conclusion
- Transformers
- Représentations contextuelles
FORMATIONS INTER-ENTREPRISES DU PROGRAMME EN LIGNE
- Apprentissage par transfert et Large
Language Models
ACCÉDER À L’ENSEMBLE
70 contact.exed@telecom-paris.fr | executive-education.telecom-paris.fr | Appelez le 01 75 31 95 90