Apprentissage

Public visé

Toute personne souhaitant acquérir des compétences dans le développement d’applications de Machine Learning et d’IA.

Prérequis

Connaissances en mathématiques algébriques pour interpréter les algorithmes
Langage Python (des rappels sont fournis pendant la formation)

Objectifs pédagogiques

À l’issue de cette formation, les apprenants seront capables de :

Développer des applications de Machine Learning et d’IA avec Spark et Python
Utiliser la programmation parallèle sur un cluster
Développer et optimiser des algorithmes standards de Machine Learning et d’IA
Utiliser les bibliothèques Python pour le Machine Learning et l’IA
Décrire le cycle de vie d’un projet Data Science

Programme

Jour 1

Vue d’ensemble du Big Data, du Machine Learning et de l’IA

Introduction au Big Data et à l’IA
Perspectives offertes par le Big Data et l’IA
Les acteurs du secteur
Technologies concernées et métiers associés
Aspects économiques (OPEX, CAPEX, TRI) du Cloud vs On-Premise

Rappels sur la Data Science

Bases du langage Python
Modélisation par vecteurs et matrices
Probabilités et statistiques (descriptives/explicatives)
Entropie et gain d’information
Compromis biais-complexité et malédiction de la dimension
Matrice de confusion
Gestion des valeurs manquantes (MCAR/MAR/MNAR)
Validation croisée et courbes d’apprentissage
Nettoyage des données et réduction dimensionnelle
Métriques : R², Accuracy, Précision, Rappel, F1-score, AUC, P-valeur

Travaux pratiques

Chargement, exploration, analyse, nettoyage et premières modélisations sur jeu de données

Jour 2

Machine Learning et IA : Algorithmes

Concepts du Machine Learning et de l’IA
Données supervisées vs non supervisées
Bibliothèques : Scikit-learn, Tensorflow, PyTorch, Keras
Régression et modèles linéaires
Classification
Naive Bayes, K-NN, K-Means clustering

Travaux pratiques

Mise en oeuvre des algorithmes selon finalité (régression, classification, imputation) avec Scikit-learn et Keras

Jour 3

Machine Learning et IA : Algorithmes (suite)

DBScan
Arbres de décision et de régression
Support Vector Machines (SVM)
Réseaux de neurones et apprentissage profond (Deep Learning)
Réseaux convolutifs et récurrents

Travaux pratiques

Modélisations avancées (DL, CNN, RNN) avec optimisation d’architectures et hyper-paramètres

Jour 4

Développer avec Spark

Introduction à Apache Spark
Machine Learning avec Apache Spark MLlib
Traitement temps réel avec Apache Spark Streaming
Requêtes SQL avec Apache Spark SQL
Modélisation de réseaux sociaux avec Apache Spark GraphFrames
Travail collaboratif avec MLFlow

Travaux pratiques

Exercices avec Spark MLlib/Streaming/SQL/GraphFrames et implémentation de MLFlow pour comparaison de modèles

Jour 5

Outil de visualisation des données (Dataviz)

Définition et acteurs de la Dataviz
Principes de la Dataviz
Bibliothèques Python (Matplotlib, Seaborn)
Tableau Desktop/Public et Microsoft Power BI

Introduction à MLOps et architectures serverless

Approches DevOps et GitOps
Conteneurisation et automatisation
Architectures serverless
Développement et déploiement d’applications MLOps
Monitoring et amélioration continue

Travaux pratiques

Prise en main de Tableau ou Power BI, utilisation de bibliothèques Python, création et exécution d’un pipeline MLOps avec serving et monitoring