Web scraping avec Python

Public visé

Développeurs, Data Scientists, Data Analysts, Data Engineers, chefs de projets.

Prérequis

Expérience professionnelle en développement. Connaissances Python souhaitées.

Objectifs pédagogiques

À l’issue de cette formation, vous serez capable de :

Décrire le fonctionnement des Web scrapers
Développer un Web scraper avec fonctionnalités avancées
Activer des architectures multi-thread pour le scraping

Programme

Jour 1

Bases du Web scraping et premiers outils

Bases du Web scraping (modèle Internet, HTML/CSS/JS, aspects légaux)
BeautifulSoup (navigation, regex, sélecteurs CSS)
Scrapy (scrapers, règles, items, pipelines)

Jour 2

Traitement de données et scraping avancé

Traitement de texte (CSV, PDF, Word, Pandas, NLTK)
Formulaires et logins (Requests, cookies, authentification)
Scraping JavaScript (Ajax, Selenium WebDriver)

Jour 3

API, CAPTCHAs et parallélisation

Scraping d’API (JSON, API non documentées)
CAPTCHAs (Pillow, Tesseract, NumPy)
Parallélisation (multi-thread, multi-process)