Public visé
Chefs de projet, administrateurs et toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop. Les travaux pratiques sont réalisés sur une distribution Hadoop Hortonworks.
Objectifs pédagogiques
- Connaître les principes du framework Hadoop et savoir l’installer, le configurer et l’administrer avec Ambari (tableaux de bord, supervision, gestion des services, etc.)
Programme
Introduction
- Les fonctionnalités du framework Hadoop
- Les différentes versions
- Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DES
- Architecture et principe de fonctionnement
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager
- Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, Hbase
Les outils Hadoop
- Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
- Gestion des données et exemple Sqoop
- Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch
- Outils complémentaires : Spark, Storm, Kafka, Flink
Installation et configuration
- Trois modes : local, pseudo-distribué, distribué
- Configuration de l’environnement et fichiers XML
- Création des utilisateurs et gestion des droits
- Travaux pratiques : Organisation et configuration d’une grappe hadoop
Administration Hadoop
- Outils de surveillance : jConsole, jconsole yarn
- Administration HDFS : fsck, dfsadmin
- Gestion de caches avec Cacheadmin
- Travaux pratiques : mise en oeuvre client JMX
Haute disponibilité
- Mise en place sur distribution Ambari
- Travaux pratiques : Passage en mode HA
Sécurité
- Activation avec Kerberos
- Sécurisation YARN
- Travaux pratiques : Mise en place Kerberos
Exploitation
- Installation avec Ambari
- Monitoring graphique avec Ambari, Ganglia, Kibana
- Configuration des logs avec log4j
- Travaux pratiques : Visualisation des alertes
Modalités d’évaluation des acquis
En cours de formation, par des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.