Public visé
Chefs de projet, administrateurs et toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop. Les travaux pratiques sont réalisés sur une distribution Hadoop Hortonworks.
Prérequis
Connaissance des commandes des systèmes unix/linux et des bases TCP/IP.
Objectifs
- Connaître les principes du framework Hadoop et savoir l’installer, le configurer et l’administrer avec Ambari (tableaux de bord, supervision, gestion des services, etc.)
Programme
Introduction
- Les fonctionnalités du framework Hadoop
- Les différentes versions
- Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DES
- Architecture et principe de fonctionnement
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager
- Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, Hbase
Les outils Hadoop
- Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
- Gestion des données et exemple Sqoop
- Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch
- Outils complémentaires : Spark, Storm, Kafka, Flink
Installation et configuration
- Trois modes : local, pseudo-distribué, distribué
- Configuration de l’environnement et fichiers XML
- Création des utilisateurs et gestion des droits
- Travaux pratiques : Organisation et configuration d’une grappe hadoop
Administration Hadoop
- Outils de surveillance : jConsole, jconsole yarn
- Administration HDFS : fsck, dfsadmin
- Gestion de caches avec Cacheadmin
- Travaux pratiques : mise en oeuvre client JMX
Haute disponibilité
- Mise en place sur distribution Ambari
- Travaux pratiques : Passage en mode HA
Sécurité
- Activation avec Kerberos
- Sécurisation YARN
- Travaux pratiques : Mise en place Kerberos
Exploitation
- Installation avec Ambari
- Monitoring graphique avec Ambari, Ganglia, Kibana
- Configuration des logs avec log4j
- Travaux pratiques : Visualisation des alertes