Public visé
Développeurs, architectes et administrateurs de données souhaitant maîtriser la base de données NoSQL Apache HBase dans un contexte Big Data.
Prérequis
- Connaissances de base en administration Linux
- Notions de Hadoop et de son écosystème
- Familiarité avec les concepts de bases de données
Objectifs pédagogiques
À l’issue de cette formation, les participants seront capables de :
- Comprendre l’architecture et les concepts de HBase
- Installer et configurer un cluster HBase
- Modéliser des données pour HBase
- Effectuer des opérations CRUD avec l’API Java et le shell HBase
- Administrer et optimiser un cluster HBase
Programme
Jour 1
Introduction à HBase
- Positionnement dans l’écosystème Hadoop
- Architecture de HBase : RegionServer, Master, ZooKeeper
- Modèle de données : tables, familles de colonnes, cellules
- Comparaison avec les bases de données relationnelles
Installation et configuration
- Modes de déploiement : standalone, pseudo-distribué, distribué
- Configuration de HBase
- Intégration avec HDFS et ZooKeeper
Modélisation des données
- Conception de schémas pour HBase
- Stratégies de clés de lignes (row keys)
- Bonnes pratiques de modélisation
Jour 2
Opérations sur les données
- Utilisation du shell HBase
- API Java pour HBase
- Opérations : Put, Get, Scan, Delete
Administration et monitoring
- Outils d’administration
- Compaction et split de régions
- Sauvegarde et restauration
Optimisation et performance
- Tuning de la JVM et de HBase
- Stratégies de cache
- Bonnes pratiques de production