HBase

Public visé

Développeurs, architectes et administrateurs de données souhaitant maîtriser la base de données NoSQL Apache HBase dans un contexte Big Data.

Prérequis

Connaissances de base en administration Linux
Notions de Hadoop et de son écosystème
Familiarité avec les concepts de bases de données

Objectifs pédagogiques

À l’issue de cette formation, les participants seront capables de :

Comprendre l’architecture et les concepts de HBase
Installer et configurer un cluster HBase
Modéliser des données pour HBase
Effectuer des opérations CRUD avec l’API Java et le shell HBase
Administrer et optimiser un cluster HBase

Programme

Jour 1

Introduction à HBase

Positionnement dans l’écosystème Hadoop
Architecture de HBase : RegionServer, Master, ZooKeeper
Modèle de données : tables, familles de colonnes, cellules
Comparaison avec les bases de données relationnelles

Installation et configuration

Modes de déploiement : standalone, pseudo-distribué, distribué
Configuration de HBase
Intégration avec HDFS et ZooKeeper

Modélisation des données

Conception de schémas pour HBase
Stratégies de clés de lignes (row keys)
Bonnes pratiques de modélisation

Jour 2

Opérations sur les données

Utilisation du shell HBase
API Java pour HBase
Opérations : Put, Get, Scan, Delete

Administration et monitoring

Outils d’administration
Compaction et split de régions
Sauvegarde et restauration

Optimisation et performance

Tuning de la JVM et de HBase
Stratégies de cache
Bonnes pratiques de production