Public visé
Opérationnels, Développeurs, Chefs de projets.
Prérequis
- Connaissances en développement et en administration du système d’exploitation Windows ou Linux
Objectifs pédagogiques
À l’issue de cette formation, vous serez capable de :
- Maîtriser l’utilisation de Solr pour indexer et rechercher des données et des documents
Programme
Jour 1 - Découvrir Apache Solr et indexer les données
- Introduction à la recherche d’information
- Indexation des données : concepts et formes
- Modèle booléen de recherche d’information
- Recherche ordonnée et modèle vectoriel
- Présentation de la librairie Apache Lucene
- Découverte du moteur de recherche Apache Solr
- Comparaison avec autres moteurs (ElasticSearch)
- Installation et configuration de Solr
- Solr Core et schéma des documents
- Analyse des textes et modes de communication
- Data Import Handler (DIH)
- Solr Cell pour indexation de fichiers
- Indexation de documents riches (PDF, Word, Excel, etc.) avec Tika
- Indexation de sites avec Nutch
- Atelier : Architecture, installation et indexation de données/fichiers
Jour 2 - Maîtriser l’utilisation du moteur de recherche Solr
- Paramètres de recherche et syntaxe des requêtes
- Parseur de requêtes Dismax et eDismax
- Gestion de la géolocalisation : points, précision, formes
- Influencer la pertinence des résultats
- Recherche par facettes
- Highlight et MoreLikeThis
- Collapsing et Boost
- Fonctions de requêtes
- Recherche géographique
- Gestion des caches
- Atelier : Écriture et analyse de requêtes
Jour 3 - Architectures avancées (scalabilité et clustering)
- Solr en environnement haute disponibilité (HA)
- Mise en place d’un cluster Solr : Replication, Cloud
- Évaluation des performances (SolrMeter)
- Gestion des ressources matérielles et réseau
- Tuning et monitoring
- Sauvegarde et restauration
- Atelier : Implémentation d’architecture HA avec Solr