Apache Kafka pour Administrateurs

Compétences pour opérer et optimiser un cluster Apache Kafka

Prix : 1980€ H.T. - par participant

Pour plus d'informations sur cette formation, veuillez contacter :
training@streamthoughts.io

Description

Ce cours de 3 jours apprend aux participants à configurer, à administrer et à optimiser un cluster Apache Kafka pour en garantir la fiabilité et les performances dans un environnement de production.

Objectifs du cours

Ce cours permet aux participants d'acquerir les compétences suivante :

Comprendre les usages de la solution Apache Kafka.
Comprendre les concepts fondamentaux de l'architecture Apache Kafka.
Comprendre le modèle de stockage des données dans Kafka.
Comprendre le fonctionnement des produceurs et consommateurs de données Kafka.
Utiliser des outils pour administrer une plateforme Apache Kafka.
Mettre en place une solution de réplication des données.
Sécuriser un cluster et des applications Kafka.
Configurer et optimiser des Brokers.
Monitorer un cluster.

Pédagogie

50% théorie, 50% pratique

Qui Peut Participer ?

Ce cours est destiné aux participants suivants : Développeurs, aux Architectes, aux Data Ingénieurs, aux Administrateurs Systèmes et aux DevOps.

Durée

3 Jours

Pré-requis

Les participants doivent avoir une bonne connaissance de Linux/Unix, des notions de bases sur les réseaux TCP/IP. Aucune connaissance préalable de Apache Kafka n’est nécessaire

Programme de formation

Module 1 : Introduction

Event Streaming, Les Motivations ?
Qu’est-ce qu’ Apache Kafka ?
Le projet Apache Kafka
Les principaux avantages de Kafka
Quel sont les usages ?
Les solutions alternatives
La plate-forme Confluent

Module 2 : Kafka, Les Fondamentaux

Broker, Message, Topic & Partitions
Principes de bases des Producers
Consumers & Consumer Groups
Réplication et tolérance à la panne
Rétention et compression des données
Comprendre les rôles de zookeeper
Comprendre les performances de Kafka

Module 3 : Réplication, Tolérance à la panne et Fiabilité des données

Comprendre la réplication des données
Comprendre la positionnement des réplicas
Gestion du Rack-Awareness
Broker Controller
Le Processus de recovery d’un Broker
Fiabilité des Producers
Les Producers Idempotents et Gestion des Transactions (Exactly-Once)

Module 4 : La couche de stockage de Kafka

Les partitions et les fichiers segements
Gestion du Page-cache
Les politiques de rétention des données
Les données de Zookeeper

Module 5 : Gestion des consumers

Consumer Groups et Group Coordinators
Gestion des Offsets
Consumers Multi-thread
Comprendre le cycle de vie des Consumers
Comprendre le lag des consumers

Module 6 : Installer et Administrer un cluster Kafka

Installer et exécuter Kafka
Gestion de la configuration du Cluster
Gestion de la configuration des Topics
Mettre à jour un cluster Kafka
Elasticité d’un cluster
Gestion du Capacity Planning
Les considérations materérielles et de déploiement

Module 7 : Déployer Kafka sur plusieurs data-centers

Les motivations pour le déploiement multi-sites
Les stratégies de déploiements
Gestion de la réplication avec MirrorMaker 2
Dpéloyer Zookeeper sur plusieurs data-centers

Module 8 : Optimiser les performances d’un cluster Kafka

Optimisation des Producers et Consumers Kafka
Optimisation du Write Path des Brokers Kafka
Optimisation du Read Path des Brokers Kafka
Gérer l’arrêt et le redémarrage de Kafka
Test d’un cluster Kafka.

Module 9 : Sécurité

Chiffrement réseau et authentification via TLS(SSL)
Chiffrement sur disques
Authentification via SASL
Gestion des autorisations (ACLs)

formateur référent

Florian Hussonnois

Florian travaille depuis plus de 8 ans dans le conseil, il est co-fondateur et CEO de StreamThoughts. Au cours de sa carrière, il a travaillé sur divers projets impliquant la mise en oeuvre de plateformes d’intégration et de traitement de la data à travers les mondes technologiques de Hadoop et de Spark. Passionné par les systèmes distribués, il se spécialise dans les technologies d’event-streaming comme Apache Kafka, Apache Pulsar. Aujourd’hui, il accompagne les entreprises dans leur transition vers les architectures orientées streaming d’événements. Florian est certifié Confluent Administrator & Developer pour Apache Kafka. Il est nommé deux années consécutive (2019 et 2020) “Confluent Community Catalyst” pour ses contributions sur le projet Apache Kafka Streams et son implication dans la communauté open-source. Il fait partie des organisateurs du Paris Apache Kafka Meetup.