StreamThoughts
REMOTE

Apache Kafka pour Administrateurs

Compétences pour opérer et optimiser un cluster Apache Kafka

Prix : 1980€ H.T. - par participant

Pour plus d'informations sur cette formation, veuillez contacter :
training@streamthoughts.io

Description

Ce cours de 3 jours apprend aux participants à configurer, à administrer et à optimiser un cluster Apache Kafka pour en garantir la fiabilité et les performances dans un environnement de production.

Objectifs du cours

Ce cours permet aux participants d'acquerir les compétences suivante :

  • Comprendre les usages de la solution Apache Kafka.
  • Comprendre les concepts fondamentaux de l'architecture Apache Kafka.
  • Comprendre le modèle de stockage des données dans Kafka.
  • Comprendre le fonctionnement des produceurs et consommateurs de données Kafka.
  • Utiliser des outils pour administrer une plateforme Apache Kafka.
  • Mettre en place une solution de réplication des données.
  • Sécuriser un cluster et des applications Kafka.
  • Configurer et optimiser des Brokers.
  • Monitorer un cluster.

Pédagogie

50% théorie, 50% pratique

Qui Peut Participer ?

Ce cours est destiné aux participants suivants : Développeurs, aux Architectes, aux Data Ingénieurs, aux Administrateurs Systèmes et aux DevOps.

Durée

3 Jours

Pré-requis

Les participants doivent avoir une bonne connaissance de Linux/Unix, des notions de bases sur les réseaux TCP/IP. Aucune connaissance préalable de Apache Kafka n’est nécessaire

Programme de formation

Module 1 : Introduction

  • Event Streaming, Les Motivations ?
  • Qu’est-ce qu’ Apache Kafka ?
  • Le projet Apache Kafka
  • Les principaux avantages de Kafka
  • Quel sont les usages ?
  • Les solutions alternatives
  • La plate-forme Confluent

Module 2 : Kafka, Les Fondamentaux

  • Broker, Message, Topic & Partitions
  • Principes de bases des Producers
  • Consumers & Consumer Groups
  • Réplication et tolérance à la panne
  • Rétention et compression des données
  • Comprendre les rôles de zookeeper
  • Comprendre les performances de Kafka

Module 3 : Réplication, Tolérance à la panne et Fiabilité des données

  • Comprendre la réplication des données
  • Comprendre la positionnement des réplicas
  • Gestion du Rack-Awareness
  • Broker Controller
  • Le Processus de recovery d’un Broker
  • Fiabilité des Producers
  • Les Producers Idempotents et Gestion des Transactions (Exactly-Once)

Module 4 : La couche de stockage de Kafka

  • Les partitions et les fichiers segements
  • Gestion du Page-cache
  • Les politiques de rétention des données
  • Les données de Zookeeper

Module 5 : Gestion des consumers

  • Consumer Groups et Group Coordinators
  • Gestion des Offsets
  • Consumers Multi-thread
  • Comprendre le cycle de vie des Consumers
  • Comprendre le lag des consumers

Module 6 : Installer et Administrer un cluster Kafka

  • Installer et exécuter Kafka
  • Gestion de la configuration du Cluster
  • Gestion de la configuration des Topics
  • Mettre à jour un cluster Kafka
  • Elasticité d’un cluster
  • Gestion du Capacity Planning
  • Les considérations materérielles et de déploiement

Module 7 : Déployer Kafka sur plusieurs data-centers

  • Les motivations pour le déploiement multi-sites
  • Les stratégies de déploiements
  • Gestion de la réplication avec MirrorMaker 2
  • Dpéloyer Zookeeper sur plusieurs data-centers

Module 8 : Optimiser les performances d’un cluster Kafka

  • Optimisation des Producers et Consumers Kafka
  • Optimisation du Write Path des Brokers Kafka
  • Optimisation du Read Path des Brokers Kafka
  • Gérer l’arrêt et le redémarrage de Kafka
  • Test d’un cluster Kafka.

Module 9 : Sécurité

  • Chiffrement réseau et authentification via TLS(SSL)
  • Chiffrement sur disques
  • Authentification via SASL
  • Gestion des autorisations (ACLs)
The Author's Avatar
formateur référent

Florian travaille depuis plus de 8 ans dans le conseil, il est co-fondateur et CEO de StreamThoughts. Au cours de sa carrière, il a travaillé sur divers projets impliquant la mise en oeuvre de plateformes d’intégration et de traitement de la data à travers les mondes technologiques de Hadoop et de Spark. Passionné par les systèmes distribués, il se spécialise dans les technologies d’event-streaming comme Apache Kafka, Apache Pulsar. Aujourd’hui, il accompagne les entreprises dans leur transition vers les architectures orientées streaming d’événements. Florian est certifié Confluent Administrator & Developer pour Apache Kafka. Il est nommé deux années consécutive (2019 et 2020) “Confluent Community Catalyst” pour ses contributions sur le projet Apache Kafka Streams et son implication dans la communauté open-source. Il fait partie des organisateurs du Paris Apache Kafka Meetup.