Aufbau, Betrieb und Weiterentwicklung eines global verteilten Elastic Stacks zur unternehmensweiten Aggregation, Analyse und Weiterverarbeitung von Logdateien und Events.

Kurzbeschreibung:

Unsere Servicelösung umfasst die dezentrale Erfassung von Logdaten in 15 global verteilten Datalakes, welche mit dem Elastic Stack aufgebaut wurden. Hierbei werden generische Data Ingestion Pipelines mit Logstash zur Verfügung gestellt, um einer Vielzahl heterogener Systeme unternehmensweit das Anliefern von Logs zu ermöglichen, um diese in Dashboards zu aggregieren oder programmatisch weiter zu verarbeiten.

Situation:

In global verteilten Infrastrukturen spielt das Incidentmanagement eine zentrale Rolle. Das Enablement schneller Entstörung und Reduktion von Ausfallzeiten ist essenziell. Die zentrale Aggregation von Events und Zustandsinformationen ermöglicht hierbei eine frühe Problemerkennung und trägt zur Resilienz der gesamten Infrastruktur bei.

Kundenwunsch:

  • Entwicklung, Aufbau und Betrieb einer Event- und Loganalyse Plattform
  • Entwicklung und Tests von Docker Containern für den Betrieb in Kubernetes
  • Linux Automatisierung mit Hilfsskripten in Bash und Python
  • Weiterentwicklung der Plattform anhand von cutting edge best practices
  • Reduktion von Ausfallzeiten durch schnellere Reaktion

 Herausforderung:

  • Entwicklung und Automatisierung einer Event- und Loganalyse Plattform auf Basis von Kubernetes für den Betrieb von Elasticsearch, Logstash, Kibana sowie Logstash Persistent Queues als Broker
  • Automatisierung von Deployments und Tests mithilfe von Jenkins, Helm und Groovy Skripten
  • Anbindung von neuen Datenquellen an die bestehende Infrastruktur (Syslog, Filebeat und REST API Quellen)
  • Entwicklung von Datenverarbeitungsfiltern mit Logstash

KPis:

  • Der Kunde hat eine hochverfügbare und skalierbare Plattform für alle Systeme, die ihre Logs, Metriken und Bestandsdaten an eine Stelle senden können und diese über eine Volltextsuche gefiltert und visuell aufbereitet werden können
  • Aktuell läuft die Plattform in 15 Regionenweltweit und verarbeitet in jeder Region bis zu 40.000 Datensätze pro Sekunde
  • Der Server Management Betrieb wird vereinfacht, in dem alle Serverdaten und Logs von verschiedenen Herstellern zu einer Zielform konsolidiert und in den Dashboards übersichtlich dargestellt und überwacht werden können
  • Mithilfe von kundenspezifischen Datenintegrationen, kann jede mögliche Datenquelle an OctoBus angebunden werden
  • Auf Basis von den Serverlogs und Metriken können automatische Benachrichtigungen über E-Mail, Slack oder externe Ticket Systeme für die Alarmierung & weitere Fehlerbehebung implementiert werden
  • Whitelabel Service Platform, auf welcher andere Services aufbauen:

Netlution Lösung:

  • Eine maßgeschneiderte, adaptive und durch den Einsatz von globalen Kubernetes-Clustern ausfallsichere Data Lake Lösung

Projektlaufzeit:

Der Service startete 2018 und ist fortlaufend.

Netlution Leistungen:

  • Sicherstellung Service, Administration, Optimierung und Weiterentwicklung des gesamten Stacks
  • Schnelles und unkompliziertes Onboarding kundeninterner Servicekonsumenten
  • Dokumentation (inkl. Knowledge Transfer Management, bspw. Wiki, Recordings)
  • Eingesetzte Technologien/Ressourcen
  • Managed Service (inkl. SLAs) im rollierenden Einsatzsystem (RES) mit > 10 Netlution Consultants/ Senior Consultants
  • Logdatenhaltung im Petabytebereich
  • Onboarding und Coaching kundeninterner Mitarbeiter