Topics in this article

Cloud

Wenn Sie Zeit und Geld investiert haben, um Ihre IT-Infrastruktur robust genug zu machen, um Ihre Geschäftstätigkeit zu unterstützen, ist es besonders frustrierend, wenn es zu Ausfallzeiten kommt oder die Infrastruktur nicht oder nur schwer skalierbar ist, wenn Ihr Unternehmen wächst.

Das Ziel von Site Reliability Engineering (SRE) ist es, komplexe IT-Infrastrukturen und -Vorgänge mithilfe von Software-Engineering-Praktiken besonders zuverlässig und skalierbar zu machen.

Diese Herangehensweise wird immer weiter ausgearbeitet, seit Google den Begriff 2003 geprägt hat und heute ist SRE eine besonders beliebte Methode zur Absicherung der Verfügbarkeit der Services.

In der vom DevOps Institute herausgegebenen Umfrage Global SRE Pulse 2022 gaben 62 % der befragten Unternehmen an, SRE-Prozesse zu verwenden. 55 % davon nutzen SRE für bestimmte Teams, Produkte oder Leistungen und 19 % gaben an, SRE im gesamten Unternehmen umzusetzen.

Die Grundprinzipien von SRE

SRE setzt besonders auf Automatisierung und nutzt DevOps-Praktiken, um durch eine enge Zusammenarbeit mit Entwicklungsteams skalierbare und zuverlässige Systeme zu entwickeln. In traditionellen gemanagten Services variiert die Zusammenarbeit mit Entwicklungsteams ebenso wie der Fokus auf DevOps-Praktiken.

Während die traditionelle Herangehensweise also verschiedene Zuständigkeiten zwischen den für die operativen Abläufe und die Entwicklung zuständigen Teams aufteilen, begünstigt SRE eine kollaborative Herangehensweise: Es kommt zu einem Paradigmenwechsel, in dem Entwicklungs- und Operations-Teams zusammenarbeiten und sich die Verantwortung für die Robustheit der Systeme teilen.

Bereits seit Jahrzehnten hilft NTT DATA Unternehmen dabei, mithilfe von gemanagten Services das Meiste aus Ihrer IT-Infrastruktur herauszuholen. Um unsere Kunden noch besser unterstützen zu können, haben wir unserem Angebot nun einen SRE-Service hinzugefügt, um agile Software-Services voranzutreiben: Zuverlässigkeit, Performance und Kosten werden optimiert, während unsere Kunden im Zuge ihrer digitalen Transformation in die Cloud migrieren.

Bei diesem Service arbeiten wir eng mit Ihrem Team zusammen, um die firmeninternen Prozesse zu bewerten, zu überwachen und zu verbessern. Dabei können wir Flaschenhälse identifizieren, Abläufe vereinfachen und die Ressourcennutzung optimieren.

  • Service Level Objectives (SLOs), also klar messbare Ziele, werden definiert, anhand derer die Zuverlässigkeit eines Services beurteilt wird. SLOs können Ihren Engineering- und Operations-Teams dabei helfen, die Geschäftsziele des Unternehmens zu erreichen. Und das ist ein weiterer Unterschied zwischen SRE und den traditionellen gemanagten Services: Das Erreichen der SLOs ist wichtiger als herkömmliche SLAs, welche zwar die gelieferten Services definieren, aber dabei die UX großteils außer Acht lassen.
  • Im nächsten Schritt wird ein Fehlerbudget festgelegt, welches die Differenz zwischen den im ersten Schritt definierten SLOs und 100 % Zuverlässigkeit beschreibt und anhand dessen ermittelt wird, ob das Maß der Systemausfälle akzeptabel ist. Wenn das Fehlerbudget ausgeschöpft ist, werden weitere Funktionen oder Änderungen aufgeschoben, bis sich die Verlässlichkeit des Services verbessert hat.
  • Die Kapazitätsplanung ist ebenfalls ein wichtiger Schritt, da sie sicherstellt, dass das System sowohl die aktuellen als auch zukünftige Anforderungen erfüllen kann. Teil der Planung ist das Vorhersagen von Traffic-Mustern, das Analysieren von Performance-Metriken und das entsprechende Skalieren der Infrastruktur.
  • Ebenfalls Teil der SRE sind FinOps-Prinzipien, die eine Performance- und Kosten-Optimierung zwischen IT-, Finanz- und Business-Operation-Teams erlauben. DevSecOps werden genutzt, um Risiken zu minimieren und Best Practices im Hinblick auf Infrastruktur, Sicherheit und Robustheit der Systeme sicherzustellen. Mithilfe von Observability werden Performance-Probleme schnell identifiziert und können so direkt behoben werden, sodass die Zuverlässigkeit der Systeme gesteigert wird.
  • LESEN SIE AUCH → Bis zu 1.000 % ROI dank Cloud-Ökonomie

So wird bei NTT DATA mit Vorfällen umgegangen

Wenn wir SRE-Prinzipien in Ihrem Unternehmen umsetzen, um die Zuverlässigkeit von Systemen zu verbessern, automatisieren wir viele Vorgänge wie Deployment, Skalierung, Überwachung und die Reaktion auf Vorfälle. Das reduziert das Risiko von menschlichen Fehlern und steigert die Verlässlichkeit.

Systeme zur Überwachung und Alerts sind ein integraler Bestandteil von SRE. Diese Alerts werden zum Beispiel basierend auf Key Performance Indicators und Service Level Indicators erstellt und können dabei helfen, potenzielle Probleme zu lösen, bevor sie sich auf die Nutzung auswirken.

Sollte es dennoch zu einem Vorfall kommen, folgt NTT DATA einem klar definierten Prozess, um auf diesen zu reagieren – wir stellen den Service schnell wieder her und führen dann Untersuchungen durch, um von dem Vorfall zu lernen.

Ein höherer Grad der Automatisierung bedeutet auch weniger manuelle, repetitive, automatisierbare Tätigkeiten ohne taktischen Wert – im Kontext von SRE wird diese Art von Arbeiten gerne „Toil“ genannt. Und je weniger Zeit Ihre Teams auf Toil verwenden müssen, desto mehr Zeit haben sie für sinnvolle Projekte, die Ihrem Unternehmen langfristig nutzen.

Risikomanagement

Teil unseres SRE-Angebots ist es, Risiken zu identifizieren und effektiv zu managen, sodass die Zuverlässigkeit der Systeme gesteigert wird. Dazu gehört beispielsweise das Evaluieren der Auswirkungen von Veränderungen, das Entwickeln von Ausfall-Szenarien und Maßnahmen, um diesen entgegenzuwirken und die Risiken zu reduzieren.

Und zu viel Risikoprävention gibt es nicht. Deshalb arbeiten wir eng mit Ihren Entwicklungs-Teams zusammen, um die Architektur der neuen Systeme so zu designen, dass sie möglichst zuverlässig sind und den Ansprüchen Ihres Unternehmens gerecht werden – so wird potenziellen Problemen später im Entwicklungsprozess aktiv entgegengewirkt.

Diese Zusammenarbeit schlägt eine Brücke zwischen den oft als gegensätzlich angesehenen Anforderungen, dass ein neues System einerseits schnell entwickelt werden und verfügbar sein muss, andererseits aber bei der Zuverlässigkeit keine Kompromisse eingegangen werden wollen.

Zuverlässig in der Cloud

SRE ist unerlässlich für jede Cloud-native-Strategie. Viele Cloud-Transformationen starten mit einer Umstellung zu Infrastructure-as-Code (IaC), was die Verwaltung und Zurverfügungstellung von Computing-Infrastruktur in Code-Form statt als physische Hardware umfasst.

Das Ziel ist es dabei, Infrastruktur so zu behandeln, als wäre sie Software. Das hat nämlich den Vorteil, dass es Versionen gibt und die Infrastruktur getestet und automatisiert werden kann, was wiederum die Zuverlässigkeit steigert.

Außerdem spielt Observability eine Rolle und stellt sicher, dass Ihr System dauerhaft die Anforderungen von SLAs und SLOs erfüllt.

Machen Sie den ersten Schritt

Bei NTT DATA arbeiten wir ständig daran, unser SRE-Angebot basierend auf unseren eigenen Erfahrungen zu verbessern.

Wenn Sie also nach besonders zuverlässigen und robusten Infrastrukturen und Services suchen und dabei Kosten optimieren, die Performance verbessern und Risiken reduzieren wollen, kontaktieren Sie uns.

NÄCHSTE SCHRITTE

Lesen Sie mehr über den Site-Reliability-Engineering-Service von NTT DATA und finden Sie heraus, wie wir Ihnen bei der Modernisierung Ihrer Systeme helfen können.

Jetzt Kontakt aufnehmen