SLA Anhang zum CAFM IT Dienstleistungsvertrag

Facility Management: Verträge und Vereinbarungen » FM-Verträge » CAFM-/IT-Dienstleistungsverträge » SLA

Service-Level-Standards im CAFM-/IT-Dienstleistungsvertrag

Systemverfügbarkeit
Reaktionszeiten
Performance
Supportprozess
Vertragsstrafen

Systemverfügbarkeit (Betriebszeit)

Die Systemverfügbarkeit gibt an, wie lange das IT-System für den Kunden erreichbar und funktionsfähig ist. Üblich sind sehr hohe Verfügbarkeitswerte, oft über 99% der vereinbarten Betriebszeit (z.B. während der Geschäftszeiten). Prozentuale Verfügbarkeitszusicherungen haben direkte Auswirkungen auf die zulässige Ausfallzeit: 99% Verfügbarkeit erlauben noch ca. 87,6 Stunden Gesamtausfall pro Jahr, wohingegen 99,9% nur etwa 8,76 Stunden Ausfallzeit jährlich bedeuten. Kritische Systeme streben sogar 99,99% oder mehr an, was weniger als eine Stunde Downtime pro Jahr entspricht. Wichtig ist dabei die Bezugsperiode: Die Verfügbarkeit kann pro Jahr oder pro Monat angegeben sein – z.B. 99% pro Monat entsprechen maximal ~7 Stunden Ausfall im Monat.

Entscheidend ist eine eindeutige Definition, was als Ausfall gilt. Im SLA muss festgelegt werden, ob geplante Wartungsfenster von der Verfügbarkeitsberechnung ausgenommen sind, wie Teilausfälle (wenn nur bestimmte Funktionen gestört sind) behandelt werden und ob Performance-Degradierungen (das System läuft, ist aber extrem langsam) als Ausfall zählen. Diese Klarheit verhindert spätere Streitigkeiten über die Verfügbarkeitsmessung. Die Messung der Betriebszeit erfolgt meist durch Monitoring-Systeme; im SLA wird definiert, wie und womit die Verfügbarkeit gemessen und in Berichten dokumentiert wird (etwa monatliche Reports mit den Ausfallzeiten).

Unterschreitet die tatsächliche Verfügbarkeit den garantierten Prozentsatz, stellt dies einen Leistungsmangel dar. In einem solchen Fall greifen die vertraglich vereinbarten Folgen: Das SLA kann z.B. vorsehen, dass bei Verfügbarkeitsunterschreitung eine Minderung der Vergütung eintritt oder sogar eine Vertragsstrafe fällig wird. Somit ist die Verfügbarkeit ein zentraler KPI, dessen Nichteinhaltung konkrete Konsequenzen nach sich zieht.

Reaktionszeiten des Supports (Incident Response)

Die Reaktionszeit bestimmt, wie schnell der Dienstleister im Störungsfall reagieren muss, also innerhalb welcher Frist er nach Eingang einer Störungsmeldung mit der Fehlerbehebung beginnen muss. Ergänzend wird oft eine Wiederherstellungszeit (Lösungszeit) definiert – der Zeitraum, in dem die Störung vollständig zu beheben ist. Um unterschiedlichen Dringlichkeiten gerecht zu werden, werden Incidents in Prioritätsklassen kategorisiert.

Je kritischer die Störung für den Geschäftsbetrieb ist, desto schneller muss die Reaktion und Lösung erfolgen:

Priorität 1 (kritisch): Bei schwerwiegenden Totalausfällen, die den gesamten Betrieb lahmlegen, sind extrem kurze Zeiten üblich – etwa eine Reaktionszeit von 15 Minuten und eine Wiederherstellungszeit von maximal 4 Stunden. In dieser Klasse muss der Dienstleister also umgehend mit der Entstörung beginnen (z.B. binnen 15 Min.) und das Problem sehr zeitnah lösen (typisch innerhalb weniger Stunden).
Priorität 2 (hoch): Bedeutende Störungen, die den Betrieb erheblich beeinträchtigen (aber keinen völligen Stillstand verursachen), erlauben etwas längere Fristen. Hier können z.B. Reaktionszeiten von 1 Stunde und Lösungszeiten im Bereich eines Arbeitstags vereinbart werden.
Priorität 3 (gering): Nicht-kritische Fehler oder Komfortmängel, die den Geschäftsbetrieb nur unwesentlich stören, haben entsprechend großzügigere Vorgaben. Die Reaktion kann innerhalb von einigen Stunden bis zu einem Werktag erfolgen, und die Behebung darf auch mehrere Tage dauern.

Diese konkreten Zeitvorgaben müssen an die Geschäftsanforderungen des Kunden angepasst sein. Beide Vertragsparteien brauchen ein gemeinsames Verständnis der Prioritäten, damit klar ist, welche Art von Störung welcher Klasse zugeordnet wird und welche Servicezeiten dafür gelten (z.B. ob Reaktionszeiten auch außerhalb der Geschäftszeiten erfüllt werden müssen). Das SLA sollte außerdem festlegen, ab wann die Reaktionszeit zählt – in der Regel ab Eingang der qualifizierten Störungsmeldung beim Support. Insgesamt stellen definierte Reaktions- und Wiederherstellungszeiten sicher, dass der Anbieter Probleme zügig angeht und der Kunde Erwartungssicherheit über die maximale Störungsdauer hat.

Performance und Antwortzeiten der Anwendung

Neben Verfügbarkeit und Betriebszeit regelt ein SLA oft die Performance des IT-Systems. Hierunter fallen Kennzahlen wie Antwortzeiten der Anwendung und ggf. Durchsatzraten. Es genügt also nicht, dass ein Service verfügbar ist – er muss auch mit angemessener Geschwindigkeit funktionieren. Im SLA werden deshalb konkrete Performance-Schwellen vereinbart, z.B. maximale Reaktions- bzw. Ladezeit für bestimmte Transaktionen. Ein Beispiel für ein Performance-SLO: "Seitenaufbau in maximal 2 Sekunden". Solche Vorgaben definieren die höchstzulässige Latenz für Benutzeraktionen oder Anfragen (etwa bei Datenbankabfragen). Darüber hinaus kann ein Mindest-Durchsatz festgelegt werden, z.B. die Verarbeitung von x Transaktionen pro Sekunde, um sicherzustellen, dass das System auch unter Last die benötigte Kapazität bietet.

Performance-Metriken werden regelmäßig überwacht und mit anerkannten Standards verglichen. Sie geben Aufschluss darüber, wie gut das System unter Last arbeitet, und gewährleisten, dass der Dienstleister nicht nur Ausfälle, sondern auch Leistungseinbrüche vermeidet. So sind z.B. in webbasierten Anwendungen die Seitenladezeiten kritisch – sowohl die Time-to-First-Byte als auch die vollständige Rendering-Zeit können als Kriterien dienen. Werden die definierten Performance-Grenzwerte überschritten (etwa wenn die Anwendung deutlich langsamer reagiert als vereinbart), gilt dies als SLA-Verletzung. Entsprechende Monitoring-Tools und Tests (z.B. regelmäßige Performance-Benchmarks) sollten im SLA benannt werden, damit die Einhaltung dieser Parameter objektiv geprüft und nachgewiesen werden kann.

Supportprozess und Organisation (Hotline & Ticketing)

Organisatorisch muss der Anbieter einen effizienten Supportprozess bereitstellen, damit Kunden im Problemfall schnell Hilfe erhalten. Das SLA beschreibt die Support-Struktur sowie die Kommunikationskanäle für Support-Anfragen. Üblich ist die Bereitstellung einer Hotline (telefonischer Helpdesk) sowie eines Ticket-Systems zur Annahme und Verfolgung von Störungsmeldungen. Über diese Kanäle können Nutzer rund um die Uhr oder während definierter Servicezeiten (z.B. 9×5 – neun Stunden an fünf Werktagen) Probleme melden. Jede Anfrage wird in der Regel als Ticket erfasst und mit Zeitstempeln versehen, um die Reaktions- und Lösungszeiten nachzuhalten.

Typischerweise ist der IT-Support mehrstufig organisiert:

First-Level-Support dient als erste Anlaufstelle und ist häufig während der normalen Geschäftszeiten erreichbar. Dort werden Standardprobleme sofort bearbeitet und wenn möglich gelöst. Einfach gelagerte Fälle (z.B. Benutzerfragen, kleinere Störungen) können oft bereits im First-Level telefonisch oder per Fernwartung behoben werden.
Second-Level-Support übernimmt, wenn komplexere technische Probleme auftreten, die über die Kompetenzen des First-Level hinausgehen. Diese Support-Mitarbeiter verfügen über tiefere Expertise und weitergehende Zugriffsrechte, um schwierige Störungen zu analysieren und zu beheben.
Third-Level-Support (falls vorhanden, z.B. bei Softwareherstellern) bildet die letzte Eskalationsinstanz für neuartige oder sehr komplexe Probleme. Hier werden Spezialisten oder Entwickler hinzugezogen, oder es wird der Kontakt zum externen Hersteller aufgenommen.

Ein strukturierter Eskalationsprozess ist im SLA festzuhalten. Das bedeutet: Sollte ein Problem nicht zeitgerecht auf niedriger Stufe gelöst werden, muss es automatisch an die nächste Support-Ebene oder an das Management eskaliert werden. Für geschäftskritische Notfälle kann vereinbart sein, dass auch außerhalb regulärer Zeiten ein verantwortlicher Techniker bzw. Manager erreichbar ist, der notfalls Sofortmaßnahmen (wie das Auslösen von Notfallplänen) einleitet. Durch solche organisatorischen Vorkehrungen stellt das SLA sicher, dass jede Störung angemessen bearbeitet wird – nach ihrer Priorität geordnet – und der Kunde über Status und Fortschritt informiert bleibt. Zudem können im SLA Kommunikationsintervalle festgelegt werden (z.B. Status-Updates alle X Stunden bei P1-Vorfällen), um Transparenz im Störungsfall zu gewährleisten.

Vertragsstrafen und Konsequenzen bei SLA-Verletzungen

Damit die SLA-Vorgaben nicht bloß unverbindliche Zielwerte bleiben, werden im Vertrag Konsequenzen bei Nichteinhaltung definiert. Aus kaufmännischer Sicht dienen solche Klauseln dazu, den Dienstleister zu hoher Servicequalität anzuspornen und den Kunden im Falle von Schlechtleistung zu entschädigen. Typische Sanktionsmechanismen in SLAs sind Vertragsstrafen (Pönalen) oder Gutschriften/Preisnachlässe auf die Servicegebühr. Das heißt, wenn der Anbieter die zugesicherten Service Levels nicht erfüllt (etwa die Verfügbarkeit unter den vereinbarten Wert fällt oder Reaktionszeiten überschritten werden), erhält der Kunde automatisch einen Rabatt auf die monatliche Rechnung bzw. eine Gutschrift oder der Anbieter muss eine pauschale Strafe zahlen. Diese vertraglich festgelegten Kompensationen schaffen einen finanziellen Anreiz für den Anbieter, die Vereinbarungen strikt einzuhalten, und sie kompensieren den Kunden für den entgangenen Nutzen bei einer SLA-Verletzung.

Die genaue Ausgestaltung kann unterschiedlich aussehen. Oft wird ein Stufenmodell vereinbart – zum Beispiel: Für jede Unterschreitung der Verfügbarkeitsgarantie um 1 Prozentpunkt wird die monatliche Vergütung um 1% gekürzt. Alternativ könnten feste Beträge pro Ausfallstunde oder pro verspätetem Reaktionsfenster definiert werden. Wichtig ist, dass die Höhe der Pönale in einem angemessenen Verhältnis steht. Üblich sind Deckelungen der Strafzahlungen, etwa maximal 5–10% der Jahresvergütung pro Jahr, um das Risiko für den Dienstleister begrenzt und kalkulierbar zu halten. Zu hoch angesetzte Strafen wären kontraproduktiv, da sie den Anbieter finanziell übermäßig belasten oder zu überteuerten Angeboten führen könnten. Daher zielen SLA-Klauseln darauf ab, Balance zu schaffen: Der Dienstleister soll spürbare Anreize haben, die Leistung zu erbringen, ohne jedoch unkalkulierbaren Schaden bei geringfügigen Verfehlungen zu nehmen.

Aus rechtlicher Sicht haben Vertragsstrafen den Vorteil, dass der Kunde bei Nichteinhaltung des SLAs nicht erst einen konkreten Schaden nachweisen muss. Die Vertragsstrafe gilt als pauschalierter Schadensersatz, der bei Verstoß automatisch fällig wird. Zusätzlich kann im SLA geregelt sein, dass für die Dauer einer gravierenden Störung die Zahlungspflicht des Kunden entfällt (Entgeltminderung für Ausfallzeiten).

Schließlich sollte ein SLA auch Kündigungsrechte vorsehen für den Fall schwerwiegender oder wiederholter Verstöße. Tritt etwa mehrfach hintereinander eine erhebliche SLA-Verletzung auf und beweist der Anbieter damit, dass er die vereinbarte Servicequalität dauerhaft nicht einhalten kann, so muss der Kunde das Recht haben, den Vertrag außerordentlich zu kündigen. Dieses Kündigungsrecht bei fortgesetzter Schlechterfüllung ist ein wesentliches Druckmittel und stellt sicher, dass der Kunde sich aus einer untragbaren Dienstleistungsbeziehung lösen kann, falls der Anbieter die SLA-Vorgaben nachhaltig verfehlt.