Notfallwiederherstellung

Loftware Cloud ist stabil und sicher.

Aber wenn mal etwas schief geht, Loftware hat umfassende Pläne zur Notfallwiederherstellung. Unsere Teams arbeiten hart daran, Ihre Ausfallzeiten so gering wie möglich zu halten und Ihnen dabei zu helfen, so schnell wie möglich wieder zur Tagesordnung überzugehen.

Begriffe und Definitionen

NAME

DEFINITION

VORFALL

Eine Situation, die zu einer Störung, einem Verlust oder einem Notfall führen kann oder könnte.

NOTFALL

Jeder Umstand, der dazu führt, dass der Zugriff auf oder die Nutzung von Loftware Cloud über einen längeren Zeitraum nicht möglich ist. Ein Notfall erfordert Maßnahmen zur Wiederherstellung des normalen Betriebs.

VORFALLSTEAM

Umfasst Mitglieder unserer Support- und Anwendungsentwicklungsteams, die auf Supportanfragen von Kunden reagieren. Die Mitglieder des Vorfallsteams erhalten Warnungen von unserem Überwachungssystem. Die Vorfallsteams beheben die Vorfälle oder melden die Vorfälle an das Notfallteam weiter.

BEREITSTELLUNGSTEAM

Umfasst die Mitglieder des Anwendungsentwicklungsteams, die für die Verwaltung von Loftware Cloud zuständig sind. Neben der regulären Verwaltung unterstützt unser Bereitstellungsteam das Vorfallsteam bei der Behebung von Vorfällen.

NOTFALLTEAM

Tritt im Notfall zusammen, um den Dienst nach dem Notfall wiederherzustellen. Umfasst auch Mitglieder des Bereitstellungsteams.

TEAM FÜR DIE VERWALTUNG DES WIEDERHERSTELLUNGSPROZESSES

Überwacht, überprüft und ändert die Notfallwiederherstellungsprozesse, um deren Wirksamkeit zu gewährleisten. Dieses Team ist nicht direkt an der Notfallbewältigung beteiligt, sondern prüft jedes einzelne Szenario, um die Prozesse zu verbessern.

Flussdiagramm

image2.png

Beginn eines Vorfalls

Ein Vorfall beginnt, wenn unser Vorfallteam Informationen über Probleme mit Loftware Cloud erhält.

Diese Informationen können aus folgenden Quellen stammen:

  • Warnmeldungen des Überwachungssystems

  • Support-Anfragen von Kunden (Telefon oder E-Mail)

  • Andere Ereignisse, die auf mögliche Loftware Cloud Probleme hinweisen

Wir verfolgen Vorfälle mit Support-Tickets gemäß den üblichen Support-Verfahren.

Reaktion auf Vorfälle

Die Vorfallsteams bearbeiten Vorfälle. Eine solche Reaktion umfasst:

  1. Bewertung des Vorfalls (Überprüfung von Warnmeldungen, Kundenberichten).

  2. Entscheidungsfindung. Nach der Untersuchung entscheiden die Teams, ob die Vorfälle zu einem Notfall eskalieren sollen oder nicht.

    1. Die Vorfallsteams beraten sich bei Bedarf mit dem Bereitstellungsteam.

    2. Wenn die Vorfälle keine Notfallreaktion erfordern, lösen die Teams die Vorfälle gemäß den üblichen Supportprozessen.

Die Bearbeitung von Vorfällen und die Reaktionszeiten richten sich nach den standardmäßigen Support-Verfahren, die in Ihrem SLA-Level festgelegt sind.

Übergang zum Notfall

Die Vorfallsteams setzen sich mit dem Bereitstellungsteam in Verbindung, um Notfallmaßnahmen einzuleiten. Unser Bereitstellungsteam stellt ein Notfallteam zusammen, um die Notfallwiederherstellungsprozesse zu überwachen.

Notfallwiederherstellung

Die Teams protokollieren alle Statusaktualisierungen in unserem internen System, um die Transparenz für alle beteiligten Teams zu gewährleisten. Die Teams fügen das Schlüsselwort [Notfall] zu allen entsprechenden Support-Anfragen hinzu, um die Notfallprotokolle zu organisieren.

Unser Notfallteam analysiert die Probleme und legt die nächsten Schritte fest, wobei es unsere etablierten Notfallwiederherstellungsverfahren befolgt:

  1. Ermittlung des Umfangs, der Auswirkungen und der Ursache des Problems.

  2. Wenn das Problem auf die zugrunde liegende Azure-Cloud-Infrastruktur zurückzuführen ist, stellen sie sicher, dass Microsoft das Problem löst:

    1. Überprüfung der Microsoft-Benachrichtigungen im Bereich „Service Health“.

    2. Bei Bedarf werden Support-Tickets eröffnet.

    3. Überprüfung der Fortschritte von Microsoft.

      Wenn Microsoft das Problem zeitnah behebt, sind keine weiteren Wiederherstellungsmaßnahmen erforderlich.

  3. Wenn Microsoft das Problem nicht löst, werden die Wiederherstellungsmaßnahmen gemäß unserem Wiederherstellungsleitfaden eingeleitet.

Während das Notfallteam die Wiederherstellung durchführt, informieren wir die betroffenen Benutzer über den aktuellen Status und die voraussichtliche Zeit für die Behebung.

Nach der Wiederherstellung analysiert das Notfallteam die Ursachen der Ausfälle und empfiehlt Verbesserungen, die Sie vornehmen können, um zukünftige Vorfälle zu vermeiden. Ihre betroffenen Benutzer erhalten Berichte, ggf. mit Service-Gutschriften.

Wiederherstellungszeiten

Wir sind bestrebt, den Service so schnell wie möglich wiederherzustellen. Die Wiederherstellungszeiten können je nach Art und Umfang des Problems unterschiedlich sein. Loftware arbeitet mit Microsoft zusammen, um Probleme im Zusammenhang mit den von Microsoft Azure bereitgestellten Diensten zu lösen.

Prozess-Überprüfungen

Unser Team für die Verwaltung des Wiederherstellungsprozesses überprüft unsere Wiederherstellungsprozesse:

  • Nach jedem Notfallszenario

  • Regelmäßig (mindestens einmal pro Jahr)

  • Bei Bedarf (bei geplanten Erweiterungen oder wenn außerhalb der regelmäßigen Prüfungen Mängel festgestellt werden)

Unser Team für die Verwaltung des Wiederherstellungsprozesses bestimmt, ob unsere Prozesse geändert werden müssen und kann die Implementierung an unser Bereitstellungsteam delegieren. Wir informieren die betroffenen Teams über alle Änderungen.

Regelmäßige Tests

Unser Team für die Verwaltung des Wiederherstellungsprozesses testet regelmäßig unsere Notfallwiederherstellungsprozesse, um deren korrekte Ausführung zu gewährleisten und die Effektivität zu beurteilen. Unsere Teams planen und führen regelmäßige Tests (mindestens einmal pro Jahr) nach festgelegten Aktionsplänen durch. Die Ergebnisse der Tests werden von den Teams im Rahmen von Prozessüberprüfungen analysiert.