Wieso das Update dieses mal so lange gedauert hat


Thomas Wölfer
Thomas Wölfer

18. August 2005


Vor etwa einer Woche hatte uns zunächst ein Anwender auf einen Fehler in der Bemessung von XPLA hingewiesen. Sowas ist natürlich ärgerlich, aber nicht zu verhindern: Wie jedes Produkt hat auch ein Softwareprodukt Fehler, und die hohe Geschwindigkeit mit der Neuerungen und ganz allgemein neue Versionen zur Verfügung gestellt werden – kombiniert mit der Komplexität der Produkte – führt einfach dazu, das Fehler eben hin- und wieder vorkommen, ohne das wir diese vor der Veröffentlichung bemerken. Wie gesagt: Ärgerlich – und wir versuchen für die kommende Softwaregeneration Mechanismen einzurichten, um das zumindest zu minimieren.

 

Das hilft natürlich heute nicht weiter, ist aber im Normalfall auch kein wirklich großes Problem: Tritt ein Fehlerfall ein, stellen wir eigentlich fast immer innerhalb kürzester Zeit ein Update über unsere Download-Site zur Verfügung. Das kann man einen Tag oder zwei, manchmal auch ein Wochenende dauern – aber eigentlich nicht wesentlich länger.

 

Was im Fehlerfall passiert ist stark vom Fehler abhängig, denn meist handelt es sich ja um eher kosmetische Probleme: Ein Programm stürzt in irgend einem obskuren Kontext ab, oder aber ein Button tut vielleicht nicht das, was er soll.

 

Manchmal gibt’s größere Probleme, und so war es auch beim angesprochenem Problem. Sobald wir das erkennen, sperren wir als erstes den Download-Bereich unserer Website. Das soll verhindern, das weitere Kopien der Software die den Fehler enthalten verteilt bzw. heruntergeladen werden. Wenn der Fehler behoben ist stellen wie eine neue Version des Programms zum Download zur Verfügung, öffnen den Download-Bereich, und versenden einen eMail an alle Teilnehmer der entsprechenden Mailing-Liste. Damit bekommt jedermann sofort Bescheid das es ein Problem gab, und das es dafür auch eine Lösung gibt.

 

Diesmal war das anders: Wir haben zwar die Download-Seite gesperrt, das Update hat aber über eine Woche auf sich warten lassen. Für die vom Fehler betroffenen war das schon ganz schön ärgerlich. Für uns war es das aber auch, denn eigentlich war der Fehler kurz nachdem er uns bekannt gemacht worden war auch schon behoben. Dummerweise konnten wir aber das Update nicht verfügbar machen. Was war geschehen?

 

Um das zu erklären, muss ich ein bisschen ausholen. Die öffentliche IT-Infrastruktur von D.I.E. befindet sich im großen und ganzen im Münchner Büro. Dort steht ein Server-Rack mit den zugehörigen Rechnern: Webserver, Mailserver, der Rechner für die Work&Cash Konten, etc. etc.

 

Nachdem die Updates von dort verteilt werden, werden auch die Setups in München produziert. Das passiert auf einer virtuellen Maschine, die aus Sicherheitsgründen weitestgehend vom normalen Netzwerk abgekoppelt ist. Im Klartext: Diese virtuelle Maschine befindet sich auf einer separaten, externen USB-Festplatte ohne jegliche Verbindung zur Außenwelt.

 

Ist das Setup in dieser virtuellen Maschine produziert, wird die zugehörige Datei auf den Webserver transportiert von wo aus Sie das Ding abholen können.

 

Momentan gibts nur eine Person die Zugriff auf die beiden beteiligten Systeme hat – und das bin ich.

 

Dieser Zugriff ist obendrein auf  physische Anwesenheit beschränkt: Ich muss mich also tatsächlich direkt vor der Maschine befinden, mich an der zugehörigen Tastatur mit dem passenden Sicherheitskontext anmelden – und nur dann kann ich das Setup zum einen produzieren, und zum anderen auf den Download-Server transportieren.

 

Das Problem: Die USB-Platte und der Webserver befanden sich in München – ich war hingegen in unserer Oberhausener Hauptstellen.

 

Dumme Sache - und der Grund dafür, warum es das Update erst heute gegeben hat.

 

Was tun wir nun dagegen, das so was nicht wieder vorkommt?

 

Momentan ist das noch nicht in jedem Detail klar – denn letztlich wollen wir auch in Zukunft die Sicherheit unserer Downloads nicht gefährden. Trotzdem werden wir auf jeden Fall in paar neue Wege beschreiten, um in Zukunft besser auf derartige Probleme reagieren zu können.

 

Zum einen werden wird eine Möglichkeit schaffen, sowohl die virtuelle Maschine als auch den Webserver selbst anders erreichbar zu machen. Das wird vermutlich darauf hinauslaufen, das der Server mit passenden Maßnahmen über eine VPN erreichbar sein wird, und das das erzeugen von Setups mit einer virtuellen Maschine auf diesem Webserver oder einem zugeordneten Rechner möglich wird.

 

Es ist noch nicht ganz klar, wie lange das dauern wird – letztlich läuft der Umbau dieser Infrastruktur eher neben der normalen Arbeit – aber das sollte nicht länger als ein paar Wochen dauern: Sobald es da Fortschritt gibt, werde ich im Blog aber natürlich darüber berichten.