Wie ihr sicher bemerkt habt, war das Forum seit Freitag Nacht sehr langsam und träge.
Die Ursache schien zunächst u.a. in defragmentierten bzw. korrupten Daten zunächst in der Datenbank (genauer in einer größeren Tabelle) zu liegen. Diese wurden im Laufe des Samstag und Sonntag versucht zu bereinigen. Dabei kam es neben einem Absturz des Datenbankservers zu mehreren Table-Crashes, u.a. betroffen die mit mehreren GB Speichergröße und über 2 Mio. Datensätzen größte Tabelle). Aus diesem Grund haben wir uns am Sonntag Nachmittag dann entschlossen, das Forum komplett vom Netz zu nehmen und eine umfangreiche Datensicherung und Datenrekonstruktion zu machen (in Folge derer es auch immer wieder zu einzelnen Abstürzen kam, was die Sache verlangsamt hat). Ein paralleler Betrieb war nicht sinnvoll, da die Datenintegrität nicht gewährleistet werden kann, wenn man versucht Daten zu sichern und gleichzeitig Leute neue Daten produzieren bzw. bestehende Daten editieren.
Die Sache gestaltete sich langwierig und zeitraubend, da einige unserer Datenbanktabellen mittlerweile Dimensionen erreicht haben, die wir uns nie hätten erträumen lassen und unser Server nun auch kein Hochleistungsmonster mehr ist. Wir reden hier von mehreren GB großen Tabellen mit teilweise mehreren Millionen Datensätzen (z.B. die Tabelle mit den ganzen Beiträgen). Leider war auch diese Tabelle vom Crash betroffen, diese wiederherzustellen und zu reparieren frisst nun einmal Zeit. Leider sieht es auch so aus, als wären nicht alle Beiträge fehlerfrei replizierbar, wir arbeiten dran, versprechen aber nichts.
Generell gilt für uns: Datensicherung geht vor allem anderen (auch vor Beantwortung von Benutzeranfragen). Außerdem haben wir nebenher eine reguläre Arbeit, der wir nachgehen müssen, und können nicht pausenlos 24/7 das Forum reparieren, das bitten wir einfach auch zu respektieren, d.h. unsere Zeit ist auch nur begrenzt und man muss priorisieren.
Leider hat sich die ursprüngliche Annahme der kaputten Daten nicht als Lösung des Problems herausgestellt, es war allenfalls ein Teilaspekt, der aber nun bereinigt ist. Auch die etwas unglückliche Konfiguration der Blockade der kompletten Tabelle für einzelne Schreibvorgänge, was zu teilweise massiven Verzögerungen beim Speichern von Beiträgen geführt hat, wurde behoben.
Trotzdem, ist das Haupt-Fehlerbild immer noch etwas diffus, da weder Datenbankserver noch Webserver signifikante Auffälligkeiten hinsichtlich ihrer Leistungsdaten zeigen. Prinizipiell entsteht ein Hauptteil der Performance-Probleme in der Kommunikation zwischen Webserver und Datenbankserver, jeder für sich arbeitet weitestgehend performant. Da beide Server auf derselben Maschine laufen ist auch hier eine zusätzliche Netzwerklatenz zu vernachlässigen. Auch scheint das Fehlerbild wellenartig aufzutreten, u.a. konnte es auch beobachtet werden, wenn nur eine Person auf dem Server unterwegs ist. Wir bleiben weiter dran, bitten aber um Geduld.
Das Forum wird daher in den nächsten Tagen mit unterschiedlichen Konfigurationsparametern betrieben, so dass weitere Messwerte abgegriffen werden können. Allerdings kann es weiterhin zu Verzögerungen und kurzfristigen Ausfällen kommen.
An der Stelle bedanken wir uns ausdrücklich noch einmal bei allen für ihre Geduld, die uns in den letzten Tagen in Ruhe unsere Arbeit haben machen lassen und nicht pausenlos auf diversen Kanälen (inkl. WhatsApp und FB Messenger und auch zu nachtschlafender Zeit) versucht haben, ihre pure Neugier zu befriedigen, ihre merkwürdigsten Spekulationen bestätigt zu bekommen oder uns einfach nur beschimpft haben (da weiß man dann, für wen man seine Freizeit opfert und den Job macht)!
Kleiner Hinweis noch: ein Datenbank-Crash ist nichts, was man vorher planen und ankündigen kann (für diejenigen, die uns vorgeworfen haben, dass man so eine Downtime ja bitte mal vorher ankündigen könne und müsse), geschweige denn, seriöse Aussagen abgeben kann, wie lange es dauert bis alles wieder funktioniert. Es dauert eben solange, wie es dauert.
Generell hat der Vorfall wieder Mal gezeigt: das Forum hat durch seinen Zuspruch mittlerweile eine Größe und Dimension erreicht, die so in Freizeit und mit der bestehenden Architektur kaum noch zu betreiben ist und an seine Grenzen stößt. Der Server in Eigenbetrieb ist vor 10 Jahre aus dem Boden gestampft worden nachdem es zunehmend Probleme mit dem damaligen Dienstleister Foren-City gab. Damals war das eine gute Lösung, die uns viel erleichtert hat. Wir haben aber eben kein Großrechenzentrum oder Servercluster, bei den mittlerweile erreichten Dimensionen wäre aber zumindest Letzteres hilfreich Aus den Gründen haben wir uns auch entschlossen, zu schauen, wie wir die Services weiter professionalisieren können und auch wieder auslagern können, zum einen, um uns selber zu entlasten und zum anderen die Services in besserer Verfügbarkeit und Geschwindigkeit anbieten zu können. Wir evaluieren hier jetzt verschiedene Dienstleister bzgl. Kosten und Leistungsspektrum gemäß unseres Lastenheftes und werden Euch dann zu gegebener Zeit informieren.
Bis dahin bitten wir um Geduld, auch wenn es an der ein oder anderen Stelle noch etwas zwickt im Forum.