Hintergrundinformationen zu den Mail-Problemen seit dem 3.7.2006

Der zentrale Mail-Dienst ist auf zwei Server verteilt, m1 (mailhost) und m2 (maildrop).
Auf m1 läuft sendmail; der Rechner nimmt also von aussen Mail an und liefert sie an die Nutzer aus, und er nimmt Mail von den lokalen Nutzern an und verschickt sie (einfach ausgedrückt).
Auf m2 laufen die Dienste IMAP und POP.

Lokal an m2 hängt die Mail-Platte mit den /var/mail- und IMAP-Filesystemen. Die Filesysteme werden per NFS an m1 exportiert, damit sendmail bei einkommender Mail die Mailboxen der Nutzer schreiben kann.
m1 und m2 sind über ein lokales (privates) Netz verbunden, über das die NFS-Kommunikation abgewickelt wird.

Genau diese NFS-Kommunikation ist seit dem 3.7. stark gestört. Zugriffe über NFS auf eine Mailbox dauern zum Teil mehrere Minuten.
Als Folge davon werden Mails nur mit sehr starker Verzögerung ausgeliefert, und es stauen sich immer mehr Mails auf m1 an.

Die Ursache davon scheint ein Bug im Betriebssystem Solaris 10 zu sein, das auf den beiden Servern läuft. Eine Reihe von Mitarbeitern sucht seit dem 3.7. intensiv nach dem Bug; bisher leider ohne Erfolg. Die Fehlersuche ist schwierig, da der Fehler nur unter hoher Last auftritt.

Als (eigentlich unbefriedigende, aber sicher wirksame) Notlösung ist geplant, die Serverdienste auf einem Server zusammenzuführen; eine Lastverteilung ist dann eben nicht mehr gegeben. Zuvor soll noch die neueste Solaris-10-Version (6/06) auf den beiden Servern installiert werden. Diese lief bis gestern abend in einer Testinstallation noch nicht korrekt, scheint nun aber doch in Ordnung zu sein.

WeitereInformationen (last edited 2008-02-18 13:45:52 by localhost)