Annonce

#1 2019-02-06 09:37:31

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

[06/02/2019] Incident "rognon"

Bonjour,

Nous avons constater un incident sur l'hôte "rognon" le 6 Février, 1h du matin.
Le serveur a subit un incident électrique, et perdu une partie des disques qui constituent son RAID.

Le technicien d'astreinte a alors changé le matériel impacté, et relancé le serveur.
Tout était, visuellement bon. (intégrité, uuid des disques, correspondance d'espaces disques et dates).
A la relance, nous avons été alerté par des demandes de support qu'un problème existait sur les données de certains hébergés : des informations anciennes étaient lues.

Après analyse, une partie de la nuit, nous avons constaté au niveau du chip RAID un melange des identifiants physiques de disques.
Un des disques de backups locaux, avant remontée sur les serveurs isolés d'archivages, était lu à la place de la production.

Nous avons donc reconstruit complètement le RAID impacté. La carte RAID a été changé dans la foulée.
L'ensemble des données doit être visible depuis ce matin 9h15 environ pour les hébergés impactés.

Nous faisons une remonté au constructeur du chip RAID, afin de voir avec lui s'il s'agit d'un bug sur les drivers, ou dans le chip lui même.
Auquel cas, un upgrade de son bios sera réalisé.

Bon à savoir :

- Les données bénéficient de recopies multiples,
- Si un incident existe sur les disques locaux, non réparable, nous disposons d'archivages journaliers sur des serveurs distants.

Quoi qu'il en soit et dans un tel incident, l'intégrité des données hébergées est assuré.
Malgrès le stress que peut constituer un tel cas, vous n'avez donc pas d'inquiétude à avoir.
Si cependant vous constatez la moindre erreur, merci d'informer le support à support@o2switch.fr de manière précise.

Cordialement
Equipe Technique

Hors ligne

#2 2019-02-06 11:30:55

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

Re : [06/02/2019] Incident "rognon"

Lors du redémarrage nocturne, le dernier kernel (noyau linux) a été chargé par le système. (comportement normal)
Il semble qu'un bug existe sur ce kernel officiel, dans la gestion des processus. L'incident disque peut être lié.

Nous avons rechargé un ancien kernel en rajoutant des patchs de sécurité et investiguons.
Si quelques ralentissements persistent, cela va disparaitre seul.

La situation générale doit être rétablie.

Cordialement
Equipe Technique

Hors ligne