QNAP RAID 5 : Changement d’un disque à chaud en images

RAIDDISQUES DURSQNAPSTOCKAGENAS

Un disque dur n’est pas indestructible, et au bout de quelques années de fonctionnement, il arrive parfois qu’il tombe tout simplement en panne, ou qu’il se dégrade progressivement en ayant de plus en plus de clusters défectueux pour que le système le déclare comme facteur à risque. Le système raid isole alors automatiquement le disque défectueux et fonctionne en mode dégradé, sauf s’il trouve un disque configuré en spare, auquel cas, il reconstruit automatiquement le raid avec le nouveau disque.

Pour la démonstration ci-dessous, nous partons sur un raid de 4 disques sans disque de spare.

Alors qu’il suffit de retirer le disque défectueux puis en réinsérer un autre quelques minutes plus tard pour que tout se reconstruise automatiquement, prenons le temps d’observer et de voir comment sont consignés les évènements dans le système.

  • Etape 1 : Constater et identifier le disque hors service

Il y a plein d’éléments qui confirment la mise hors service d’un disque par une baie raid.

Au delà de détailler tous les moyens d’alertes système que vous pouvez configurer (et il y en a), et si vous êtes physiquement éloigné du qnap, vous pouvez vérifier, cet état de disque principalement dans stockage et snapshots. Vous pouvez ainsi constater, sur la vue d’ensemble, qu’un disque est défectueux.

Le disque 3 est bien en situation anormale

On voit pertinemment aussi que le pool de stockage contenant le disque fonctionne en mode dégradé.

Cet état de fait se confirme en arrivant physiquement vers le qnap, avec une led disque qui est passée au rouge, pour bien identifier le disque défectueux

Alors, si vous n’avez pas de disque de rechange sous la main, il faut vite en commander un autre chez votre fournisseur préféré.
A réception du disque, je vous invite à noter ou photographier le numéro de série du disque pour l’enregistrer ultérieurement chez le constructeur et bénéficier de la garantie.

Numéro de série à enregistrer pour garantie

Quelques liens utiles pour Western Digital

Pour enregistrer un produit, il faut aller sur Enregistrement des produits WD mais attention, avec edge ou chrome, car j’ai rencontré des petits soucis avec firefox.

Se connecter à Western Digital

Se connecter à hotline Western Digital

Pour vérifier la garantie d’un disque Western Digital HS : Etat Garantie produits WD


  • Etape 2 - Changement de disque

Il faut aller sur le qnap, et extraire le disque défectueux

Au sortir du disque, le qnap émet deux bips longs et affiche le message disque éjecté.

Information qu’on peut retrouver dans les évènements du journal dans l’interface web.

Ensuite, il faut sortir l’ancien disque dans la cage du qnap et le remplacer par le nouveau

Pour insérer le nouveau disque, pousser doucement dans l’intérieur de la cage.

Puis clipser doucement la cage.

Le nouveau disque démarre, et au bout d’un petit temps, le qnap émet deux bips longs et affiche le nouveau disque. Le nouveau disque passe au vert


  • Etape 3 - Reconstruction du raid

La reconstruction du raid démarre automatiquement, on peut retrouver les informations dans le pool de stockage.

Ainsi que dans les tâches en arrière plan.

Vous pouvez modifier la vitesse de reconstruction

Attention, la reconstruction sollicite beaucoup les disques. Personnellement, j’ai prévu de suspendre les sauvegardes qui étaient planifiées et qui coïncidaient avec la reconstruction.

Voilà, au bout de quelques heures dont la durée varie en fonction de la taille de vos disques et de la vitesse de reconstruction que vous avez choisie, votre baie sera reconstruite et pourra de nouveau supporter la défection d’un de ses éléments.


INFORMATION IMPORTANTE


Si d’aventure, à l’étape 1, votre qnap, à l’entrée dans l’interface web, vous précise que le système de fichiers n’est pas propre (alors que le raid est bien en mode dégradé), il est préférable d’effectuer cette vérification APRES le remplacement du disque, et une fois que la reconstruction terminée. ( et donc que le RAID est Sain ).

Par cette vérification, avec l’aide des metadata du pool, les tables d’allocations sont vérifiées, corrigées. Cela est nécessaire dans le cas ou un volume n’est pas démonté correctement ( perte subite du RAID, coupure de courant, ... )

Portfolio