Gestion panne disque sur SynologyCluster

 


 

05/04/2019 Détection du problème:

On observe une lenteur dans les opérations création de terminaux, complétion (<TAB>) en commande ligne et lenteur en général.

 


 

Points d'analyse

Alors la complétion (<TAB>)est lente sur les directories "système" (home, $TDATA, $THOME,...) elle est instantanée sur les disques locaux des LCUs.

le login ssh admin@10.10.132.101 (SynologyCluster) permet avec la commande top, puis option 1 de voir le comportement du serveur de disque.

Alors que normalement une machine est souvent iddle, on voit que les 4 coeurs ont souvent un pourcentage tres bas, voir 0% de iddle. La colonne wa (I/O wait) montre aussi de taux de blocage élevé.

La page web du synology (10.10.132.101:5000) donne un système en bonne santé, par contre les log donnent une déconnexion du disque 2 et reconnexion. Dans le StorageManager utility, on voit le disque 2 faisant du scrubbing, mais avec un lenteur extreme.

 


 

L'analyse

Lorsqu'on déconnecte un disque et qu'on le reconnecte, le système le reconstruit (scrubbing). Dans notre cas (hypothèse) le disque a eu une panne qui a eu le même comportement qu'une déconnexion/reconnexion. Le système a tenté de le reconstruire mais visiblement la panne a perturbé cette reconstruction et perturbé le système entier.

 


 

Réparation

Comme la panne a eu lieu sur le disque actif, nous avons procédé à un switchover (dans le HighAvaibilityManager->Cluster->Manage) pour que le serveur actif (avec panne) passe en serveur passif.

Ensuite, remplacement (hot swap) du disque fautif. La reconstruction du disque remplacé se fait au travers du site du SynologyServer avec une action explicite dans le HighAvaibilityManager.

La reconstruction dure environ 15h, la progression se voit dans le HighAvaibilityManager->Storage->Volume

 


 

Conclusion

En cas de lenteur du système, observer le système avec la commande top (option 1), en cas de I/O wait excessif (%wa), regarder les fichiers de log sur le synologyCluster. Si un disque a eu une déconnexion et s'il est en scrubbing, il semble préférable de lechanger immédiatement.

 

 

Luc+Bruno