Freebox Server (Ultra V9/ Pop V8/ Delta V7 / Revolution V6 / Mini 4K)

  • État Fermée
  • Pourcentage achevé
    100%
  • Type Anomalie
  • Catégorie Matériel
  • Assignée à Personne
  • Système d'exploitation Freebox Server V7 (Delta)
  • Sévérité Haute
  • Priorité Très Basse
  • Basée sur la version A PRECISER
  • Due pour la version Non décidée
  • Échéance Non décidée
  • Votes
  • Privée
Concerne le projet: Freebox Server (Ultra V9/ Pop V8/ Delta V7 / Revolution V6 / Mini 4K)
Ouverte par ab34430 - 24/05/2021
Dernière modification par aastier - 26/05/2021

FS#34915 - Pb disque en raid5

Bonjour,
un des disque du raid 5 (4 disque de 2TO) est déclaré comme défaillant.
Sur un PC linux, il est lisible

[yul@nx0030 ~]$ sudo mdadm --examine /dev/sdd
/dev/sdd:
          Magic : a92b4efc
        Version : 1.1
    Feature Map : 0xb
     Array UUID : 6f548dd2:2f898c4c:a4640860:88c3b8be
           Name : Freebox
  Creation Time : Sun Jan 20 16:00:31 2019
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3907028912 (1863.02 GiB 2000.40 GB)
     Array Size : 5860445184 (5588.96 GiB 6001.10 GB)
  Used Dev Size : 3906963456 (1862.99 GiB 2000.37 GB)
    Data Offset : 256 sectors
   Super Offset : 0 sectors
Recovery Offset : 354622192 sectors
   Unused Space : before=184 sectors, after=65456 sectors
          State : clean
    Device UUID : ab472b62:0cdbbea9:ffa7ffe8:f0691e96

Internal Bitmap : 8 sectors from superblock
    Update Time : Mon May 17 22:50:16 2021
  Bad Block Log : 512 entries available at offset 16 sectors - bad blocks present.
       Checksum : 7bc6eb8a - correct
         Events : 257026

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

J’ai essayé de le retirer du raid, de le ré-intégrer sans succès.
Help needed. Pouvez vous faire les commandes mdadm pour remettre le disque ou confirmer qu’il est bien en erreur.

Version à jour, 4.3.3

Fermée par  aastier
26.05.2021 15:09
Raison de la fermeture :  Résolu
docmarc a commenté le 24.05.2021 15:39

peut-être que S.M.A.R.T. renvois un code d’erreur qui le rejette de la grappe raid qui n’est pas vue avec mdadm

que disent les infos d’un S.M.A.R.T plus complet du HDD ?

https://en.wikipedia.org/wiki/Comparison_of_S.M.A.R.T._tools

cela m’est arrivé plusieurs fois sur différent serveur qu’un disque soit déclarer défectueux et pourtant lisible sur un pc
parfois il faut changer le HDD sans vraiment comprendre pourquoi ?


											
ab34430 a commenté le 24.05.2021 16:27

Merci pour votre réponse. Le pb, est que je ne parviens pas à virer ce disque du raid 5 via Freebox OS.
Le brut/force peut marcher, j’ai un backup, je flingue le raid et je le refait, mais bon, c’est un peu limite.
Avec un accès à mdadm, je pourrais tenter plus de chose.

docmarc a commenté le 24.05.2021 16:29

cela correspond t-il a ton probleme

https://ubuntuforums.org/showthread.php?t=884556

ab34430 a commenté le 24.05.2021 16:36

Je peux essayer de mettre le super block à zéro et remettre dans le raid et voir ce que Freebox OS pourra en faire.
Mais avant ça, je vais récupérer le disque et regarder avec smart, et voir ce que ça retourne
Encore merci.

Admin
aastier a commenté le 26.05.2021 13:47
J’ai essayé de le retirer du raid, de le ré-intégrer sans succès.

Quelles actions avez vous fait, menant à quelle message d’erreur ?

Les infos SMART seraient intéressantes. Ici, mdadm indique la présence de bad blocks, mais on en sait pas plus. Les compteurs d’erreurs de lecture/écriture sont égalements affichés pour chaque disque dans Freebox OS.

ab34430 a commenté le 26.05.2021 13:55

Bonjour,
la manip est retirer le disque en erreur et le ré-intégrer (les seules options dispo pour gérer le raid depuis Freebox OS).
Lors de l’ajout, Freebox OS semble reconstruire, ça évolue jusqu’à 4 voire 5% puis Freebox OS commence à remonter des 503 sur les requêtes http via l’admin, et à la fin ça sort en erreur.

Je viens de ré-essayer de remettre le disque (car il est toujours dans la box), et là j’ai de suite.
Erreur RAID : Echec lors de l’‘ajout des disques désynchronisés

Ok, promis, faut que je le retire pour regarder avec SMART.

Admin
aastier a commenté le 26.05.2021 13:57

Pourriez-vous me donner l’adresse MAC de votre Freebox Server ?

ab34430 a commenté le 26.05.2021 14:38

Donc smart semble remonter des erreurs sur le disque

[yul@nx0030 ~]$ sudo smartctl -a /dev/sdc
smartctl 7.2 2021-01-17 r5171 [x86_64-linux-5.12.6-300.fc34.x86_64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate FireCuda 2.5
Device Model:     ST2000LX001-1RG174
Serial Number:    WDZFBYBJ
LU WWN Device Id: 5 000c50 0bac57cbf
Firmware Version: SDM1
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Wed May 26 16:16:10 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                was never started.
                                Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                without error or no self-test has ever 
                                been run.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x71) SMART execute Offline immediate.
                                No Auto Offline data collection support.
                                Suspend Offline collection upon new
                                command.
                                No Offline surface scan supported.
                                Self-test supported.
                                Conveyance Self-test supported.
                                Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                power-saving mode.
                                Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 326) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3035) SCT Status supported.
                                SCT Feature Control supported.
                                SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   051   047   006    Pre-fail  Always       -       222426572
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   092   092   020    Old_age   Always       -       9197
  5 Reallocated_Sector_Ct   0x0033   078   078   036    Pre-fail  Always       -       14232
  7 Seek_Error_Rate         0x000f   076   060   045    Pre-fail  Always       -       41206186
  9 Power_On_Hours          0x0032   080   080   000    Old_age   Always       -       18089 (75 246 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       227
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   098   098   000    Old_age   Always       -       2
188 Command_Timeout         0x0032   098   097   000    Old_age   Always       -       30068834366
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   032   040    Old_age   Always   In_the_past 30 (0 108 33 30 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       1
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       51
193 Load_Cycle_Count        0x0032   093   093   000    Old_age   Always       -       15911
194 Temperature_Celsius     0x0022   030   068   000    Old_age   Always       -       30 (0 14 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       5548h+16m+42.993s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3564410140
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       7889809597
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 3
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 3 occurred at disk power-on lifetime: 14196 hours (591 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 88 77 56 03  Error: WP at LBA = 0x03567788 = 55998344

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 00 00 81 56 43 00      00:29:48.602  WRITE FPDMA QUEUED
  61 00 e0 20 7c 56 43 00      00:29:48.602  WRITE FPDMA QUEUED
  60 00 50 00 85 56 43 00      00:29:48.602  READ FPDMA QUEUED
  61 00 00 ff ff ff 4f 00      00:29:48.593  WRITE FPDMA QUEUED
  60 00 d0 50 77 56 43 00      00:29:48.593  READ FPDMA QUEUED

Error 2 occurred at disk power-on lifetime: 13652 hours (568 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 a8 76 30 04  Error: UNC at LBA = 0x043076a8 = 70284968

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 a0 77 30 44 00      00:30:01.890  READ FPDMA QUEUED
  60 00 08 98 77 30 44 00      00:30:01.889  READ FPDMA QUEUED
  60 00 08 90 77 30 44 00      00:30:01.887  READ FPDMA QUEUED
  60 00 08 88 77 30 44 00      00:30:01.886  READ FPDMA QUEUED
  60 00 08 80 77 30 44 00      00:30:01.885  READ FPDMA QUEUED

Error 1 occurred at disk power-on lifetime: 13652 hours (568 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 a8 76 30 04  Error: UNC at LBA = 0x043076a8 = 70284968

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 e8 18 76 30 44 00      00:29:57.375  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:29:57.366  READ FPDMA QUEUED
  60 00 38 ff ff ff 4f 00      00:29:57.360  READ FPDMA QUEUED
  60 00 f0 ff ff ff 4f 00      00:29:57.360  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:29:57.358  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

J’ai tenté un benchmark du disque avec gnome-disks, ca bloque à 20%

Je n’ai jamais trop joué avec le raid, je peux reformarter le disque/raz master block et le remettre dans la box ?

[yul@nx0030 ~]$ sudo fdisk /dev/sdc

Welcome to fdisk (util-linux 2.36.2).
Changes will remain in memory only, until you decide to write them.
Be careful before using the write command.

The device contains 'linux_raid_member' signature and it will be removed by a write command. See fdisk(8) man page and --wipe option for more details.

Device does not contain a recognized partition table.
Created a new DOS disklabel with disk identifier 0x23de8dd6.

Command (m for help): 

Please advise

Admin
aastier a commenté le 26.05.2021 14:40

Le mieux reste de changer de disque lorsqu’il commence à mourir.

ab34430 a commenté le 26.05.2021 14:45

Ok, je vais essayer de le récupérer, au pire, je ferai marcher la garantie.
Sinon, niveau Freebox OS, comment cela va se passer (bien je suppose). Actuellement, il me dit un disque manquant, si je rajoute celui là réparé ou un neuf, il sait retomber sur ses pattes ?

Admin
aastier a commenté le 26.05.2021 14:51

Oui, il est possible de supprimer les disques manquants, pour ensuite en rajouter un autre, neuf.

docmarc a commenté le 26.05.2021 15:01

bonne nouvelle il est encore sous garantie

Votre produit

  SSD hybride FireCuda 2.5

Référence du modèle

  ST2000LX001

Numéro de série

  WDZFBYBJ

Garantie valide jusqu’au 26 octobre 2023

https://www.seagate.com/fr/fr/support/warranty-and-replacements/

Chargement...

Activer les raccourcis clavier

Liste des tâches

Détails de la tâche

Édition de la tâche