Télécharger Imprimer la page

Lenovo ThinkSystem SD650 Guide De Maintenance page 450

Masquer les pouces Voir aussi pour ThinkSystem SD650:

Publicité

Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l'événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le
journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs
GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.
1. Vérifiez si le resynchroniseur présente une température trop élevée d'après un événement XCC. Si oui,
vous pouvez ignorer l'étape suivante.
2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (
datacentersupport.lenovo.com/products/servers/thinksystem/SD650v2
microprogramme.
3. Redémarrez le système, puis exécutez le contrôle d'intégrité ipmi (voir
de la carte GPU » à la page
4. Si l'événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des
événements XCC Web, cela signifie que le problème a été résolu.
Toutefois, si le problème persiste, procédez comme suit.
a. Consultez le journal des événements XCC Web pour identifier l'unité défectueuse et le type de
problème (voir
« Spécifications du détecteur de GPU XCC » à la page
b. Collectez les données de maintenance XCC (voir
448).
c. Exécutez nvidia-smi pour obtenir un diagnostic (voir
management-interface
d. Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
e. Contactez le service de maintenance Lenovo.
Spécifications du détecteur de GPU XCC
Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau
suivant pour identifier l'unité défectueuse et le type de problème. Par exemple :
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
Tableau 45. Spécifications du détecteur de GPU XCC
Nom du détecteur
Numéro de détecteur
Type de détecteur
Type de mesure du détecteur
ID d'entité
Instance/type
Assertions consignées par le
Processeurs
journal SEL
de GPU
Annulations consignées par le
journal SEL
Annulations de seuils
Requête de voyant allumé en
cas d'assertion
F = Voyant de défaillance
442
Plateaux ThinkSystem SD650 V2/SD650-N V2 Neptune DWC et Boîtier DW612 Neptune DWC Guide de maintenance
440).
pour plus de détails)
EAh
17h
07h
0Bh
02h
02h
02h
02h - F
), puis mettez à jour le
« Contrôle d'intégrité des GPU et
442).
« Collecte des données de maintenance » à la page
https://developer.nvidia.com/nvidia-system-
Données
02h - Passage d'un état moins grave à l'état critique
Evt Data2 :
B0h : Alerte thermique
BBh : État de présence et d'alimentation
B1h : Informations sur les interruptions GPU
21h : État de la liaison PCIe
E0h : Décompte GPU à partir du SMBIOS
Evt Data3 :
XXh : Index CORE GPU, 01h : cœur 1
07h : cœur 3 + cœur 4
https://

Publicité

loading

Ce manuel est également adapté pour:

Thinksystem sd650-n7d1m7d1n7d1l