诊断收集 nvidia 显卡信息的脚本
#!/bin/bash
# 输出文件名(带时间戳)
LOGFILE="nvidia_diag_$(date +%Y%m%d_%H%M%S).log"
echo "🚀 开始收集 NVIDIA GPU 诊断信息..." | tee $LOGFILE
echo -e "\n📅 当前时间:" | tee -a $LOGFILE
date | tee -a $LOGFILE
echo -e "\n📦 内核版本:" | tee -a $LOGFILE
uname -r | tee -a $LOGFILE
echo -e "\n💾 NVIDIA 驱动版本:" | tee -a $LOGFILE
modinfo nvidia | grep -i version | tee -a $LOGFILE
echo -e "\n🖥️ GPU 列表 (nvidia-smi):" | tee -a $LOGFILE
nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total,driver_version --format=csv | tee -a $LOGFILE
echo -e "\n🔌 lspci 列出所有 NVIDIA 设备:" | tee -a $LOGFILE
lspci | grep -i nvidia | tee -a $LOGFILE
echo -e "\n🔍 查看指定 GPU 的详细 PCIe 信息 (0000:17:00.0):" | tee -a $LOGFILE
lspci -v -s 0000:17:00.0 | tee -a $LOGFILE
echo -e "\n🔍 查看指定 GPU 的详细 PCIe 信息 (0000:18:00.0):" | tee -a $LOGFILE
lspci -v -s 0000:18:00.0 | tee -a $LOGFILE
echo -e "\n🔍 查看指定 GPU 的详细 PCIe 信息 (0000:65:00.0):" | tee -a $LOGFILE
lspci -v -s 0000:65:00.0 | tee -a $LOGFILE
echo -e "\n🪵 dmesg 中的 NVIDIA 日志:" | tee -a $LOGFILE
dmesg | grep -i nvidia | tee -a $LOGFILE
echo -e "\n✅ 完成!诊断日志已保存至: $LOGFILE"
发表评论