服务器gpu状态怎么查？nvidia-smi命令详解

时间：2026-03-16 来源：祺云SEO

服务器查看GPU核心命令与深度应用指南

核心结论：在Linux服务器环境中，nvidia-smi(NVIDIASystemManagementInterface)是查看和管理NVIDIAGPU状态的最权威、最全面的命令行工具，通过熟练使用其命令及参数，管理员可精准掌握GPU使用率、显存占用、温度、功耗、进程详情等核心指标，并执行基础管理操作，对于非NVIDIAGPU或特定场景，需选用rocm-smi、dcgmi或操作系统原生工具。

NVIDIAGPU核心命令：nvidia-smi详解

nvidia-smi是NVIDIA官方提供的标准管理工具，预装于GPU驱动中。

基础状态概览：
nvidia-smi
- 输出解读：
  - GPU:GPU实例编号(0,1,2…)。
  - Fan:风扇转速百分比。
  - Temp:GPU核心温度(摄氏度)。
  - Perf:性能状态(P0-P12,P0为最高性能)。
  - Pwr:Usage/Cap:当前功耗/最大设计功耗(瓦特)。
  - Memory-Usage:显存使用量/总可用显存。
  - GPU-Util:GPU计算核心利用率百分比。
  - ComputeM:GPU当前运行的计算模式。
  - Processes:占用该GPU的进程列表(PID,进程名,占用显存)。
关键高级参数与应用：
- 持续动态监控(类似top):
  nvidia-smi-l[间隔秒数]#示例：每2秒刷新一次nvidia-smi-l2
- 查询GPU详细信息(型号、UUID、电源等):
  nvidia-smi-q#更精准查询特定GPU(如GPU0)nvidia-smi-q-i0
- 监控特定指标(自动化脚本常用):
  nvidia-smi--query-gpu=timestamp,name,utilization.gpu,utilization.memory,memory.used,memory.total,temperature.gpu,power.draw--format=csv
  输出为易解析的CSV格式,便于集成到监控系统(如Zabbix,Prometheus)。
- 查看GPU拓扑与NVLink信息：
  nvidia-smitopo-m
- 设置GPU计算模式(需管理员权限):
  nvidia-smi-i-c#示例：将GPU0设置为独占进程模式(Exclusive_Process)nvidia-smi-i0-c3

替代与增强工具

NVIDIADataCenterGPUManager(DCGM):
- 定位：企业级GPU集群监控管理工具，功能远超nvidia-smi。
- 核心命令：dcgmi
- 优势：
  - 低开销、持续监控整个集群所有GPU。
  - 提供丰富API,深度集成到HPC/AI调度和监控平台。
  - 支持策略设置、健康检测、主动告警。
  - 提供详细性能计数器分析。
- 基础查看命令示例： dcgmidiscovery-l#列出系统内GPUdcgmidmon-i0#监控GPU0的关键指标
AMDROCmGPU管理：
- 核心命令：rocm-smi
- 功能类比：提供类似nvidia-smi的功能，用于AMDInstinct™等数据中心GPU。
- 常用命令： rocm-smi#基础概览rocm-smi--showall#显示详细信息rocm-smi-d0-t#监控GPU0温度
操作系统原生工具：
- lspci:查看PCIe设备信息，确认GPU硬件是否被系统识别。 lspcigrep-ivga#或grep-invidia/grep-iamd
- gpustat(Python工具):提供更简洁、彩色的类nvidia-smi输出，常用在开发环境。pipinstallgpustat安装后运行gpustat。

容器环境中的GPU查看

容器内访问GPU同样依赖nvidia-smi，但需确保：

正确挂载驱动和工具：使用--gpus参数(Docker)或配置DeviceSet(KubernetesNVIDIADevicePlugin)。
容器内安装nvidia-utils：基础Docker镜像通常不包含nvidia-smi，需在Dockerfile中安装： FROMyour_base_imageRUNapt-getupdate&&apt-getinstall-y--no-install-recommendsnvidia-utils-<你的驱动版本号>
在运行中的容器内执行： dockerexec-itnvidia-smikubectlexec-it--nvidia-smi

专业运维实践建议

监控集成：将nvidia-smi或dcgmi的输出集成到企业监控系统(Prometheus+Grafana,Zabbix,Nagios等)，实现可视化告警。
性能瓶颈分析：结合GPU-Util和Memory-Usage判断瓶颈：
- 高GPU-Util+低Memory-Usage：计算密集型，优化代码或增加GPU资源。
- 低GPU-Util+高Memory-Usage：可能受限于显存容量或存在显存瓶颈。
- 低GPU-Util+低Memory-Usage：可能受限于CPU、IO或任务调度。
驱动与工具更新：定期更新NVIDIA驱动和DCGM版本，获取最佳性能、兼容性和新功能。
权限管理：生产环境限制普通用户直接运行nvidia-smi修改设置的能力，通过管理平台统一管控。

服务器GPU状态监控常见问答

Q1:通过nvidia-smi发现GPU利用率(GPU-Util)很低，但显存占用(Memory-Usage)很高，这通常意味着什么？如何排查？

A1:此现象常见于：
1. 显存瓶颈：模型或数据过大，GPU显存被大量占用用于存储参数和数据，但实际计算核心并未被充分利用。排查：检查模型大小、批处理大小(BatchSize)，尝试减小批处理大小或使用梯度累积；使用nvidia-smi查看具体哪个进程占用显存，分析其行为；考虑使用更大显存的GPU或模型并行/显存优化技术。
2. I/O或CPU瓶颈：数据加载速度（磁盘I/O）或CPU预处理速度跟不上GPU的计算速度，导致GPU长时间等待数据而空闲。排查：监控系统CPU使用率、磁盘I/O等待时间；优化数据加载管道（如使用更高效的数据格式、预加载、多进程加载）；升级CPU或使用更快的存储（如NVMeSSD）。
3. 任务调度问题：任务本身计算密度不高或存在大量同步等待。排查：分析应用代码性能瓶颈。

Q2:在多GPU服务器上，如何确保任务或进程准确地运行在指定的GPU上？

A2:主要有两种通用方法：
1. 设置环境变量CUDA_VISIBLE_DEVICES(适用于CUDA应用):
  - 在启动命令前设定该变量,值是需要使用的GPU索引号(从0开始)。
  - 示例(Bash):exportCUDA_VISIBLE_DEVICES=0,2#仅让程序看到GPU0和GPU2,此时程序内部会将它们视为编号0和1的新设备
  - 示例(命令行内):CUDA_VISIBLE_DEVICES=1pythonmy_script.py#指定脚本只在物理GPU1上运行
2. 使用--gpu/-i参数(取决于工具/框架):
  - 许多深度学习框架(如TensorFlow,PyTorch)或GPU管理工具的命令行接口支持直接指定GPU索引。
  - 示例(PyTorch代码内):torch.cuda.set_device(1)#设置默认使用GPU1
  - 示例(TensorFlow):使用tf.config.set_visible_devices和tf.config.experimental.set_memory_growth。

掌握核心的nvidia-smi命令及其丰富参数，结合dcgmi等专业工具，是高效运维GPU服务器、保障AI/HPC业务稳定运行的基石，您在GPU监控管理中遇到了哪些具体挑战？欢迎分享交流！

上一篇：服务器IO高老是卡死怎么办？，服务器高IO卡死排查方法？

下一篇：服务器控制管理员密码是什么，如何修改服务器管理员密码

热门新闻

AIoT直播间是什么？AIoT直播间怎么进入观看
AIoT直播间正在重塑物联网产业的商业交互逻辑,其核心价值在于通过实时音视频技术打破硬件孤岛，实现了“人、货、场”在智能生态中的精准匹配与高效转化，这不仅是销售渠道的升级，更是物联网技术落地应用的最直观体现，为企业提供了从产品展示到远程运维的全链路数字化解决方案，技术架构重构交互体验AIoT直播间并非传统电商直……...
Hiawatha防护能力如何？安全优先设计测评热点
Hiawatha HTTP服务器以其“安全优先”的核心设计理念，在开源Web服务器领域建立了独特的技术壁垒，本次深度测评基于v11.8稳定版，在双路Intel Xeon Silver 4310环境（CentOS Stream 9）展开72小时压力测试,解析其安全架构与商业应用价值，安全防护机制深度解析Hiawa……...
国内大数据产业发展现状如何？2026年最新趋势深度解析
驱动数字化转型的核心引擎中国大数据产业已成为推动经济社会高质量发展的核心动力,在政策强力推动、技术持续突破与市场需求爆发的共同作用下，产业规模持续高速扩张，应用场景深度渗透，展现出巨大活力与潜力，当前产业正处于从技术驱动迈向价值创造的关键跃升期，产业规模持续扩张，生态体系日臻完善市场体量高速增长：国内大数据……...
国外独立IP虚拟主机哪个好，独立IP虚拟主机有什么优势？
对于致力于拓展海外市场的企业及开发者而言，选择国外独立IP虚拟主机是确保网站长期稳定运行、提升搜索引擎信任度以及保障数据安全的关键决策，与传统的共享IP主机相比，独立IP方案能够从根本上解决因“邻居”网站违规而导致的连带封禁风险，并为SSL证书的部署提供更便捷的环境,是外贸建站和跨境业务的理想基础设施，核心优势……...
服务器查看文件命令？Linux服务器如何查看文件内容，查看服务器文件命令
在服务器管理中,高效、安全地查看文件是IT运维的核心技能，直接影响系统稳定性、安全性和故障排查效率，忽视这一环节可能导致数据泄露、性能瓶颈或服务中断，因此掌握专业方法至关重要，以下分层解析服务器文件查看的实践方案，为什么服务器文件查看如此重要？服务器文件存储着关键数据如配置、日志和应用代码，是系统运行的基石，日……...
Oracle开发常见问题？Oracle开发手册详解指南
Oracle开发实战指南Oracle数据库开发的核心在于高效、安全地实现数据价值，融合SQL优化、PL/SQL设计与架构思维，构建稳定可靠的企业级应用系统，开发环境高效配置精准选型与安装依据应用需求（OLTP/OLAP）选择Enterprise Edition或Standard Edition，采用Oracl……...