Skip to content

昇腾 NPU 环境检查

本平台的核心计算资源是华为昇腾 NPU。在开始深度学习实验之前,检查 NPU 驱动和固件是否正常工作是至关重要的一步。

1. 检查 NPU 状态

npu-smi 是昇腾的命令行工具,类似于 NVIDIA 的 nvidia-smi,用于监控和管理 NPU 设备。

请在终端中运行以下命令:

bash
npu-smi info

如果环境正常,你将看到类似以下的输出,其中包含了 NPU 的型号、驱动版本、固件版本以及每张卡的健康状况和利用率。

text
+------------------------------------------------------------------------------------------------+
| npu-smi 21.0.2.1                  Version: 21.0.2.1                                        |
+---------------------------+---------------+----------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Hugepages-Usage(page) |
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)         |
+===========================+===============+====================================================+
| 0     310P                | OK            | 32.2        45                0                     |
| 0                         | 0000:D8:00.0  | 0           843 / 8192        0 / 32768            |
+===========================+===============+====================================================+
| 1     310P                | OK            | 31.8        44                0                     |
| 0                         | 0000:D9:00.0  | 0           843 / 8192        0 / 32768            |
+===========================+===============+====================================================+

常见问题

如果命令执行失败或 Health 状态显示为 Fault,请立即联系指导老师或管理员。

2. 激活 CANN 环境

CANN (Compute Architecture for Neural Networks) 是昇腾的异构计算架构。要使用 PyTorch 或 TensorFlow 等框架在 NPU 上进行训练,你必须先激活 CANN 的环境变量。

执行以下命令:

bash
source /usr/local/Ascend/ascend-toolkit/set_env.sh

为了方便,我们建议你将这行命令添加到你的 ~/.bashrc 文件中,这样每次登录时它都会自动执行。

bash
echo 'source /usr/local/Ascend/ascend-toolkit/set_env.sh' >> ~/.bashrc
source ~/.bashrc

现在,你的环境已经准备好,可以开始进行深度学习实验了。