Appearance
昇腾 NPU 环境检查
本平台的核心计算资源是华为昇腾 NPU。在开始深度学习实验之前,检查 NPU 驱动和固件是否正常工作是至关重要的一步。
1. 检查 NPU 状态
npu-smi 是昇腾的命令行工具,类似于 NVIDIA 的 nvidia-smi,用于监控和管理 NPU 设备。
请在终端中运行以下命令:
bash
npu-smi info如果环境正常,你将看到类似以下的输出,其中包含了 NPU 的型号、驱动版本、固件版本以及每张卡的健康状况和利用率。
text
+------------------------------------------------------------------------------------------------+
| npu-smi 21.0.2.1 Version: 21.0.2.1 |
+---------------------------+---------------+----------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page) |
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |
+===========================+===============+====================================================+
| 0 310P | OK | 32.2 45 0 |
| 0 | 0000:D8:00.0 | 0 843 / 8192 0 / 32768 |
+===========================+===============+====================================================+
| 1 310P | OK | 31.8 44 0 |
| 0 | 0000:D9:00.0 | 0 843 / 8192 0 / 32768 |
+===========================+===============+====================================================+常见问题
如果命令执行失败或 Health 状态显示为 Fault,请立即联系指导老师或管理员。
2. 激活 CANN 环境
CANN (Compute Architecture for Neural Networks) 是昇腾的异构计算架构。要使用 PyTorch 或 TensorFlow 等框架在 NPU 上进行训练,你必须先激活 CANN 的环境变量。
执行以下命令:
bash
source /usr/local/Ascend/ascend-toolkit/set_env.sh为了方便,我们建议你将这行命令添加到你的 ~/.bashrc 文件中,这样每次登录时它都会自动执行。
bash
echo 'source /usr/local/Ascend/ascend-toolkit/set_env.sh' >> ~/.bashrc
source ~/.bashrc现在,你的环境已经准备好,可以开始进行深度学习实验了。
