DGX SPARK 系统恢复

EightPoint
EightPoint
管理员
71
文章
0
粉丝
数智硬件评论2字数 384阅读1分16秒阅读模式

这个AI主机是深度定制系统,更改了软件源升级系统,最后导致系统级环境破坏,只能重装恢复。DGX 不是普通服务器,不能随便 apt install nvidia-driver必须用 NVIDIA 官方镜像或驱动包文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

nvidia-smi命令验证,文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

结果1:nvidia-smi: command not found(没装 NVIDIA 驱动 / 工具链)文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

结果2:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver(驱动装了,但没启动(或内核不匹配))。文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

不管哪种结果,你的 GPU 根本没被系统正确识别或驱动没起来,这会直接导致你现在的 模型实际上很可能在 CPU跑(性能大幅下降)。文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

很可惜反缋的是结果2,驱动“存在但没在工作”(不是没装,是“通信失败”),系统环境已经“被破坏”。文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

接下来必须做一次标准初始化(重置系统),文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

🔧 你需要准备:文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

1️⃣ 一台电脑(Mac也可以)文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

2️⃣ 一个U盘(≥16GB)文章源自八点运动-https://www.8oio.com/dgx-spark-%e7%b3%bb%e7%bb%9f%e6%81%a2%e5%a4%8d/528/

🔧 步骤2:制作启动盘

diskutil list 命令列出磁盘,

diskutil eraseDisk FAT32 DGX_USB MBRFormat /dev/diskX 格式化对应磁盘

解压后文件夹

右键-服务-终端窗口打开,输入:sudo bash CreateUSBKeyMacOS.sh命令,并输入电脑登陆密码后按提示操作。

系统恢复盘制作中

制作完成后插入主机,开机,按DEL键进入Aptio Setup设置界面,找到BOOT栏,有一个DGX OS Recovery选项,进入选择U盘重启。

自动进入恢复,并选择重启。

重启时拔除U盘进入出厂设置阶段即可。