【メモ】nvidia-smiがエラーを吐くようになったときの対処について

はじめに

こんにちは、がんがんです。
先日、UbuntuマシンにてDocker + GPUの環境を構築していきました。
gangannikki.hatenadiary.jp


本構築を行っている際に、nvidia-smiが上手く動かないエラーに遭遇しました。
本記事では、原因を特定し解決するまでのメモになっております。

問題

nvidia-container-toolkitをインストール => reboot実行後、nvidia-smiを実行。
すると、下記のようなエラーに遭遇しました。

$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running."


原因としては、再起動した際にUbuntuさんが最新のLinuxカーネルを選択していたことが原因でした。

過去にも同じようなことがあったような…

昨年の今頃、研究室のPCが起動しなくなり以下のようなメモを書きました。
gangannikki.hatenadiary.jp


このときも同様の問題に遭遇していました。

解決方法

1. GNU GRUB画面よりAdvanced options for Ubuntuを選択。
2. 1つ古いバージョンのLinuxカーネルを選択し、実行
3. uname -rコマンドを実行して、1つ前のバージョンになっていればOK

参考

qiita.com

おわりに

今回はnvidia-smi実行時のエラーに関する対処メモをまとめていきました。
意外と遭遇することがありそうなので、今後のために残しておきます。