【メモ】nvidia-smiがエラーを吐くようになったときの対処について
はじめに
こんにちは、がんがんです。
先日、UbuntuマシンにてDocker + GPUの環境を構築していきました。
gangannikki.hatenadiary.jp
本構築を行っている際に、nvidia-smi
が上手く動かないエラーに遭遇しました。
本記事では、原因を特定し解決するまでのメモになっております。
問題
nvidia-container-toolkitをインストール => reboot実行後、nvidia-smi
を実行。
すると、下記のようなエラーに遭遇しました。
$ nvidia-smi NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running."
過去にも同じようなことがあったような…
昨年の今頃、研究室のPCが起動しなくなり以下のようなメモを書きました。
gangannikki.hatenadiary.jp
このときも同様の問題に遭遇していました。
解決方法
1. GNU GRUB画面よりAdvanced options for Ubuntuを選択。
2. 1つ古いバージョンのLinuxカーネルを選択し、実行
3. uname -r
コマンドを実行して、1つ前のバージョンになっていればOK
参考
おわりに
今回はnvidia-smi実行時のエラーに関する対処メモをまとめていきました。
意外と遭遇することがありそうなので、今後のために残しておきます。