解消済み: NVIDIA MPSの利用中止のお願い (node_f以外)

2024-09-25

下記お知らせでご案内しておりました、NVIDIA MPSに起因する、他のユーザのGPU利用を阻害する事象に対して回避策を適用いたしました。

本日より、node_f 以外の資源 (node_h, node_q, node_o, gpu_1, gpu_h) においてもNVIDIA MPSを問題なくお使いいただけます。

なお、MPS利用時に環境変数 CUDA_MPS_PIPE_DIRECTORY を設定するよう紹介されているサイトがありますが、本不具合の原因となるため、TSUBAME4上では当該環境変数を変更しないようにしてください。

2024-07-03

TSUBAMEの計算ノードの一部を利用する際に、NVIDIAのMPS(Multi-Process Service)を起動すると、同じ計算ノードを共有するユーザからGPUが利用できなくなることが判明いたしました。

対処法が明らかとなるまでの当面の間は、node_f以外の資源(node_h, node_q, node_o, gpu_1, gpu_h)を利用する際にはMPSを使用しないようお願い申し上げます。また、そのようなジョブにつきましては、予告なく管理者権限で削除させていただきますのでご了承ください。