一般¶
TSUBAME4.0とは何ですか¶
TSUBAME4.0は東京工業大学学術国際情報センター(GSIC)が運用管理するスーパーコンピュータです。
TSUBAME4.0 は半精度以上で 952 PFlops の理論演算性能を持ち,従来型 HPC に加えてビッグデータ・ AI など幅広いワークロードを処理する日本最大級のスパコンとなります。
TSUBAMEはどのような目的に利用できますか¶
TSUBAMEの利用は教育・研究・事務・社会貢献目的に限ります。私的な金銭的利益に直結するような用途に利用することはできません。
TSUBAME4.0を利用するための条件を教えてください。{ #conditions }¶
TSUBAME4.0の利用にはアカウントが必要です。
アカウントの種別は所属や利用する制度によって異なりますので、詳細についてはアカウント取得方法をご参照ください。
TSUBAME4.0利用までの流れについて¶
ここでいう「利用」はプログラムの実行のことを指します。
TSUBAME4.0を利用するまでに必要な主な作業は以下の通りです。
ログインだけであれば、2までの作業が完了すればログイン可能です。
利用には5までの作業が必要となります。
利用にあたって、25GiB以上のディレクトリの割り当てが必要な場合は6を行う必要があります。
- アカウント取得
- SSH鍵ペアの作成と公開鍵の登録
- グループの作成(グループ管理者)
- グループメンバの登録(グループ管理者とグループメンバ)
- TSUBAMEポイント購入(グループ管理者)
- グループディスクの設定(グループ管理者)
TSUBAMEを利用した論文での謝辞の記載方法を教えてください¶
謝辞の記載方法の文例は下記のページをご参照ください。
あくまでも例示ですので、他のスパコンや研究資金等の謝辞記載に合わせて記載を調整いただいても構いません。
また、TSUBAMEの活用状況を把握するため、TSUBAMEポータルから書誌情報などの利用成果報告もお願いいたします。 利用報告の投稿方法は、下記利用の手引きをご覧ください。
ログインノードと計算ノードの相違点¶
ログインノードと計算ノードの相違点は以下のとおりです。
ハードウェア
ログインノード | 計算ノード | |
---|---|---|
ノード数 | 2 | 240 |
CPU | AMD EPYC 7443 24-Core/2.85GHz x 2 | AMD EPYC 9654 96-Core/2.4GHz x 2 |
メモリ | 256GiB | 768GiB |
GPU | なし | NVIDIA H100 SXM5 × 4 |
ローカルストレージ | なし | 1.92TB |
ログインノードは、共有サーバであるため、CPUやメモリを過度に占有するプログラムの実行などは行わないようお願いします。
詳細は利用の手引きをご参照ください。
1ディレクトリ当たりのファイル数の目安を教えてください¶
1ディレクトリあたりのファイル数が多くなると、当該ディレクトリ配下のファイルに対するメタデータ操作(ファイルの作成・削除・オープン)の際に処理時間が増大したり、ファイルシステムがエラーを出すことでファイルを作れなくなるなどの事象が発生します。
プログラムのファイルアクセス性能の面でも不利になりますので、 グループディスクを利用する場合でも、多くとも1ディレクトリ当たり10万ファイルを下回るように、ファイルを階層的に配置することをお勧めいたします。
例:
- NG: 000000.dat ~ 999999.dat
- 1ディレクトリに100万ファイルをフラットに配置すると、ファイルアクセス時の負荷が増大し、性能低下・障害の原因になります。
- OK: 000/000000.dat ~ 000/000999.dat, 001/001000.dat ~ 001/001999.dat, …
- 階層的に配置することで、1ディレクトリ当たりのファイル数を1000程度に抑えることで、ファイルシステム操作のコストを最小化できます。
初心者なのですが、何をすればよいのかわかりません¶
何に対する初心者なのかによって学習して頂く内容が異なります。
UNIX/Linuxの初心者の方
TSUBAME4の利用に際して、ユーザにはUNIX/Linuxの習熟度を要求しております。
UNIX/Linuxについてある程度のことがわかっている前提で、手引書などは準備されております。
手引書の内容がわからない場合は、付属図書館等でUNIX/Linuxの入門図書を読んでいただき、シェルやコマンド等の使い方を把握して下さい。
一例として以下のような図書が付属図書館にあるようです。 司書の方におすすめを確認頂くのもよいかと思います。
- 入門Unix for OS X. 第5版
- 新しいLinuxの教科書
- 講習会 - TSUBAME利用法 入門編(Linux基礎) の資料も参考になるかと思います。
「端末」アプリケーションの操作についても様々な出版物があります。
ご利用のアプリケーションに合わせてご確認下さい。
UNIX/Linuxの操作ならびに関連する用語を把握し、利用手引きを一読したあとに以下の項目もご確認下さい。
スパコン利用の初心者の方
UNIX/Linuxを利用したことがあるが、ジョブスケジューラを利用したことがない方などを想定します。
TSUBAME4.0利用の手引きのジョブスケジューリングシステムをご確認下さい。
なお、TSUBAME4.0では定期的に利用講習会を実施しております。 講習会をご確認下さい。
また、講習会ページに掲載されている「TSUBAME利用法 入門編(Linux基礎)」「TSUBAME4.0利用者ガイダンス」も参考になるかと思います。
TSUBAME4.0の初心者の方
TSUBAME3.0の既存ユーザの方は、こちらにTSUBAME4.0の違いをまとめてありますので、ご覧下さい。
TSUBAME3.0からTSUBAME4.0への移行
また、講習会ページに掲載されている「TSUBAME4.0利用者ガイダンス」も参考になるかと思います。
コンパイラ初心者の方
UNIX/Linuxを利用したことがあるが、コマンドラインによるコンパイラを利用したことがない方などを想定します。
利用するコンパイラに合わせて、利用手引きのIntelコンパイラ,NVIDIA HPC SDK,AOCCのいずれかをご確認下さい。
また、Intelコンパイラを利用される方は講習会ページに掲載されている「並列プログラミング」も参考になるかと思います。
並列プログラミング(OpenMP,MPI)初心者の方
講習会ページに掲載されている「並列プログラミング」が参考になるかと思います。
GPUプログラミングの初心者の方
TSUBAME4.0では定期的に利用講習会を実施しております。 講習会のページをご確認下さい。
また、講習会ページに掲載されている「GPUプログラミング」「GPUプログラミング・ハンズオン」も参考になるかと思います。
商用アプリケーションの初心者の方
TSUBAME4.0では定期的に利用講習会を実施しております。 講習会のページをご確認下さい。
ファイル転送について¶
TSUBAME4.0ではrsync、scp、sftpによるファイル転送が可能です。ログイン同様、TSUBAMEポータルに登録したSSH公開鍵のペアとなるSSH秘密鍵を用いてアクセスする必要があります。
また、利用されているアプリケーションによってはタイムアウトになる場合もありますので、 ご利用されているアプリケーションの設定をよくご確認下さい。
- ファイル転送アプリケーションをインストールする場合 (Windows等)
- Linux/Mac/Cygwin(Windows)を使用している場合 (rsync, scp, sftpコマンド)
- CIFSによるアクセスを行う場合
ファイル転送アプリケーションをインストールする場合 (Windows等)¶
MobaXtermおよびRLoginを利用している場合、これらのソフトウェアにはファイル転送機能が組み込まれているため、そちらを利用するのが簡便です。
PuTTYなどこれら以外のソフトウェアを接続に利用している場合、FileZilla、WinSCPなどの、sftp, rsyncプロトコルに対応したファイル転送用アプリケーションをインストールする必要があります。
この場合でもログイン同様、TSUBAMEポータルに登録したSSH公開鍵のペアとなるSSH秘密鍵を用いてアクセスする必要があります。
Filezilla、WinSCPではPuTTYで普段使用している.ppk 形式の鍵ファイルがそのまま利用可能です。
各ソフトウェアの利用方法の詳細は各ソフトウェアのマニュアルを各自ご確認下さい。
また、Windows 10/11のオプション機能の OpenSSH クライアントを有効にすることで、コマンドプロンプトやPowerShellから次項のscp, sftpコマンドを使用することもできます。
Linux/Mac/Cygwin(Windows)を使用している場合 (rsync, scp, sftpコマンド)¶
これらの環境では rsync、scp、sftp の各コマンドが利用できます。 以下、それぞれの使い方について説明します。
rsyncの場合
ローカルからリモートホストに転送する場合は、以下のようなコマンドを実行して下さい。 鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。
$ rsync -av --progress -e "ssh -i <秘密鍵ファイル> -l <ログイン名>" <ローカルディレクトリ> <リモートホスト>:<リモートディレクトリ>
<>の部分は状況に適したものを入力してください。例えば、ログイン名がGSCIUSER00のユーザが秘密鍵の ~/.ssh/ecdsa を用いて、カレントディレクトリをTSUBAME4の/gs/bs/GSICにコピーする場合のコマンドは以下になります。
$ rsync -av --progress -e "ssh -i ~/.ssh/ecdsa -l GSICUSER00" ./ login.t4.gsic.titech.ac.jp:/gs/bs/GSIC
転送元や転送先の指定の仕方などの使用方法の詳細は以下のコマンドを実行して確認して下さい。
$ man rsync
scpの場合
リモートホストからローカルに転送する場合は、以下のようなコマンドを実行して下さい。鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。
$ scp -i <秘密鍵ファイル> <ログイン名>@<リモートホスト>:<リモートディレクトリ> <ローカルディレクトリ>
ログイン名がGSCIUSER00のユーザが秘密鍵の ~/.ssh/ecdsa を用いて、カレントディレクトリにTSUBAME4の/gs/bs/GSICをコピーする場合の例は下記のコマンドとなります。
$ scp -i ~/.ssh/ecdsa GSICUSER00@login.t4.gsic.titech.ac.jp:/gs/bs/GSIC .
オプションの詳細は以下のコマンドを実行して確認して下さい。
$ man scp
sftpの場合
インタラクティブに転送を行う場合は以下のようなコマンドを実行して下さい。鍵ペアの格納場所を標準のパス・ファイル名とした場合には-iオプションは指定不要です。
$ sftp -i <秘密鍵ファイル> <ログイン名>@<リモートホスト>
例えば、ログイン名がGSCIUSER00のユーザが秘密鍵の.ssh/ecdsaを用いて、TSUBAME4にアクセスする場合は下記のコマンドとなります。
$ sftp -i ~/.ssh/ecdsa GSICUSER00@login.t4.gsic.titech.ac.jp
オプションの詳細は以下のコマンドを実行して確認して下さい。
$ man sftp
CIFSによるアクセスを行う場合¶
また、学内端末に限りCIFSによるアクセスが可能です。 CIFSサーバは下記です。
\\gshs.t4.gsic.titech.ac.jp
詳細は 学内からのCIFSによるアクセス をご覧下さい。
TSUBAME内外で大容量データのコピーを行いたい¶
TSUBAMEとTSUBAME外の端末間で大容量のデータを転送したい場合以下をご確認ください。
ファイルを適切なサイズに固める¶
大量の小さなファイルは転送速度の低下を引き起こします。tarコマンドなどで、1GB程度に固めてから転送します。
接続プロトコルを見直す¶
scp/sftpでパフォーマンスが出ない場合は、rsyncや、CIFS(学内のみ)で接続すると速度が改善するかもしれません。
CIFSでの接続方法については、利用の手引き内、ストレージサービス(CIFS) を参照してください。
ネットワーク経路上のボトルネックを取り除く¶
- リンク速度が1000Mbpsを下回るような古いLANケーブル(CAT-3、CAT-5(5eを除く))、スイッチングハブ、ルータ等があれば高速な物に置き換える。
- ルータ(WiFiルータ,NATルータ,ブロードバンドルータなど)を利用してる場合、端末をルータ外のネットワーク(東工大の場合、131.112又は172.16~31で始まるIPアドレス)に直結する。
学内のネットワークの詳細については研究室のネットワーク管理者、不明な場合はその建物、組織毎の支線管理者にお問い合わせください。
(学内利用者のみ)演習室の教育用計算機システム端末(Windows)を利用する¶
ネットワーク構成変更が難しい場合、HDDをGSICに持ち込んで演習室の教育用計算機システム端末(Windows)に接続してデータを転送することもできます。ただし、利用時間が決められていますのでご注意ください。
TSUBAMEと手元マシン・研究室マシンでデータを同期するには¶
普段は、WinSCPなどのグラフィカルな操作(GUI)が可能なソフトウエアを利用するのが簡単かと思いますが、
大量のデータを一括で同期する場合は rsync コマンドの利用をご検討ください。
rsync コマンドの利点は差分だけを転送する点が挙げられます。
何らかの理由でファイル転送が中断した場合でも続きから再開できますし、一定期間後に再度実行すれば、内容の変更のあったファイルだけを転送できます。
コピー元から削除されたデータはコピー先でも削除して完全に同期することも可能です。
以下にコマンド例を示します。コマンドが途中で失敗している場合を考慮し、ログを確認したり、複数回実行するのが良いでしょう。
手元の端末のデータをTSUBAMEに同期する。
rsync -auv (コピー元のディレクトリ) (自分のログイン名)@login.t4.gsic.titech.ac.jp:(コピー先のディレクトリのフルパス)
TSUBAMEのデータを手元の端末に同期する。
rsync -auv (自分のログイン名)@login.t4.gsic.titech.ac.jp:(コピー元のディレクトリのフルパス) (コピー先のディレクトリ)
間違って実行してしまったプログラムの停止方法について¶
ログインノード等のプログラム実行を禁止しているノードで、プログラムを実行してしまった場合は以下の手順でプログラムを停止して下さい。
バッチジョブスケジューラに投入したジョブについてはFAQ「バッチジョブスケジューラに投入したジョブの停止方法について」をご確認下さい。
グループディスク内で他のメンバーが読み書きできるようにするには¶
Warning
本記事はグループディスク(/gs/bs, /bs/fs)に関してのものです、ホームディレクトリで以下のサンプルを実行しないでください。
利用者が自分のファイルのオーナーを変更することはできません。そのためグループパーミッションを変更して読み書きできるように設定してください。ポイントとしては、
- 一番上位のディレクトリだけではなく、ディレクトリ以下のすべてのファイル、ディレクトリも権限を変更すること。
- ファイルには読み込み(r)だけでなく書き込み(w)権限を追加すること。書き込み(w)がないと後で消去できません。
- ディレクトリには読み込み(r)だけでなく書き込み(w)と実行(x)も追加すること。実行(x)がないとディレクトリにアクセスできません。
以下にコマンド例を示します。ファイルの元々のパーミッションによってはエラーが出ることがあるため、その場合は出力が変わらなくなるまで再実行してみてください。
/gs/bs/tgX-XXXXXX/以下の自分のディレクトリを探してグループのメンバーが読み書き参照ができるようにする。
find /gs/bs/tgX-XXXXXX/ -type d -user $USER ! -perm -2770 -print0 | xargs -r0 chmod -v ug+rwx,g+s
/gs/bs/tgX-XXXXXX/以下の自分のファイルを探してグループのメンバーが読み書きできるようにする。
find /gs/bs/tgX-XXXXXX/ -type f -user $USER ! -perm -660 -print0 | xargs -r0 chmod -v ug+rw
/gs/bs/tgX-XXXXXX/以下の自分のファイルを探して所有グループをTSUBAMEグループに合わせる。
find /gs/bs/tgX-XXXXXX/ -user $USER ! -group (TSUBAMEグループ名) -print0 | xargs -r0 chgrp -v (TSUBAMEグループ名)
Module fileの基本構成について¶
Module fileの基本構成について記載します。
- [アプリケーション名]/[バージョン] となっています。
- module コマンドでバージョンまで指定しなくともデフォルトでloadされる版が設定されています。
複数のバージョンが存在する場合は、デフォルトのバージョンが load されます。
$ module avail cuda
---------------------
cuda/12.0.0 cuda/12.1.0 cuda/12.3.2
$ module list
Currently Loaded Modulefiles:
1) cuda/12.3.2
- MPIやアプリケーションなど依存関係があるものについては、自動的に load されます。
$ module load openmpi/5.0.2-intel
Loading openmpi/5.0.2-intel
Loading requirement: intel/2024.0.2 cuda/12.3.2
資源指定時のCPU/GPUの割り当てについて¶
AGEでは node_f を除き、指定した資源数に応じた仮想的なCPUID/GPUIDを割り当てます。
- CPU の場合
CPUを4つのみ確保する資源タイプの cpu_4 とCPUを8つ確保する資源タイプ cpu_8 を例にあげますと、 cpu_4=7 と指定を行った際は、ノードが7つ確保され、各ノードの 4core が割り当てられます。 cpu_8=7 と指定を行った際は、ノードが7つ確保され、各ノードの 8core が割り当てられます。
- GPU の場合
GPUを1つのみ確保する資源タイプの gpu_1 の場合は、gpu_1=4 と指定を行った際はノードが4つ確保され、各ノードのGPUが仮想的にGPU0として割り当てられます。 4つ確保したからといってGPU0,1,2,3ということにはなりません。
GPUを2個確保する資源タイプである node_h ではノード内でGPUが2割り当てられますが、この場合は GPU0,1が割り当てられます。
Linux/Mac/Windows(Cygwin・OpenSSH)でのSSH鍵ペアの作成方法¶
Warning
SSH秘密鍵が漏洩すると他人にアカウントを不正利用されることとなりますので、パスフレーズを必ず設定し、管理には細心の注意を払ってください。
Info
TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。
Linux/Mac/Windows(CygwinもしくはOpenSSH)でのSSH鍵ペア作成方法は以下のとおりです。
鍵の形式の違いについてはman ssh-keygenコマンドで確認してください。
インストールされているopensshのバージョンによって対応/未対応があります。
ecdsa鍵形式¶
$ ssh-keygen -t ecdsa
ed25519鍵形式¶
$ ssh-keygen -t ed25519
上記いずれかのコマンドを実行すると保存場所の指定を聞かれます。 既に同名の鍵ファイルを使用中などの事情がなければ、そのままEnterキーを押してください。 (他のサイト向けに作成したSSH鍵ペアをTSUBAMEで再利用することは問題ありません)
Generating public/private 実行したコマンドの鍵形式 key pair.
Enter file in which to save the key ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式: (何も入れずに)[Enter]
次にパスフレーズが聞かれますので、入力します。
Enter passphrase (empty for no passphrase): (設定するパスフレーズを入力・画面には表示されません) [Enter]
パスフレーズの確認が入りますので、入力します。
Enter same passphrase again: (上で設定したパスフレーズを再度入力・画面には表示されません) [Enter]
SSH鍵ペアが出力されます。上が秘密鍵、下が公開鍵です。TSUBAMEには公開鍵を登録ください。
our identification has been saved in ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式
Your public key has been saved in ユーザディレクトリ/.ssh/id_実行したコマンドの鍵形式 .pub.
The key fingerprint is:
SHA256:乱数:ユーザ@ホスト名
The key's randomart image is:
(鍵ペアに固有の情報が出力されます)
下記コマンドでファイルを確認します。
$ ls ~/.ssh/ -l
drwx------ 2 ユーザ グループ 512 Oct 6 10:50 .
drwx------ 31 ユーザ グループ 4096 Oct 6 10:41 ..
-rw------- 1 ユーザ グループ 411 Oct 6 10:50 秘密鍵
-rw-r--r-- 1 ユーザ グループ 97 Oct 6 10:50 公開鍵
パーミッションがあってない場合は以下のコマンドで修正します。
$ chmod 700 ~/.ssh
$ chmod 600 ~/.ssh/秘密鍵
PuTTY・MobaXtermでのSSH鍵ペアの作成方法¶
Warning
SSH秘密鍵が漏洩すると他人にアカウントを不正利用されることとなりますので、パスフレーズを必ず設定し、管理には細心の注意を払ってください。
Info
TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519(EdDSA)鍵を推奨いたします。
PuTTY付属のPuTTYgenを用いてTSUBAME4.0にログインするための鍵ペアを作成する方法について説明します。
MobaXtermのMobaKeyGenも同等の機能・UIを持つため、同様に利用できます。
PuTTYgenを起動すると下記のような画面が出てきます(日本語で表示される場合もあります)
- 「Type of key to generate」にて、鍵タイプを選択します
ECDSA形式もしくはEdDSA形式を推奨します。それ以外の形式の場合、TSUBAME4に接続できないことがあります。 - 「Generate」ボタンを押して、画面の指示に従って鍵ペアを作成します
最下段のParametersを変更することで生成される鍵ペアの設定を変えることができますが、通常は鍵タイプ以外変更する必要はありません。 - 「Save private key」ボタンを押すことで、この鍵ペアを使用するために必要なファイル(秘密鍵)を保存します
TSUBAME4.0に公開鍵を登録することで、保存した秘密鍵ファイルにアクセスできるすべての人がTSUBAME4.0にログインできるようになりますので、ファイルの管理は十分に注意してください。(USBメモリに入れて持ち歩いたり、メールで送信しないこと)
保存前に「Key passphrase」「Confirm passphrase」にパスフレーズを入力することで、パスフレーズを知らない人が鍵を利用する(TSUBAME4.0を利用する)ことを防ぐことができます。 - 「Public key for pasting...」の中に表示されている文字列を、TSUBAMEポータルの「SSH公開鍵登録」画面の「公開鍵コード入力」テキストボックスにコピー&ペーストして、「追加」ボタンを押すことで、公開鍵がTSUBAMEに登録されます。
TSUBAME4.0にログインする際には、事前に2.で保存したファイルをPageantで開いておく(インストーラを利用してPuTTYをデフォルト設定でインストールした場合、ファイルの関連付けがされています)か、PuTTYの接続設定で「Connection」-「SSH」-「Auth」の中にある「Private key file for authentication」で指定しておくことで、作成した鍵ペアを利用してログインすることができます。
Warning
ParametersのSSH-1(RSA)は絶対に選ばないで下さい。
なお、PuTTYの利用方法についてはご自分でマニュアルをご確認下さい。
Linuxのよくあるエラーについて¶
ここではLinuxのよくあるエラーについてのFAQを記載しております。記載しているコマンドの詳細な利用方法については各自、manコマンド等で確認してください。
No such file or directory¶
必要とされるファイルもしくはディレクトリがありません。
存在しないファイル、ディレクトリ名などを指定する、タイポするなどパス指定を間違った場合等に発生します。
また、アプリケーションによっては改行コードが Windows の CR+LF の場合に発生する場合もあります。
対策
ファイル、ディレクトリ名をよく見直してください。
また改行コードの修正についてはFAQ「ジョブステータスが「Eqw」となり実行されない。」の1をご確認ください。
関連して以下のようなエラーもあります。
error while loading shared libraries: ****.so: cannot open shared object file: No such file or directory
対策
プログラムにライブラリパスが通っているかをlddコマンドなどで確認してください。
環境変数LD_LIBRARY_PATHを設定する、コンパイル時にライブラリを指定するなどの対策があります。
command not found¶
入力したコマンドがありません。
実行したいプログラムの種別ごとに以下の確認を実施してください。
-
商用アプリケーションの場合
- アプリケーションの購入手続きが行われていない可能性があります。以下のFAQをご参照ください。
- moduleコマンドを実行していない可能性があります。必要な module を load してください。
-
フリーウェアの場合
- moduleコマンドを実行していない可能性があります。必要な module を load してください。
-
自分でインストールしたプログラムなどの場合
- 環境変数PATHの設定が正しく行われていない可能性があります。
echo $PATH コマンドで必要なコマンドがあるディレクトリのパスが通っているか確認し、パスが通っていなければ設定してください。
- 環境変数PATHの設定が正しく行われていない可能性があります。
ホームディレクトリ($HOME)直下のhogeディレクトリを既存のPATH環境変数に追加する場合の例
$ export PATH=~/hoge:$PATH
Permission denied¶
実行しようとした操作の権限がありません。
Linuxはファイル・ディレクトリ単位でユーザならびにグループ単位の権限設定がされています。
読み込み、書き込み、実行しようとした対象ファイル、ディレクトリの権限を以下のコマンドで確認してください。
(例はhogeファイルを確認する場合)
$ ls -l hoge
対策
システムディレクトリである/appや/libなどにファイルを作成しようとした場合等はユーザディレクトリに作成するようにしてください。
グループディスクなどのユーザディレクトリで発生する場合は権限を確認してください。
Disk quota exceeded¶
FAQ「"Disk quota exceeded" というエラーが出力される」をご確認ください。
Out Of Memory¶
メモリが不足した場合に発生するエラーです。 対策 * 資源タイプをよりメモリ容量が多いものに変更する。 * mpiなどでノードあたりのメモリ使用量を分割する。
エラー関連URL¶
- "Disk quota exceeded" というエラーが出力される
- qrshコマンドを実行した際のエラーについて
- 結果ファイルのエラーメッセージについて
- エラーログに "Warning: Permanently added the ECDSA host key for IP address 'XXX.XXX.XXX.XXX' to the list of known hosts." と出力される
- qsubコマンド実行時のエラーについて
- segmentation faultなど、プログラム実行時のエラー対応について
- 商用アプリケーションで発生したエラーに対する対処方法について
"Disk quota exceeded" というエラーが出力される¶
ホームディレクトリの容量、またはグループディスクの容量が不足していることが原因です。
不要なファイルを削除するか、グループディスクを追加購入して空き領域を確保してください。
アプリケーションによっては一時ファイルの作成場所がホームディレクトリとなっている場合がありますので、ご注意下さい。
Gaussian や COMSOL などの一部の商用アプリケーションは、系によってですが、ホームディレクトリの25GB程度の容量では不足する場合がありますので、グループディスクをご利用下さい。
ホームディレクトリおよびグループディスクの利用状況は以下のFAQで確認下さい。
TSUBAMEポイント、グループディスクの使用状況、ホームディレクトリの使用状況の確認方法
TSUBAME4.0で作業中にセッションが切れてしまいます¶
TSUBAME4.0ではセキュリティ対策としてセッションタイムアウト設定を行っております。
セッション(接続したターミナル)上での入力がない場合は、セッションを切断します。
GUIアプリケーションを起動して操作していても、ターミナル上の入力がない場合は落ちます。
対策としては、端末側でKeepAliveの設定を行って下さい。
設定方法は利用している端末のマニュアルをご確認下さい。
Windowsで利用できるSSHクライアントについて¶
Windowsでは以下に挙げるSSHクライアントをTSUBAMEへの接続に用いることができます。
X11サーバおよびその他のLinux機能の必要性にもよりますが、上に書いてあるものほど導入コストが低くおすすめです。
OpenSSH クライアント (Windows 10/11の機能)¶
Windows 10/11 の [設定]-[アプリ]-[オプション機能の管理] から [OpenSSH クライアント] をインストールできます。
インストール後はコマンドプロンプトからLinuxと同様の ssh, ssh-keygen 等のコマンドが利用可能です。
PuTTY¶
フリーのSSHクライアントソフトウェアです。
X11サーバは含まれていないため、X11アプリケーションを利用する際には別途X11サーバをインストールする必要があります。
SSH鍵の作成方法についてはこちらのFAQ記事をご参照ください。
MobaXterm¶
SSHクライアントとX11サーバを内包したソフトウェアです。
TSUBAME上のX11アプリケーションのほとんどが問題なく動作するようです。
SSH鍵の作成は、PuTTYと同様ですので、PuTTYのFAQ記事をご参照ください。
Window Subsystem for Linux (WSL)¶
Windows ストアでLinuxディストリビューション(Ubuntu, OpenSUSE等)をダウンロードすることで、Windows上にLinux環境を構築することができます。
X11サーバおよびその他のLinux環境も同時に構築することとなります。
Linux環境から ssh, ssh-keygen 等のコマンドが利用可能です。
上記の MobaXterm と併用することで、タブごとに別の Linux ディストリビューションを起動することもできます。
Cygwin¶
Windows上でLinux環境を再現するソフトウェアです。
Cygwin環境から ssh, ssh-keygen 等のコマンドが利用可能です。
長らくCygwinを使っていたなどの事情がなければ、TSUBAMEへの接続は他のソフトウェアで行うことを強く推奨いたします。
コンパイラとmpiモジュールの組み合わせについて¶
GNU、Intel oneAPI、NVDIA HPC SDK と OpenMPI の組み合わせで利用が可能です。
gcc についてはOS提供のものになります。 各コンパイラとOpenMPIの組み合わせの利用可能なバージョンについては以下のコマンドで確認してください。
$ gcc --version
$ module avail
1. Intel版 OpenMPI
$ module load openmpi/5.0.2-intel
Loading openmpi/5.0.2-intel
Loading requirement: intel/2024.0.2 cuda/12.3.2
$ mpicc -v
Intel(R) oneAPI DPC++/C++ Compiler 2024.0.2 (2024.0.2.20231213)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: /apps/t4/rhel9/isv/intel/compiler/2024.0/bin/compiler
Configuration file: /apps/t4/rhel9/isv/intel/compiler/2024.0/bin/compiler/../icx.cfg
Found candidate GCC installation: /usr/lib/gcc/x86_64-redhat-linux/11
Selected GCC installation: /usr/lib/gcc/x86_64-redhat-linux/11
Candidate multilib: .;@m64
Candidate multilib: 32;@m32
Selected multilib: .;@m64
Found CUDA installation: /apps/t4/rhel9/cuda/12.3.2, version
2. GNU版 OpenMPI
$ module load openmpi/5.0.2-gcc
Loading openmpi/5.0.2-gcc
Loading requirement: cuda/12.3.2
$ mpicc -v
Using built-in specs.
COLLECT_GCC=/usr/bin/gcc
COLLECT_LTO_WRAPPER=/usr/libexec/gcc/x86_64-redhat-linux/11/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-redhat-linux
Configured with: ../configure --enable-bootstrap --enable-host-pie --enable-host-bind-now --enable-languages=c,c++,f
ortran,lto --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --with-bugurl=http://bugzilla.redhat.com/
bugzilla --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit -
-disable-libunwind-exceptions --enable-gnu-unique-object --enable-linker-build-id --with-gcc-major-version-only --en
able-plugin --enable-initfini-array --without-isl --enable-multilib --with-linker-hash-style=gnu --enable-offload-ta
rgets=nvptx-none --without-cuda-driver --enable-gnu-indirect-function --enable-cet --with-tune=generic --with-arch_6
4=x86-64-v2 --with-arch_32=x86-64 --build=x86_64-redhat-linux --with-build-config=bootstrap-lto --enable-link-serial
ization=1
Thread model: posix
Supported LTO compression algorithms: zlib zstd
gcc version 11.4.1 20230605 (Red Hat 11.4.1-2) (GCC)
3. NVIDIA HPC SDK版 OpenMPI
$ module load openmpi/5.0.2-nvhpc
Loading openmpi/5.0.2-nvhpc
Loading requirement: nvhpc/24.1
$ mpicc -v
Export NVCOMPILER=/apps/t4/rhel9/isv/nvidia/hpc_sdk/Linux_x86_64/24.1
Export PGI=/apps/t4/rhel9/isv/nvidia/hpc_sdk
nvc-Warning-No files to process
インタラクティブジョブ中にEmacsでファイルを保存しようとすると画面が固まってしまう¶
既定の端末設定では特定の入力文字によるフロー制御が有効になっていることが原因です。
フロー制御とは、データ転送において受信パケット速度よりも送信速度が上回る場合などに、受信側のオーバーフローを防ぐために転送を一時保留にする機能です。一般的には、転送の保留には Ctrl+S 、再開には Ctrl+Q が制御文字として使用されます。
インタラクティブ実行中にEmacsで編集し上書き保存する場合にCtrl+Sを入力しなければなりませんが、これはフロー制御文字でもあるためパケットが転送されなくなり、あたかもフリーズしてしまったかのような状態となります。元に戻すには、Ctrl+Q を入力してください。
フロー制御を無効にするにはインタラクティブジョブ実行前に以下のコマンドを実行する必要があります。
$ stty -ixon
フロー制御を常に無効にしたい場合は、ホームディレクトリの .bashrc に上記コマンドを追記してください。
TSUBAME4にログインが出来ません (ssh, Permission denied (publickey,hostbased)等)¶
問い合わせの前に下記の点を御確認ください。
1. アカウントが正しいかどうか
TSUBAME4.0のアカウントであるかをご確認ください。
- TSUBAME4.0アカウントはTSUBAME3アカウントとは異なります。TSUBAME3のアカウントを利用したお問合わせが増えております。
- TSUBAME4.0アカウントは学籍番号や教職員番号とは異なります。
- TSUBAME4.0アカウントはありますか? アカウントの取得についてはアカウント取得方法を参照ください。
2. 鍵ペアが正しいかどうか
TSUBAMEポータルに登録した公開鍵が OpenSSH 形式であるかをご確認ください。
PuTTY形式の公開鍵を登録してもTSUBAMEにはアクセスできません。
鍵ペアの作成については下記を参照ください。
公開鍵の登録については下記を参照ください。
Info
TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。
3. コマンドが正しいかどうかLinux/Mac/Windows(Cygwin/WSL)
SSHコマンドのオプション等で指定しているログイン名や秘密鍵のパス(※)が正しいかをご確認ください。
$ ssh TSUBAME4.0アカウント名@login.t4.gsic.titech.ac.jp -i 秘密鍵
例) ログイン名がgsic_user、秘密鍵がホームディレクトリの .ssh/t4-key の場合
$ ssh gsic_user@login.t4.gsic.titech.ac.jp -i ~/.ssh/t4-key
Tips
秘密鍵がホームディレクトリ内 .ssh/id_dsa, .ssh/id_ecdsa, .ssh/id_ed25519 のいずれかの場合 (ssh-keygenで保存場所をデフォルトから変更しなかった場合)、「-i 秘密鍵」を指定する必要がありません
Info
TSUBAME4.0のログインノードでは鍵長の短い RSA 鍵 (SHA-1) では接続できません。SSH鍵ペアはecdsa鍵またはed25519鍵を推奨いたします。
SSHのオプションについては下記のコマンドで確認してください。
$ man ssh
4. 端末環境を変えても再現するか
Windowsの場合はフリーの端末ソフトウェアがあります。別の端末ソフトウェアでも再現するかどうかをご確認ください。再現しない場合はソフトウェア固有の問題である可能性があります。その場合はお問合わせ頂いてもご対応できませんので、ご了承ください。
5. アクセス元を変えても再現するか
アクセス元のネットワークが問題で接続できないことがあります。アクセス経路が複数ある場合は、アクセス元を変更して再現するかご確認下さい。
- 学内/学外
- 研究室/他の研究室
- 自宅/公衆WiFi
ネットワークを変更して接続できる場合は、ルータ、Firewall などの設定の問題が考えられます。設定については各管理者にご確認下さい。
また、Windowsの場合はセキュリティソフトが通信をブロックしていることもあります。一時的にセキュリティソフトをオフにして接続できるかご確認下さい。回避方法は、各セキュリティソフトのマニュアルをご確認下さい。
お問い合わせの際は下記をご連絡ください
- 利用OS(例 Windows10,Debian12,macOS 14.4.1)
- 利用端末ソフトウェア(windowsのみ、例 Cygwin,PuTTY,Rlogin)
- 利用端末バージョン
Windowsの場合は端末ソフトウェアのバージョン、例 2.9.0-3,0.70,2.22.7
バージョンの調べ方はご利用の端末のマニュアルをご確認ください。
Linux/Macの場合はSSHのバージョンをお送りください。下記のコマンドで確認できます。
$ ssh -V
- 今まで試した内容について、また、エラーが出る場合はエラーの内容をお送りください。
Linux/Macの場合は-vオプションを利用し、コマンドラインを含めた詳細なログも出力ください。
例)アカウント名がgsic_user、秘密鍵が~/.ssh/t3-keyの場合の例
$ ssh gsic_user@login.t4.gsic.titech.ac.jp -i ~/.ssh/t4-key -v
グループディスクへのCIFS接続ができない, WindowsでTSUBAMEのグループディスクが開けない¶
Info
CIFSでのTSUBAMEグループディスクへのアクセスは学内のみです。学外からはアクセスできません。
CIFSサーバまでのネットワーク疎通をご確認下さい。
DOSプロンプト等でPINGをご確認ください。
C:\> ping gshs.t4.gsic.titech.ac.jp
Windows からグループディスクへアクセスするには、TSUBAMEパスワードの設定が必要です。TSUBAMEポータルから設定を行ってください。設定方法はこちらをご覧下さい。
また、
- 「パスワードが違います。」
- 「パスワードの有効期限が切れています。」
と表示された場合も、同様にTSUBAMEパスワードを再設定してください。
グループディスクに関するFAQ¶
グループディスクとは¶
利用の手引きに書かれている高速ストレージ領域 (SSD) と大容量ストレージ領域 (HDD) のことで、TSUBAMEグループ毎にTSUBAMEポータルで設定された容量を利用できる共有ストレージです。
利用期間:購入日を含む月から1ヶ月単位、最長年度末(3月末)まで
購入単位あたりのポイント、iノード
種別 | 購入単位 | ポイント | iノード |
---|---|---|---|
大容量ストレージ領域 (HDD) | 1TB | 0.5 | 2,000,000 |
高速ストレージ領域 (SSD) | 100GB | 0.2 | 200,000 |
設定方法:TSUBAMEポータルから設定可能です
TSUBAMEポータル利用の手引き 10. グループディスクの管理
グループディスクの猶予期間とは¶
グループディスクは年度末に一度リセットされ、すべてのグループディスクは読み込み/削除のみ可能な猶予状態となります。この期間のことを猶予期間といい、通常は4月中旬頃まで維持されます。
前年度のデータが残っている場合に、猶予期間後に購入する場合は以下のようになります。
例えば前年度50TB購入し、45TBの容量を使用していた場合を例とします。
1) 猶予期間中に45TBを削除し、使用容量が0の場合
最小容量である1TBから購入可能
2) 猶予期間中に25TBを削除し、購入時の使用容量が20TBの場合
20TB以上から購入可能
3) 猶予期間中に使用容量を削除しなかった場合(購入時の使用容量が45TB)
45TB以上から購入可能
前年度データが不要な場合は猶予期間中の削除をお願いいたします。
関連FAQ¶
計算ノード用ゲートウェイサーバのIPアドレスについて (TSUBAME外ライセンスサーバへの接続など)¶
計算ノード用ゲートウェイサーバのIPアドレス範囲は以下の通りとなっております。
131.112.133.241, 131.112.133.242
学内・学外のライセンスサーバを利用してTSUBAME上で計算を行う場合は上記範囲の通信を許可するように設定ください。
なお、上記アドレスは運用の都合により予告なく変更される可能性がありますのでご注意ください。
TSUBAME外(研究室など)のライセンスサーバ等への疎通を必要とするソフトウェアが動作しない場合は、お問い合わせの前にTSUBAME外かつライセンスサーバ外のネットワークから、当該ライセンスサーバと通信ができることを確認してから、以下の情報を添えてご連絡ください。
- ライセンスサーバのグローバルIPアドレス
- ライセンスサーバのポート番号 (複数ある場合は全て)
- 疎通試験を行ったホストのIPアドレス
ログインノードで「fork: Resource temporarily unavailable」等のエラーが表示されます¶
ログインノードでは1ユーザ当たり50プロセスの制限をかけております。
その為、その制限を超えたプロセスを生成した場合このようなエラーが表示されます。
詳細につきましては、ログインノードでCPUを占有する利用は行わないでくださいをご参照下さい。
TSUBAME4.0でDockerは利用できますか?¶
TSUBAME4.0でSingularityは利用できますか?¶
TSUBAME4.0でコンテナは利用できますか?¶
TSUBAME4.0ではDockerは利用できません。スパコン向けコンテナ管理ソフトウェアのApptainer(旧:Singularity)が利用可能です。
詳細についてはコンテナの利用をご参照ください。
Tsubame4.0でJupyter Labは利用できますか?¶
利用可能です。詳細についてはOpen OnDemand 利用の手引きをご参照ください。
グループディスクに突然アクセスできなくなりました。¶
グループディスクはひと月ごとに確保するため、月を跨いだタイミングでグループディスクの使用量が確保したサイズを超過する場合があります。
この状態が続いた場合、特定のタイミングで対象グループディスクへの一切のアクセスが禁止されます。
- グループディスクの利用状況を確認したい場合、グループディスクの利用状況確認を参照してください。
- グループディスクの使用量超過時の対応については、グループディスクの使用量超過時の対応を参照してください。
また、グループディスクに関するFAQについても併せてご確認ください。
TSUBAME4.0のGPUの活用方法を知りたい。¶
講習会のページで公開されている、以下の資料が参考になるかと思います。
- TSUBAME4のGPUを最大限活用する方法
マルチスレッド/マルチプロセスに対応したデバッガ/プロファイラを使用したい¶
Linaro Forge(旧:Arm forge)が使用できます。利用方法については講習会ページに掲載されている「並列プログラミング」をご参照ください。
OpenOnDemand、またはJupyterの起動に失敗する¶
OpenOnDemand(TSUBAME Desktop)またはJupyter使用時に以下の現象が発生する場合、設定ファイルが破損している可能性があります。
- 起動しない
- 起動後、異常終了する
それぞれ、以下のディレクトリを削除してください。
アプリケーション | ディレクトリパス |
---|---|
OpenOnDemand(TSUBAME Desktop) | ~/ondemand |
Jupyter | ~/.jupyter |
Info
これらのディレクトリは利用時に自動生成されます。通常、削除による影響はありません。
同ディレクトリ内のファイルを編集し問題が発生した場合、お問い合わせの対象外となります。
OpenOnDemand 上でディレクトリを削除する場合の手順は以下の通りです。
- OpenOnDemandにログインします。手順についてはOpen OnDemandのログインを参照してください。
- Files - Home Directory をクリックします。
- Show Dotfiles にチェックを付けます。
- 削除するディレクトリを選択します。
4-1. Jupyter の場合
.jupyter ディレクトリ横の ⋮ をクリックし、Delete をクリックします。( 先頭が . で始まるディレクトリです)
4-2. OpenOnDemand(TSUBAME Desktop)の場合
ondemand ディレクトリ横の ⋮ をクリックし、Delete をクリックします。
- 確認ダイアログが出ますので、削除対象のディレクトリであることを確認してOKをクリックします。
Apptainer 利用時にGLIBC not found エラーが発生する¶
Apptainer でフェイクルート機能(--fakeroot)を使用する場合、ホストとコンテナの間でlibcのバージョンを一致させる必要があります。
一致しない場合、以下のようなエラーが出力される場合があります。
/.singularity.d/libs/faked: /lib/x86_64-linux-gnu/libc.so.6: version`GLIBC_2.33' not found (required by /.singularity.d/libs/faked)
/.singularity.d/libs/faked: /lib/x86_64-linux-gnu/libc.so.6: version`GLIBC_2.34' not found (required by /.singularity.d/libs/faked)
fakeroot: error while starting the `faked' daemon.
/.singularity.d/libs/fakeroot: 1: kill: Usage: kill [-s sigspec | -signum |-sigspec] [pid | job]... or
kill -l [exitstatus]
VS Codeを利用したい¶
VS Codeを使用したログインノードへのアクセスについては、ログインノードに大きな負荷がかかるため禁止されています。
ログインノードにおけるプログラムの実行制限
TSUBAME4.0では、code server(VS codeのクローン)を使用したOpen OnDemand経由による計算ノードへの接続が可能です。
code server の利用をご検討ください。利用方法についてはOpen OnDemandの利用の手引きをご参照ください。