2011年12月1日木曜日

OSCAR,苦戦中

研究室でPCクラスタを組もう,と思って部品を買ったのはもはや1年近く前.

やっと取り組む時間を取れたので,先週の土曜日(11/26)から取り組み始めたが,かなり苦しんでいる.1週間近く経つのにまだインストールに成功しない. 備忘録をかねて,いまの状況をだらだらと書き連ねてみる.

11/20

まずPCクラスタを外注して作るのは,高くつくし面白くないのでやめた.
自前でPCクラスタを作るソフトはいろいろあるようだが,今回はUbuntuで動くことを重視して調べた結果,OSCARというソフトウェアパッケージを選択.

パッケージのインストールから,サーバの設定までは簡単だった.インストールガイドに書いてあるとおりにすればよい.

11/26

この日から本格的な設定をし始めたが,クラスタの各ノードの設定で,早速はまった.

OSCARはSystemImagerというソフトウェアを使って,クラスタの各ノードにOSをインストールする.手順としては,
  1. まずノードをPXEでネットワークブートして,起動用のカーネルを送り込む.
  2. そしてそのカーネルで起動し,その上でrsyncで実際に使うOSを送って,設定する.
となる.

ここで躓いた.最初のカーネルを送り込むところまでは,あっさり通ったのだが,そのカーネルが立ち上がってくれない.lo(ループバックインターフェイス)にDHCPをかける.なぜ?

おそらく,起動用のカーネルがネットワークインターフェイスを認識していないのだろう,ということは想像がついた.
SystemImagerは付属のカーネルではなく,いまのマシンで使っているカーネルを使う機能(use your own kernel, UYOK)があるので,それを使ってみることに.

するとこんどは,ホットプラグのところで固まる.なぜ?

こちらは原因までは分からなかったが,そもそもクラスタのノードにホットプラグなんかいらない. initrd.img(最初のカーネルが使うRAMディスクのイメージ)を編集して,ホットプラグの機能を呼ばないように変更.

再度ノードをブートすると,ホットプラグのところは無事通過した.しかし結局,loにDHCPをかけるところは変わらず.つまりUYOKでもネットワークインターフェイスを認識しなかった.
悩んで調べて設定をやり直したののに,意味ないじゃん!

この日はここで時間切れ.土曜日の午後をまるまる使ったのになぁ.

11/27

再チャレンジ.

ノードのネットワークインターフェイスは,安直にオンボードのMarvell 88E8056(Yukon)を使っている.
ノードに普通にUbuntuをインストールしてみたところ,ネットワークを問題なく使える.sky2というドライバを読み込んでいるようだ.

そこで再びinitrd.imgの中を見直したところ,カーネルに読み込むモジュールを指定するファイルがあったので,sky2ドライバを追加して作り直し.

これで再度ノードをブートしたところ,…動いた! 最初のカーネルが立ち上がるところまで行った.

しかしその次,rsyncで実際のOSを送り込むところはエラーになる.

rsyncdの設定がおかしいところまでは分かった.どこを直せばよいかは分からず,
この日は時間切れで終了.

11/28

土日に寒い部屋でPCを設定していたため,風邪気味.この日は設定はおやすみにした.

11/29

通常業務.OSCARの設定はせず.

11/30

再度チャレンジしたところ,…なぜかあっさり,インストール成功.あれっ????
すべてのノードに,クラスタ用のOSをインストールすることに成功.

よかった!

しかし”Test Cluster Setup”を実行すると,エラーになった.
これは設定に使ったPCの事情のようで,うちの研究室のUbuntu PCは/home以下をオートマウンターの管理下に置いている.ここにoscar_wizardがoscartestというディレクトリを切ろうとして,エラーになっているようだ.
そのせいでそれ以降のテストすべてが実施されず.

別のPCで改めてOSCARの設定をしてみることに.この時点では,いちどうまくいってやり方が分かったんだから,次も簡単さ,と思っていた.

この日の夕方から,PCの設定開始.OSを新たに入れてOSCARを入れて,上に書いたように設定.

12/1

前日の続きで,クラスタにOSをインストールしようとしたが,今回もうまくいかなかった.rsyncのところでエラーになる.

結局,前回もrsyncがエラーになった理由がよく分かっていないから,のようだ.最初のカーネルを送り込むためのtftpdと,rsyncdをちゃんと動かす方法がよく分かっていない.
ただし,rsyncdを再起動する方法は分かった.再起動すれば,ファイルがちゃんと転送されることも分かった.

現在(1日夜)の時点で,やっとここまで来た.

いろいろはまったな.ノウハウもいくらか溜まった.まだインストールの裏側が分かっていないのだが,もう少しでできそうな気がする.

0 件のコメント:

コメントを投稿