2016-11-11

Jetson TX1 で py-faster-rcnn を使ってmjpeg 配信できたら幸せ！！　そのほかモロモロ。

Jetson-TX1

てな、馬鹿げた表題をつけたものの、本当にできるんでしょうか？

　何に使うのかって？。外に持ち出すには最低7インチのディスプレイが必要です。配線や電源も考えなければいけません。これがケータイで代用できたらとっても便利。がさばるディスプレイの代わりにケータイを使うのが最終目的。

　TX1で物体を認識した動画を、iPhoneで受信！？。考えただけでザワーっとします。つまり、その作成過程を考えるだけで吐き気がっ。

　今回の記事はJetPack-2.3環境すなわち全部64bit環境な場合です。また、homeにプレインストールしてあるjetson_clocks.shを実行し、GPUクロックを最大にしてます。

f:id:TAKEsan:20161111105719p:plain

今回の最終形。１度に複数の物体を認識している（テレビの中の人物も）。これがTX1から送られたmjpeg動画の一部画像です。動いている様子は以下のMoveファイル参照。

ザワーの１回目

まず肝心のPy-Faster-RCNNインストール。このダウンロードしたフォルダの中で、専用に修正されたCaffeのビルドが必要です。経験上すんなりとインストールできない予感があったのですが、やっぱり的中。少し探すとForumに書いてありました。要するにCuda8.0に対応してないとのこと、

https://devtalk.nvidia.com/default/topic/974063/jetson-tx1/caffe-failed-with-py-faster-rcnn-demo-py-on-tx1/

　これを参考（中程にNvidia担当者の回答がある）にすると、インストール自体は何て事ありません。説明が悪いだけ（私の英語力の問題か？）です。BLC Caffeは修正済みなので、この中からいくつかのライブラリをコピーして上書きしなさいですと。

　すなわち　py-faster-rcnnをダウンロードして解凍すると、py-faster-rcnn->cafe-fast-rcnn の中身が改造されたcaffeのインストーラがあります。すでにBLVC Caffeの方はCuda8.0に対応しているので、ダミーでどこかにBLVC caffeをダウンロードして、この中身のライブラリを入れ替えればOK。

　入れ替えるファイルは、以下の11個のファイル（青の部分）だそうです。該当フォルダは黒の部分です。

include/caffe/util/:

cudnn.hpp

src/caffe/layers/:

cudnn_conv_layer.cu

cudnn_relu_layer.cpp

cudnn_relu_layer.cu

cudnn_sigmoid_layer.cpp

cudnn_sigmoid_layer.cu

cudnn_tanh_layer.cpp

cudnn_tanh_layer.cu

include/caffe/layers/:

cudnn_relu_layer.hpp

cudnn_sigmoid_layer.hpp

cudnn_tanh_layer.hpp

　すでにTX1にCaffeをインストールしていれば、依存ライブラリがインストールしてあるはずなので、あとはいつものMakefile.configの書き換え。内容は以前の記事を参考にしてください。いつものようにビルドして、以下の記事の

GitHub - rbgirshick/py-faster-rcnn: Faster R-CNN (Python implementation) -- see https://github.com/ShaoqingRen/faster_rcnn for the official MATLAB version

２番目あたりからpy-faster-rcnnをインストールすればOK。私の場合、

sudo pip install pyyaml

で、新たなPythonライブラリが必要でした。新たにビルドされたCaffeは、すでにインストールされているCaffe、Pycaffeと区別されるので、pathなどの追加は不要。

　TX1ではメモリーオーバーになるのでデモソースは、簡易型のデータでしか実行できません。この後のライブラリの容量を考えると、まーTestなので、それなりに認識すればいいのかと。

一応　py-faster-rcnn-->tools に入って、

python demo.py --net zf

（その後の確認：TX1の同じフォーラムに書いてありましたが、GPUメモリをなるべく使わない方法＝logout して他のコンピューターからSSH接続後同じプログラムを動かすと--net zf　無しでも動きました。画像の認識は上がりますが、スピードが極端に落ちます。動画として確認するなら--net zfをつけたほうが良いみたいです。）

　5つのテスト画像を読み込んで、認識結果を画像で表示します。GPUフル稼働でも1画面平均0.47秒くらいの認識スピードなので、動画にすると遅いこと確実。遅いと言ってもCPUモードで実行すると平均28秒！！、なんと60倍くらい遅くなります。それよりははるかにマシ。Pi3だとどんだけ遅くなるんでしょうか？

　めげずにmJpeg配信のためにSimpleCVをインストール。py-faster-runのビルドに成功していれば、以下の2つを追加インストールでOK。

sudo apt-get install python-pygame

sudo pip install https://github.com/ingenuitas/SimpleCV/zipball/master

ざわーの２回目

　mJpeg配信とくればSimpleCV!!。同じPythonなので簡単に...。Camera画像の変換が重要な問題だとはわかっていたのですが、少し風邪気味でタダでもボケボケの頭が、さらにボーケボケ。構想２日、実務が半日で、やっとdemo.pyを書き直した物が次のソースです。一応動くだけですが。

id:TAKEsan の mjpeg.py

py-faster-rcnn-->toolsへ保存したら、40行目付近の

　　　　　js = JpegStreamer("tegra-ubuntu.local:8090")

の赤字部分を自分のip環境に変更して下さい。

cv2-->SimpleCVのイメージデータ変換（たった１行）だけがキモでした。ソースを全部コピー（最後の１行が見にくい）して　mjpeg.py とかで名前を付けて保存。そしてUSBにカメラをつないだら、

python bokeboke.py --net zf <-----直したつもりなのにボケボケでした

python mjpeg.py --net zf

を実行。MacやiPhone のサファリからtegra-ubuntu.local:8090と打ち込めば、期待のpy-faster-rcnn動画が確認できます。TX1をバッテリー駆動させてiPhonのテザリング機能を使うことで、どこでも結果が確認できることになります。前にEdisonのFlask環境でGPIOとmjpeg画像を制御したことがあるので、応用すればTX1でもディープラーニング環境でGPIOの遠隔操作が可能のはずです。

　カメラ画像は1080X720で読み取ってますが、これより解像度が低いと、物体の認識率が下がるようです。認識に時間を取られるので解像度を下げても、あまり表示スピードが変わりません。色々試してみると面白い。mjpeg配信なので、本体直結のディスプレイでなくとも画像表示可能です。だから本体をログアウトさせても、他のコンピューターからSSH接続で動作可能。--net zf　無しで実行したい場合は、この方法で！！

結局の動画

　動画とは程遠いものですけど、少しバカな（反応の鈍い）ロボットの認識用として使えば、現実味を帯びてきます。ファインチューニングで個別画像をDIGITで追加学習させれば、「こんにちはTAKEsan」とか、こんにちは「Juneちゃん」（愛犬の名前）を言ってくれる！！（っと思う）。次の目標はこれで決まり。こう考えるとなんとなく顔がにんまりしてきます。さらに認識する種類を限定することで、大幅に早くなるような気がします。

TX1で発信したmjpeg動画をiMacで表示させているところ。かなりスローで、3秒くらいの遅延がありますが、なんとなくいい感じ。ちゃんとfaster-rcnnしてるでしょ。

　試しに、母艦GTX1080環境で実行すると（GTX1080もCoda8.0対応のため、TX1と同じようにCudaのライブラリを変更したらすんなり動いた）、やっぱり速い。図体がでかいので、背負って移動させるわけにもいかず、早くてもあんまり意味がありません。

母艦Ubuntu環境（i7 6700K とGTX1080）で同じソース画像をiMacで受信、Pythonなのに遅延がほとんどない。

幸せになったということで、py-faster-rcnnの実験については、これで終わり。

TX1環境のデープラーニング応用環境が現実味を帯びてきた

　この頃はもっぱらTX1やIntel Jouleの個人的な性能評価やらインストール作業やらに熱中してしまって、まともにプログラム作成に向き合っていません。あっちこっちに首を突っ込んで当初の予定だったニューラルネットワークに関するお勉強がそっちのけになっています。

　まーその流れで。Jetson TX1の最先端はどちらに向かってるか探りを入れてみました。この方が鍵を握っているようです。

github.com

　Nividiaでは、Jetpack2.3になってから、TenserRCがどうのコウノト言ってますが、果たしてこれは何？。発売当初からFloat 16演算を行うと、スピードが1Tが出るとかなんですが、実質的な実現例が提示されていないばかりか、Float16のcaffeもイマイチ中途半端でした。ましてTensorRCはこのFloat16に特化したと言いながら、何も具体的な情報が無い。やっと重い腰をあげたみたいなので、以下実行結果を私なりの理解度でご報告。でも未だにTenserRCが何者なのか、わかっていない。

まずTorchはどうなったのか。

　この方が「できるできる」と言っていたものが、少し前にやっとgithubで公開されています。自分で試して見て初めてわかったんでしょうね。ちなみにTorchはTenserRCとは無関係。TX1のCuda8.0対応版です。

GitHub - dusty-nv/jetson-reinforcement: Deep reinforcement learning libraries for Jetson and online training

　記載されている手順通りで無事インストールできました。開始はいつものthではなく./deepRL-consoleでした。仕組みが理解できていませんがOpenblas、torch、torch7,cutorchが同時インストールされます。標準Luaライブラリは　nn,cutorch、cunn、などがプレインストール。他のLuaライブラリは、Luaにパスを通せば簡単にインストールできます。例題はこんなのです。ピンポンゲームの学習。

　以前入れた早稲田大学の白黒カラー化ソフトを実行させてみると。

takesan.hatenablog.com

（ソース中のargではコマンドラインで指定したファイルを認識しないので、直接ソースに画像指定してやります。この記事に書いてあるように追加のLuaライブラリが必要）
OpenBlas関連の実行時エラーが出ますが、ちゃんとカラー化できました。気になるテスト用に入っている風景写真の変換スピードは、以前のjetpack2.2と比較すると、60秒の実行時間に対して、今回は20秒。40秒も実行スピード早いのです（i7 6700k+1080環境では4秒程度ですが）。データの読み込みや演算共格段の進歩が見られます。いよいよTorch+TX1がモバイル環境で現実味を帯びてきました。

TenserRT

　これはなかなかでした。DIGITSで作成した学習データの応用例です。

GitHub - dusty-nv/jetson-inference: Guide to deploying deep-learning inference networks and realtime object detection with TensorRT and Jetson TX1.

カメラを使ってリアルタイムで学習結果を表示します。

　まず30fpsくらいで、とにかく手当たり次第、物体認証結果を表示するプログラム。Caffeのexampleの中にあるWeb-Testを使えば私にもできそうな感じ（スピードはここまでは確実に上げられない）です。

どこを認識しているのかがわからない点が残念ですが、とにかく速い！！。せめて点くらい表示させたらいいのに....ブツブツ。

　物体の認識が組み合わさっているのに、目にも止まらぬ実行スピードです。出力単語をよく見ると、それらしい物体として認識されてます。

　次にリアルタイムObject-Detect認識をTX1で実現させたプログラム。人物群と物を同時に判断できるようです。（スピードを度外視すれば性能は今回取り上げたpy-faster-runが上！！）こちらはさすがにだいぶゆっくりですが、ホビーでは実用レベルです。すごい。

動画では判断しにくいですが、人物を見つけると青の四角が表示されます。今回実験したmjpeg画像に比較すると格段に速いことが確認できると思います。
　そもそも例題を実行すると、画像が上下逆！！。プログラムの中身を見て変更しようにも、複雑で何が何だかわからない。もっと単純にできなかったものなんでしょうか。評価用としては、プログラム中のコメントが少ないので解析に時間がかかりそうです。表示部分がおかしいような感じ。当分は、カメラをひっくり返せばいいことなんで、気にしない気にしない。
　この方は同じgithubページ上に16bitCaffeのインストールスクリプトも自信を持って書いてますけど、OSが１つ前のものなので、run testがうまくいきません。どうも他の記事を読んでも、TX1に関しては、神の存在だと思ってるみたいな気がしないでもない。内容の割に、質問や閲覧数が少ないのは、この辺りでアメリカのみなさんも引いてしまうんでしょうね。

　記事を発表している人物が、メーカー側ですから消費者として率直な感想を書きました。がっ、やってることは納得です。こういうものを見せられると、寒気が。つまり「機械が自分を守るための単純な何かについて、人間がヒントを与えた時。ニューラルは空恐ろしいほどの進化があるのかも」です。

　DIGITSで学習させたObject-Detectデータが使えるようなので、次の機会に試してみることにします。TX1のフォーラムでは、「こんなに遅いのに」的に言ってる人がいますが、要はどう応用して使うかの問題なので、基本的なスピードがこれならば、十分実用的だと思うのですが、いかがなものでしょうか。

※2017/1/19:この後TX1へのOpenFrameworksインストールに成功して、OF上で上の動画より早く実行できるようになりました。おまけに入出力の「とっつきにくさ」が解消されます。

takesan.hatenablog.com

jetpack2.3でOpenCVやZEDカメラSDKのコンパイルができた

　OpenCVの例題や、ZEDカメラSDKのコンパイル時にcudnn関連のエラーが出て困っていたのですが、対策がわかりました。

　Oencvライブラリを使ったソースの場合、aarch64に限ってコンパイルエラーになってしまうようです。この問題は近い将来修正されると思いますが、どちらもsampleに入っているCmakeLists.txtファイルの最初の方に、以下を記述するとOKでした。ZEDの場合は以下を記述し、なぜか2回cmakeを実行するとうまくいきます。

set(CUDA_USE_STATIC_CUDA_RUNTIME OFF)

TX１でもJouleでも内部eMMCはTRIMが実行できる。

　これはlinuxでSSDを使ってるみなさんならご承知の通り、SSDの延命と実行スピードを維持するための必需品

　　　　　　sudo fstrim -v /

です。これが実行できた＝TRIMが実行できたです。本体内部のeMMC寿命＝超お高い本体CPUの寿命につながりますので、思い出したらやってみましょう。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　では、また。

2016-11-03

Intel Joule にUbuntu14.04をインストールしてみた。

Intel Joule

　Intel JouleにUbuntuをインストールして普通に動かせたら。かなりワクワクしますよね。

※11/24 　かなり簡単にインンストールできるようになってます。現在執筆中！！

----->12/6 完了。下の記事参照。Ubuntu16.04、外付けSSDにも簡単にインストールできて、mraaでGPIOも制御できた上に、OpenCL(GPGPU)の動作確認までできちゃいました。

takesan.hatenablog.com

以下の記事はUbuntu14.04をインストールしたい場合参考にして下さい。

f:id:TAKEsan:20161103220858j:plain

　画面のもたつきとGPIOの制御ができない（執筆時点では気付かなかったのですが、sudoをつければボード上のLED制御可能。多分Pull UPすれば、大部分のGPIO制御が可能です）ことを我慢すれば、ちゃんとしたものになったので、どんな状態なのかも画像でついでにご報告。今回は、この記事の

communities.intel.com

成功例を使わせていただきました。結局、記事を最初に書いたKhaosさんが説明している通りでした。後の方でMcCoolさんが補足していますが参考になりません。混乱するのでやめた方が良いと思われます。KhaosさんはかなりLinuxに精通しているらしく、私のような初心者では中間が抜け過ぎています。でも。最終的にインストールができてみると、こんな短い英文に、よくぞこんなに盛り込んだと思えるくらいヒントが隠されてます。今回は補足という形で記事を書きました。ただし、IntelからJoule版Ubuntuが正式発表されるまでの命です。

　私は本体eMMCにインストールしてしまったのですが、後で元に戻すのが厄介なのでSDカードにインストールした方がベターです。今回は、SDカードインストール方法を紹介します。インストール先を変更すれば、簡単に内部eMMCにもインストールできますが、あまりオススメできません。例によってlinux初心者＋αなので力技で処理しています。なので精通している方はもっとインストール過程がスマートになると思います。

用意するもの

SDカード16G以上（Ubuntu実行用。価格が高くなるが、なるべくスピードの速いもの）
USB3.0用のSDカードリーダー
USBメモリ16G程度（インストールディスクとして使う）
USB3.0用のUSBハブ（4口程度がベター。補助電源なしでも今の所快適）
専用のHDMIケーブル

　本体のSDカードフォルダはスピードが遅く（ubutu実行時入力が相当もたつく）16Gまでという壁があるのでUbuntuはインストールしない方が良いと思われます。今回はUSB3.0にSDカードリーダーを介したSDカードにUbuntuをインストールします。まー遅めのSSDと言いましょうか。Ubuntuを使う限りはサクサクです。USB3.0ですから本物の外付け小型SSDを付ければもっとサクサク。

　Ubuntuのインストールは、かなりスピードの速いソニーのUSM-W3というUSB3.0対応のUSBメモリでも試してみましたが、USB2.0並みの操作感でした。つまり遅くてUbuntu実行環境では使えません。今回の検証はUSB3.0対応カードリーダー＋SanDisk Ultraです。また、Joule本体がかなり熱くなるので小さなFanが必要。無い方はウチワであおぎながら作業しましょう。

　 f:id:TAKEsan:20161104080359j:plain f:id:TAKEsan:20161104080400j:plain

インストール準備

　まずインストール用USBメモリをを用意して、通常通りインストールディスクを作ります。最初から日本語化してある理研などのサイトからダウンロード。作成方法は他のサイトを当たって下さい。（今回はUbuntu14.04）

Joule本体にキーボードとHDMIディスプレーを本体につなぐ

　キーボードは、ファンクションキーである「F2」が直接打ち込める標準キーボード（無線やFnキーを押さないとF2を認識しない小型キーボードではBIOS設定ができなくなる可能性大）BIOS設定ではJIS標準キーボードだと特殊記号が文字化けするので、　= / \ : + - の位置を入力時確認する必要があります。

インストール用のUSBメモリをUSBハブにつなぐ

Jouleの電源ON
本体のランプが４つ点灯した頃F2キーを押す。
画面がBIOS設定に切り替わるの矢印キーで以下を選択
Boot -> F2 -> Boot Manager -> EFI Internal Shell

f:id:TAKEsan:20161103220848j:plain

f:id:TAKEsan:20161103220854j:plain

f:id:TAKEsan:20161103220855j:plain

ここで　EFI Internal Shellを選択すると、 f:id:TAKEsan:20161103220857j:plain

　　　　　　Shell画面になる。画面ではfs0:を入力後lsコマンドを実行している

なんだか訳のわからない表示が出てきますが、Shellがスタートしています。なので普通のlinuxコマンドが実行できます。この状態になったら、最初に「UbuntuインストールUSBメモリ」を選びます。通常は、fs0:　のようです。

fs0: 　エンター

　必ず　:　を付けること。ここで装置記号を入力しないとShellコマンドが実行できません。記憶装置名を入力したら、lsなどのコマンドを入力して、ファイル構成を確認して見て、選択した記憶装置が正しいものかどうかチェック。違っている場合は慌てずにexitを入力すると初期状態に戻るのでもう一度やり直しすればOK。直接画面では肝心の　FS◯◯　部分がスクロールされてしまうので、内容がfs0:でない場合は、fs0: から　Fs4:くらいまで試して見ます。多分Fs0:でOKですが.....。Ubuntuインストールディスクはrootにcasperというディレクトリができているのですぐに判別できます。（一応他のlinuxマシンでcasperディレクトリが存在するかどうか事前に確認しておくと、安心）

cd casper

を入力して、casperに入ったら、めんどくさいですが以下を入力。この時、特殊記号の入力に注意すること。この時点でキーボード配置を確認しておくと後々便利。

vmlinuz.efi initrd=/casper/initrd.lz file=/cdrom/preseed/ubuntu.seed boot=casper quiet splash ---

---まで一挙に入力したらエンター。スペルは正確に！！。

　ドキドキしますが、しばらくすると見慣れたUbuntuの画面が現れます。ただしこれはインストール用（CDイメージ）ですから他のアプリはインストールできません。とりあえずここで、ディスクトップ画面から家庭内のwifiに接続しておきます（簡単に接続できるはず）。Ubuntu画面が出てこないでシステムが止まってしまったら慌てずリセットボタン（パーワーボタン長押し）を押して、再挑戦。casperディレクトリの有無やスペルの確認をしてみて下さい。

　標準でGpartedがインストールされているので、USB3.0用カードリーダーに高速SDカードを挿してUSBハブに接続してから、Gpartedを起動させ、SDカードのフォーマットを行います。すでにsdaはインストールUSBメモリに割り当てられているので、新たにつないだSDカードはsdbの筈です。ここで新たに2つのパーテーション（sdbに）を作成しますが、詳しくはGpatedの使い方を確認してください。前方に500MiB程度のfat16、後方の残りをext4にフォーマットします。前方にfat16を作らないとJouleのBIOSがこのSDカードを認識しないのでここが重要なポイントとなります。

f:id:TAKEsan:20161103220856j:plain

この時は内部eMMCにインストールしたのでmmcblk0になっているが、SDカードはsdbになっているはず。パーテーションはこんな感じで2つ作る。（fat16,ext4。ext4はsdb2になっていることになる）

あとは、sdb2を/に指定して通常のUbuntuインストールを実施します。インストールが終了したら、再起動しないでそのまま、yoctoがプレインストールされている内部eMMCの第一パーテーションの中身を全部sdb1にコピーします

認識している外部記憶装置は、/media 以下に全部マウントされているので、端末を立ち上げ、sudo cp -a を使ってフォルダごとコピーします。/media 以下にぶら下がっているディレクトリは、こんがらがってしまうので、中身を確認して間違えないように名称を確認してください。（英数字の羅列になっている）つまり内部eMMCに作られているBOOT部分をそっくり新しく作ったSDカードの第一パーテーション（fat16フォーマット）にコピーしてしまうわけ。コピーするディレクトリ構成は２つだけです。

EFI

--BOOT

次に端末からSDカードの第一パーテーションに入って、sudo で　ubuntuフォルダを作ります。フォルダ構成は（ubuntuフォルダは、EFIの直下にBOOTと同位置に作る）

EFI

--BOOT

--ubuntu

今度は今作ったubuntuフォルダに入って

　　　　　　　sudo cp -a /boot/* 現在のディレクトリ

を実行して第２パーテーションに作られたboot以下のファイルをめんどくさいので全部コピー。さらに端末から、今コピーしたファイルの中のvmlinuz-4.4.0-31-generic を vmlinuz-4.4.0-31-generic.efi に名称変更。これで下準備完成。

　チョット複雑そうですが、よく考えてみると簡単なことに気づくと思います。コピー方法はこの他にもmountコマンドを使うなり好きな方法で。

いよいよ起動

まずインストール用のUSBメモリを抜きます。
SDカードを挿したUSBカードはそのまま挿しっぱなし。
システムをrebootしてF2キーを押しBIOSを立ち上げます。
Reboot -> F2 -> Boot Maintenance Manager -> Boot Options ー＞ Add Boot Option　　を選択

f:id:TAKEsan:20161103220849j:plain

矢印キーでUSBカードらしき部分を選択します。選択した記憶装置が正しければ先ほど作ったubuntuフォルダが選択できるので

f:id:TAKEsan:20161103220850j:plain

EFI->ubuntu->vmlimz-4.4.0-31-generic.efi　を選択。

　　　　　　　　　　　　　　違う場合はEscで変更が可能です。

正しければここで、選択名称とスクリプトを入力。

f:id:TAKEsan:20161103220852j:plain

　ここではBOOT名称はUSB-UBUNTUにしている。カーソルで選択してEnterを押さないと入力できない。スクリプトを入力しているところ。

名称は自分の好きな名前で。スクリプトは

root=/dev/sda2 initrd=\\EFI\\ubuntu\\initrd.img-4.4.0-31-generic ro rootfstype=ext4

です。赤文字部分ですが、先ほどフォーマットした時はsdbですがubuntuインストールUSBメモリを抜いているので、自動的にsdaになります。数値は２なのでお間違いなく。F4キーを押して保存した後ESCキーを押してBIOS設定初期画面に戻った後

Boot Manager->今作った設定ファイル名選択で..................Ubuntuが起動！！

f:id:TAKEsan:20161103220855j:plain

　　　　　　　　　　Boot Manager で先ほど作った　USB-UBUNTUを選択

起動方法は順序を設定するより、Boot Managerから選択するのが一番確実なようです。

　注意点としては、UbuntuをインストールしたSDカードを抜いてしまうと、設定ファイルが消えてしまうようなので、再度起動スクリプトを書いてやる必要があること。まー暫定ですからガマンガマン。

Openframeworksインストール

　Openframeworksは、標準Linux64版をダウンロードすれば問題なくインストールできました。いつもの3D Exampleをビルドすると、スピードが早いものの「もたつき」があります。ただしコンパイルスピードがPi3とは比較にならないくらい早い。

その他

apt-getが確実に使えるので、pip、pygame、SimpleCVは簡単にインストールできました。pypyなんかもインストールできて、当然ですが標準Pythonより物によっては10倍以上早くなります。
SimpleCVを使ったMJPEG配信では、USBカメラはちゃんと認識するのですが、なぜか配信スピードがEdisonより大幅に遅くなってしまいます。

JouleでSimpleCVを使って配信した360X240のWebCamera映像をMacのサファリで表示している。ものすごく遅い。OpenframeworksのOfxHTTPを使えば改善できるかも。後からSimpleCVで顔認識させたら480X270で8〜10fpsくらい出る。不思議不思議。タイミングの問題か？

mraaはソースからビルドできますが、全くGPIOを認識しません（実行時GPIOエラー。USBが使えたとしても現段階ではJouleの本領を発揮できません）。
GPIOを無視すれば、音声までは試してませんが、動作がぎこちない部分はあるとしてもほとんどのアプリが動くと思われます。
Jouleはかなり頻繁にCPUクロックが変化(800〜2400kHz)するので、スピードを固定すると多少画像のギクシャク感が解消できるかもしれません。

https://software.intel.com/sites/default/files/comment/1716807/how-to-change-frequency-on-linux-pub.txt

その後

　　sudo apt-get install indicator-cpufreq

でCPUスピードを簡単に変えられました。インストールしたらreboot後右上に表示されたインジケーターで調整。何もしないと直ぐに0.8GHzに変わるみたいです。だから直ぐに反応が鈍るのか...。フーム。

最後に

　今回はSDカードを使ってのUbuntuインストール方法でした。寿命のある内部eMMCを使わないだけ精神的に気が楽になります。失敗を恐れずに何回でも試行できますので、説明不足のところは挫折しないで最後まで頑張ってみてはどうでしょうか？。私ができたのだから必ず成功します。本家がUbuntu稼働を発表した時にはそれよりも良いものになったりして...。マサカねー。

　Jouleの内部eMMCはかなり性能が良いみたいです。LinuxでSSD使用者ではおなじみのTrimコマンドを実行可能。延命とスピード維持を確保するため、たまにfstrimを実行した方が良いかもしれません。

　　例: sudo fstrim -v /

　　　　　　　（内部eMMCでブートした場合。SDカードなどの場合は / を変更）

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　では、また。

2016-10-15

Jetson TX1 でUSB3.0につないだSSDからUbuntuをBootしてみる。

Jetson-TX1

JETSON TX1の電源が壊れてから1.5ヶ月。

　交換品が戻ってきました。

f:id:TAKEsan:20161015142959j:plain

　　　　　　　　　　　　　　　　　　Jetson TX1本体はこんな感じ

f:id:TAKEsan:20161015143000j:plain

　　　　　　　　　　　　　分厚いアルミの放熱版でサンドイッチされてます。

　ちょうどJetpackが2.3にアップデートされていたので、最新版をインストールしてみました。最初の感想は、画面のもたつきや、起動時のHDMIディスプレイの認識不良がなくなり、市販ノートパソコン並みにとてもスムース。Bluetoothに接続した入力機器を起動時からストレスなく認識するようになりました。なぜかバージョンアップで、CPUスピードもintel Joule並みに早くなってます。下の方にZEDステレオカメラで画像測定を実行している動画を載せましたので、確認してみてください。

　待った甲斐がありました。やっぱハード発売からソフト安定まで１年以上かかるんですね。また、USBにつないだWebCAMERAをやっとVideo0で認識できるようになりました。ということは、OpenCVのカメラ系Exampleが修正なしで動くようになります。

　逆に弱点は、標準OpenCVやCaffeのインストールに特殊な前処理が必要になったことです。Torchに関して、現状インストールできないといった方が良さそうな感じです（時間の問題でしょうけど）。この辺りは後述します。

ここまで良くなると次はU-BOOTでOS選択。

※OSが3.1以降ではここに記述した方法ではSDカード、USB3.0共うまく起動できないようです。現在検証中なのでしばらくお待ち下さい。2018.3.20

　すなわち、本体内蔵のeMMCを使わずに、SDカードでUbuntuをブートさせることです。これが簡単にできると、応用の幅がグンと広がります。これが思いの外簡単に実現できました。いつものようにその後が地獄でしたけど。

f:id:TAKEsan:20161017200727j:plain

今回取り上げたSSD、Bluetooth入力機器、ZEDカメラを最小のマザーボードにTX1を取り付けてつないで、UbuntuはSSDから実行させてます。今回の操作は、すべてマザーボードにObrbitty Carrir for Jetson TX1を使ってます。

f:id:TAKEsan:20161017200728j:plain

　　　　　　　　　　　　　　TX１の大きさはPiとほぼ同じ

SDカードでUBUNTUブートを実現させるには

ヒントは

https://devtalk.nvidia.com/default/topic/923800/boot-from-sd-card/

の中ほどに書いてありました。次のようにします。

まずNvideaのホームページから

Embedded Download Center | NVIDIA Developer

最新版のSample filesystemとDriver PackagesをTX1にダウンロードします。ダウンロードしたファイルは今回バージョンの場合以下の２種類です。

Tegra210_Linux_R24.2.0_aarch64.tbz2

Tegra_Linux_Sample-Root-Filesystem_R24.2.0_aarch64.tbz2

　バージョンアップしたTX1にはWebブラウザが全く付いていません。（実はコマンドラインからchromium-browser と打ち込むとchromiumブラウザが立ち上がるんですが）

　　sudo apt install midori

で軽量なMidoriブラウザをインストールしました。ダウンロード用だけなら、TX1ではスピード的に全く問題ありません。

　ダウンロードにはNvideaへのログインが必要ありません。（現状の最新版は24.2です）当然最初は、本体のeMMCブートとなりますが、通常のバージョンアップをすると最終でも60%近くのeMMCディスク領域を使ってしまうので、ここからの操作は、ext4にフォーマットしたUSB接続SDカードなどで行うのが最良。本体のSDカードスロットは、OSインストール用に使います。

　まず、gpartedなどで、本体にセットしたSDカード（16G以上）をext4でフォーマットします。フォーマット領域は全領域で構いません。この時フォーマットした領域がemmcblk1p1であることを確認してから、TX1に上記2つのファイルをダウンロードしたディレクトリで次のコマンド群を実行。手っ取り早いのはdfコマンドで、ディスク接続内容を確認すればOK

f:id:TAKEsan:20161015103318p:plain

上の例では.dev/mmcblk0p1が内部eMMCの第1パーテーション、/dev/mmcblk1p1がSDカードスロットにセットしたSDカードの第1パーテーション。ちなみにsda2はUSBに接続したSSDの第２パーテーションです。

　今回の外部メモリへのOSインストール方法の良いところは、TX1上で全ての操作ができてしまうことです。操作は以下のようにコマンド入力します。朱書きで書いたディスク名称はくれぐれも間違えないように!!。この部分でOSの書き込み先を変更できます。

sudo tar xvpf Tegra210_Linux_R23.2.0_armhf.tbz2
sudo mount /dev/mmcblk1p1 Linux_for_Tegra/rootfs
cd Linux_for_Tegra/rootfs
sudo tar xvpf ../../Tegra_Linux_Sample-Root-Filesystem_R24.2.0_aarch64.tbz2

cd ..
sudo ./apply_binaries.sh

これだけです。コマンド間でちょっと時間が必要ですが、あとはブートディスク選択部分を書き換えるだけ。書き換えるファイルは、本体のeMMC入っている extlinux.confです。

cd /boot/extlinux

sudo nano extlinux.conf

次の様に直します、

TIMEOUT 30
DEFAULT sdcard

MENU TITLE p2371-2180 eMMC boot options

LABEL primary
MENU LABEL primary kernel
LINUX /boot/Image
INITRD /boot/initrd
FDT /boot/tegra210-jetson-tx1-p2597-2180-a01-devkit.dtb
APPEND fbcon=map:0 console=tty0 console=ttyS0,115200n8 androidboot.modem=none androidboot.serialno=P2180A00P00940c003fd androidboot.security=non-secure tegraid=21.1.2.0.0 ddr_die=2048M@2048M ddr_die=2048M@4096M section=256M memtype=0 vpr_resize usb_port_owner_info=0 lane_owner_info=0 emc_max_dvfs=0 touch_id=0@63 video=tegrafb no_console_suspend=1 debug_uartport=lsport,0 earlyprintk=uart8250-32bit,0x70006000 maxcpus=4 usbcore.old_scheme_first=1 lp0_vec=${lp0_vec} nvdumper_reserved=${nvdumper_reserved} core_edp_mv=1125 core_edp_ma=4000 gpt android.kerneltype=normal androidboot.touch_vendor_id=0 androidboot.touch_panel_id=63 androidboot.touch_feature=0 androidboot.bootreason=pmc:software_reset,pmic:0x0 net.ifnames=0 root=/dev/mmcblk0p1 rw rootwait

LABEL sdcard
MENU LABEL sdcard kernel
LINUX /boot/Image
INITRD /boot/initrd
FDT /boot/tegra210-jetson-tx1-p2597-2180-a01-devkit.dtb
APPEND fbcon=map:0 console=tty0 console=ttyS0,115200n8 androidboot.modem=none androidboot.serialno=P2180A00P00940c003fd androidboot.security=non-secure tegraid=21.1.2.0.0 ddr_die=2048M@2048M ddr_die=2048M@4096M section=256M memtype=0 vpr_resize usb_port_owner_info=0 lane_owner_info=0 emc_max_dvfs=0 touch_id=0@63 video=tegrafb no_console_suspend=1 debug_uartport=lsport,0 earlyprintk=uart8250-32bit,0x70006000 maxcpus=4 usbcore.old_scheme_first=1 lp0_vec=${lp0_vec} nvdumper_reserved=${nvdumper_reserved} core_edp_mv=1125 core_edp_ma=4000 gpt android.kerneltype=normal androidboot.touch_vendor_id=0 androidboot.touch_panel_id=63 androidboot.touch_feature=0 androidboot.bootreason=pmc:software_reset,pmic:0x0 net.ifnames=0 root=/dev/emmcblk1p1 rw rootwait

LABEL usbssd
MENU LABEL usbssd kernel
LINUX /boot/Image
INITRD /boot/initrd
FDT /boot/tegra210-jetson-tx1-p2597-2180-a01-devkit.dtb
APPEND fbcon=map:0 console=tty0 console=ttyS0,115200n8 androidboot.modem=none androidboot.serialno=P2180A00P00940c003fd androidboot.security=non-secure tegraid=21.1.2.0.0 ddr_die=2048M@2048M ddr_die=2048M@4096M section=256M memtype=0 vpr_resize usb_port_owner_info=0 lane_owner_info=0 emc_max_dvfs=0 touch_id=0@63 video=tegrafb no_console_suspend=1 debug_uartport=lsport,0 earlyprintk=uart8250-32bit,0x70006000 maxcpus=4 usbcore.old_scheme_first=1 lp0_vec=${lp0_vec} nvdumper_reserved=${nvdumper_reserved} core_edp_mv=1125 core_edp_ma=4000 gpt android.kerneltype=normal androidboot.touch_vendor_id=0 androidboot.touch_panel_id=63 androidboot.touch_feature=0 androidboot.bootreason=pmc:software_reset,pmic:0x0 net.ifnames=0 root=/dev/sda1 rw rootwait

　簡単に言えば元々記述してあるデータ extlinux.conf（黒部分）をコピーして、２回ペースト。各々青の部分を変更するだけです。ブート指定は緑の部分です。sda1とはUSB3.0に接続した外部記憶装置のこと、とりあえず追加しておくと後で便利。ここではsdcardでブートする設定です。内部eMMCブートの場合は緑の部分をsdcardからprimaryに変更するだけです。

ブートは内部eMMC上の/boot/extlinux/extlinux.confで判断する様なので、SDカードからBOOTしてもファイルマネージャーで内部eMMCを変更できるのでどうにでもなります。

　くれぐれもextlinux.confの書き換えは注意してください。間違えるとTX1に直結したターミナルでないとBOOTできなくなります。完了したら、　

sudo reboot -f

ワクワクの時です。

一応SDカードからBOOTできたものの

　なんか反応が鈍すぎる。まるで一時代前のPiでXwindowを操作してるみたいな....。

考えてみたら当然ですよね。どんなに早いSDカードを入れても、USB2.0並みの読み書きスピードですから。そこで、USB3.0対応のSDカードリーダーにSDカードを差してUSB3.0へ接続。extlinux.confの「DEFAURT sdcard」をDEFAURT usbssd に変えてrebootしてみました。こうすると内部eMMC並みのスピードになります。ここでUSB接続のSSDに変えたらどうなるんでしょ。そこで

USB3.0に接続したSSDにUbuntuを書き込んだら

（SSDにUbuntuをインストールして、上記茶色のemmcblk1p1 を　sda1に変更してリブート）

さらにサクサク快適！！。ノートパソコン並みになりました。でもここからが大変。

CUDA、cuDNN、OpenCV2.4.13、Caffeインストールがなかなか...。

　インストールしたUbuntuは、見た目がサクサクでも。サードパーティーのアプリケーションがインストールできない。という最悪の状況。

　ここからは失敗の挙句なんとか使える様にした結果です。Linuxに精通している方は笑っちゃって下さい。

まずCUDAインストール

　標準JetpackインストールでeMMCのhomeにインストールされたCuda-l4tをディレクトリごとBootしたhomeへコピー。

cd cuda-l4t

./cuda-l4t.sh cuda-repo-l4t-8-0-local_8.0.34-1_arm64.deb 8.0 8-0

でcuda8.0がインストールできます。でもこれだけではcuDNNが使えません。

次にcuDNN5.1インストール。

　一般的なlinuxへのインストール方法では全くダメでした。TX1へのインストールは、Ubuntu母艦環境でTX1のインストール時にダウンロードされたcuDNN-v5.1.zipを母艦からTX1のhomeへコピーすることから始めます。コピー方法はSDカードを使うなりなんなり各自考えて下さい。

　とにかくコピーしたら解凍して、中にあるlibcudnn5-dev_5.1.5.-1+cuda8_arm64.debを使います。同じディレクトリから、

sudo dpkg -i libcudnn5-dev_5.1.5.-1+cuda8_arm64.deb

sudo apt update

を実行。

これを実行するとdevcudnn-xxxxxをインストールしろとかなんとかメッセージが出るのでこの通り　sudo apt install XXXXXXXX でcuDNNをインストール。

（すいませんファイル名忘れました）

　Cuda8.0とcuDNN5.1が連携して、TX1最強のGPU環境が構築されます。home にjetson_clocks.shがインストールされてるんで　sudo ./jetson_clocks.sh を実行すると最速GPUクロックに変更されてFanが回り出します。卓上でTX１を使うには、これを実行するのが良いと思います。

　ここまで来ると、なぜかapt-getで自由にパッケージがインストールできる様になります。ここで、nanoやmidoriブラウザをインストールして、システムを最新にします

sudo apt update

sudo apt upgrade

かなり時間がかかりますが終了したらreboot。

ここからOpenCVとCaffeインストール

例によって依存アプリをいっぱいインストール

sudo add-apt-repository universe
sudo apt-get update

sudo apt-get -y install build-essential make cmake cmake-curses-gui g++
sudo apt-get -y install libavformat-dev libavutil-dev libswscale-dev
sudo apt-get -y install libv4l-dev
sudo apt-get -y install libeigen3-dev
sudo apt-get -y install libglew1.6-dev
sudo apt-get -y install libgtk2.0-dev
sudo apt-get install cmake git aptitude screen libboost-all-dev \
libgflags-dev libgoogle-glog-dev protobuf-compiler libprotobuf-dev \
bc libblas-dev libatlas-dev libhdf5-dev libleveldb-dev liblmdb-dev \
libsnappy-dev libatlas-base-dev python-numpy libgflags-dev \
libgoogle-glog-dev python-skimage python-protobuf python-pandas

sudo apt-get -y -qq install libgtk2.0-dev ocl-icd-opencl-dev qt5-default

　次にOpenCV2.4.13をインストール。（最初は何かと便利な2.4で状況を確認してから、必要に応じて3.0を再インストールすれば良い）

本家からOpenCV2.4.13をダウンロード。解凍したopencvディレクトリに入って

mkdir buikd

cd build

今回はOpenGLソースもコンパイルできる環境を作りたかったのですが、OpenCVのmake中、どうしてもGL部分で引っかかるので、これを参考

Jetson TK1 compile from source fails with cuda and opengl interop · Issue #5205 · opencv/opencv · GitHub

にcudaヘッダーファイルを変更。

sudo nano /usr/local/cuda/include/cuda_gl_interop.h

開いたら、前の方に書いてある

#ifndef GL_VERSION

#error Please include the appropriate gl headers before including cuda_gl_interop.h

#endif

#else

を削除。それからいつものようにcmakeしてmake。(11/8 赤部分の数値が文字化けしてました)

cmake .. \

-DWITH_OPENGL:BOOL=ON \

-DWITH_QT:BOOL=ON \

-DWITH_CUDA:BOOL=ON \

-DCUDA_ARCH_BIN=5.3 \

-DCUDA_ARCH_PTX=5.3 \

-DENABLE_FAST_MATH=1 -DCUDA_FAST_MATH=1 -DWITH_CUBLAS=1 -D CUDA_USE_STATIC_CUDA_RUNTIME=OFF\

-DCMAKE_INSTALL_PREFIX=/usr/local \

-DBUILD_TESTS:BOOL=OFF \

-DBUILD_PERF_TESTS:BOOL=OFF \

-DWITH_FFMPEG:BOOL=OFF \

-DENABLE_NEON:BOOL=ON \

-DBUILD_EXAMPLES:BOOL=ON \

-DINSTALL_C_EXAMPLES:BOOL=OFF \

-DINSTALL_PYTHON_EXAMPLES:BOOL=ON \ ..

make -j4

驚くほどワーニングが出ますが、一応OKみたいです。

　すでにpython cv2ライブラリがインストールできています。cuda8.0になってNVCCコンパイル時間が早くなってることが確認できました。

次にcaffe

　Opecvがインストールできたら、Caffeは簡単。問題が多かったのですが、最終的に前の記事通りでOK。Pycaffeはインストール中エラーが出ますが、そのままコンパイルできるので一応対策は考えないことにしました。

Makefile.configの書き換えが必要。次の通り

## Refer to http://caffe.berkeleyvision.org/installation.html

# Contributions simplifying and improving our build system are welcome!

# cuDNN acceleration switch (uncomment to build with cuDNN).

USE_CUDNN := 1

# CPU-only switch (uncomment to build without GPU support).

# CPU_ONLY := 1

# uncomment to disable IO dependencies and corresponding data layers

# USE_OPENCV := 0

# USE_LEVELDB := 0

# USE_LMDB := 0

# uncomment to allow MDB_NOLOCK when reading LMDB files (only if necessary)

# You should not set this flag if you will be reading LMDBs with any

# possibility of simultaneous read and write

# ALLOW_LMDB_NOLOCK := 1

# Uncomment if you're using OpenCV 3

# OPENCV_VERSION := 3

# To customize your choice of compiler, uncomment and set the following.

# N.B. the default for Linux is g++ and the default for OSX is clang++

# CUSTOM_CXX := g++

# CUDA directory contains bin/ and lib/ directories that we need.

CUDA_DIR := /usr/local/cuda

# On Ubuntu 14.04, if cuda tools are installed via

# "sudo apt-get install nvidia-cuda-toolkit" then use this instead:

# CUDA_DIR := /usr

# CUDA architecture setting: going with all of them.

# For CUDA < 6.0, comment the *_50 lines for compatibility.

CUDA_ARCH := -gencode arch=compute_30,code=sm_30 \

-gencode arch=compute_35,code=sm_35 \

-gencode arch=compute_50,code=sm_50 \

-gencode arch=compute_53,code=sm_53 \

-gencode arch=compute_53,code=compute_53

# BLAS choice:

# atlas for ATLAS (default)

# mkl for MKL

# open for OpenBlas

BLAS := atlas

# Custom (MKL/ATLAS/OpenBLAS) include and lib directories.

# Leave commented to accept the defaults for your choice of BLAS

# (which should work)!

# BLAS_INCLUDE := /path/to/your/blas

# BLAS_LIB := /path/to/your/blas

# Homebrew puts openblas in a directory that is not on the standard search path

# BLAS_INCLUDE := $(shell brew --prefix openblas)/include

# BLAS_LIB := $(shell brew --prefix openblas)/lib

# This is required only if you will compile the matlab interface.

# MATLAB directory should contain the mex binary in /bin.

# MATLAB_DIR := /usr/local

# MATLAB_DIR := /Applications/MATLAB_R2012b.app

# NOTE: this is required only if you will compile the python interface.

# We need to be able to find Python.h and numpy/arrayobject.h.

PYTHON_INCLUDE := /usr/include/python2.7 \

/usr/lib/python2.7/dist-packages/numpy/core/include

# Anaconda Python distribution is quite popular. Include path:

# Verify anaconda location, sometimes it's in root.

# ANACONDA_HOME := $(HOME)/anaconda

# PYTHON_INCLUDE := $(ANACONDA_HOME)/include \

# $(ANACONDA_HOME)/include/python2.7 \

# $(ANACONDA_HOME)/lib/python2.7/site-packages/numpy/core/include \

# Uncomment to use Python 3 (default is Python 2)

# PYTHON_LIBRARIES := boost_python3 python3.5m

# PYTHON_INCLUDE := /usr/include/python3.5m \

# /usr/lib/python3.5/dist-packages/numpy/core/include

# We need to be able to find libpythonX.X.so or .dylib.

PYTHON_LIB := /usr/lib

# PYTHON_LIB := $(ANACONDA_HOME)/lib

# Homebrew installs numpy in a non standard path (keg only)

# PYTHON_INCLUDE += $(dir $(shell python -c 'import numpy.core; print(numpy.core.__file__)'))/include

# PYTHON_LIB += $(shell brew --prefix numpy)/lib

# Uncomment to support layers written in Python (will link against Python libs)

WITH_PYTHON_LAYER := 1

# Whatever else you find you need goes here.

INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial

LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/aarch64-linux-gnu/hdf5/serial

# If Homebrew is installed at a non standard location (for example your home directory) and you use it for general dependencies

# INCLUDE_DIRS += $(shell brew --prefix)/include

# LIBRARY_DIRS += $(shell brew --prefix)/lib

# Uncomment to use `pkg-config` to specify OpenCV library paths.

# (Usually not necessary -- OpenCV libraries are normally installed in one of the above $LIBRARY_DIRS.)

# USE_PKG_CONFIG := 1

# N.B. both build and distribute dirs are cleared on `make clean`

BUILD_DIR := build

DISTRIBUTE_DIR := distribute

# Uncomment for debugging. Does not work on OSX due to https://github.com/BVLC/caffe/issues/171

# DEBUG := 1

# The ID of the GPU that 'make runtest' will use to run unit tests.

TEST_GPUID := 0

# enable pretty build (comment to see full commands)

Q ?= @

朱書き部が修正したところです。ここまで来るには、cuDNNのインストールやMakefile.configの修正に手間取って無駄な時間を過ごしてしまいました。

今度は、ipython notebookが正常に動かない

　CaffeのExampleに入っているnotebookファイルが全く動きません。使ってみると分かるんですが、これ最高のライブラリなんです。原因はソフトが変更されたからみたいです　jupyterに！！。本当にもう。

　sudo pip install jupyter でインストールできます。試しにcaffe/examples から　jupyter notebook と打ち込むと、midoriからnotebookが立ち上がります。動作を確認するため00-classification.ipybを選択。初めての人は私のように驚いてしまうでしょう。

f:id:TAKEsan:20161015115743p:plain

macにインストールしたCaffe examples からnotebookを立ち上げた例。Pythonで書かれた例題が画像を確認しながら実行できる。

全部終わったと思ったら

ubuntu software（前のUbuntuソフトセンター）設定の中の「ソフトウエア&アップデート」と言語サポートが正常に動かない。これは、どっかのターミナルでsudo aptd を実行したままにすれば。とりあえず動作。まーapt-get またはaptでパッケージが普通にインストールできるので良しとしました。

最後に

　caffeのexampleは全て完璧に動きます。しかも確実に前より早く。Mnistのスクリプトを実行してみると、

./data/mnist/get_mnist.sh

./examples/mnist/create_mnist.sh

./examples/mnist/train_lenet.sh

学習スタートから終了まで以前の最速環境で3分21秒に対して、2分36秒で終了。１分近く早くなってました。

　Torchはインストールできませんでした。ここ10日前後でインストールできた方がいるようですが、その通りスクリプトを実行してもビルドが止まってしまいます。解決は時間の問題だと思いますので、もう少し待ったほうが良いようです。

　Nividiaが説明していますが、DIGITSはTX1にインストールできません。TX1が早いと言っても　i7 6700クラスでデープラーニングを実行した場合 i7より早いというだけです。（これだけでもすごいことですけど）本格的な学習を簡単に実行できるのがDIGITの売りですから、10倍以上早いGPU環境でないと全く実用的ではありません。最小の大きさで、学習済みデータを最速に実行できるのがTX1の特徴です。しかもGPIO制御もできる。もー夢がいっぱい広がります。DIGITSに執着しないで他のことを目一杯楽しみましょう。

　ZEDも試してみましたが、これもすごかったですよ。先のjetson_clock.shを実行させてからZEDのtoolsを試しに実行させてみるとこんな感じでした。（最近Cuda8.0用にバージョンアップされた）

　ステレオカメラで入力したデータを分析して、右側で取り込んだ画像の深度=距離を確認できます。画像の鮮度やスピードに関しては言うことありません。（TX1では1080X720 30fpsが限度みたいです）現状TX1では、OpenCV側のバグでZED SDKがコンパイルできません。これも時間の問題。

　母艦1080GPU環境では、1080x720で60fpsがステレオ2画面で実現できます。今までのWebCamera 30fsと比較するとリアルさがぐっと増します。まるで空気まで表現できる様な感じでした。

　WindowsではZED fuというサンプルが実行できます。これって何かというと、ZEDで写した画像をタイムリーに3D画像に変換できて、ZEDを移動させると3Dデータが自動連結されるサンプルなんです。

　　　　　　　　基本設定画面。ここからカメラを持って周囲のデータをを記録させる

　　　　　　　記録されたデータを3Dデータに変換。メッシュで確認もできてしまう！！

　去年あたり長崎大学が、ドローンを使って軍艦島の3Dデータを作っていたことが話題になりましたが、これを手元で実現できることになります。衝撃以外の表現が見つかりません。

　ちょっと金銭的に無理をすれば、最小の大きさで、画像深度も、ディープラーニングも、それに関連付けた外部センサーなんかも実用レベルで、しかも個人レベルで実現できるんです。なんて幸せな時代なんでしょうか。

f:id:TAKEsan:20161017200729j:plain

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　では、また。

2016-09-29

Intel Joule でビックリしたこと。

Intel Joule

ビックリしたこと１

金額がEdisonの4倍超になった！！　高〜〜〜〜〜い。

f:id:TAKEsan:20160929203704p:plain

　　　　　　　　　　　　　　Mouser 価格！！

ビックリしたこと２

見た目が重厚で所有満足度大。

f:id:TAKEsan:20160929203540j:plain

f:id:TAKEsan:20160929203433j:plain

　Joule本体は安っぽさが微塵もありません。Edisonは本体がアルミ箔で覆われているような感じだったので、価格差分高級感が増しました。おまけにアルミ製の放熱板までついてます。

f:id:TAKEsan:20160929203500j:plain

　　　　ボード全体が何故か重い。価格が高そうな感じ。小さなLEDが多くて楽しそう。

　Kitのボードは、他のインテル製品と同様相変わらず大変クォリティがよろしい。Arduinoや馬鹿高いTX1用のサードパーティボードとは異次元。

ビックリしたこと３

スピードが速かった。

　pythonが標準で付いているので。前々回使ったPython用のテストを実行してみたら12秒でした。これはPi3やTX1（その後おかしいと思ってTX1のOSをバージョンアップしてから再計測したら11.5秒前後でした。つまりJoulと同等）の３倍以上になります。でも、蛇足ですがIntel i5やi7の方がJouleの２〜４倍以上早いのも確か。消費電力の差を考えたら、こんなもんでしょ。iPhone7が発売になりましたが、向こうはARMの発展版なので、早くなったとしてもCPU性能はこちらの方が多分上です。

　消費電力は確認してませんが、Iot制御を主目的にしてるなら既存のボードの中で、CPUスピードでは最速の部類じゃないでしょうか。（TX1はGPUという名のバズーカを抱えているので比べ様がないけど、ものによってはダントツに早い）Pi3が来年あたりバージョンアップしてもこの開きは埋まらないことでしょう。

ビックりしたこと４

OSがイマイチでビックリした。

　やはりハードメーカーってことでもないんでしょうが、ソフトが全然追いついていません。8月のバージョンはバグがいっぱい。なんでこんなわけのわからないOSをつけたんでしょうか？。Yoctoの進化系ということで、Edisonと同じ使い勝手を想像してたのが、そこにも到達していないような、全く期待を裏切られました。今の所Ubuntuで言う所のapt-get すなわちopkgも全く使えません。なので汎用パッケージのインストールは今の所ソースをダウンロードしてコンパイルするしかありません（PIPはソースからインストールすれば大丈夫）。スピードがEdisonやPi3と違うのでコンパイル時間もあまり気になりませんがっ。このあたりが面白いっちゃー面白いんですが。

　そこでopkgのソースをダウロードしてコンパイルしてみましたが、ライブラリのバージョンが違う（GPMG1.0.0以上にしろとか）と怒られました。一筋縄ではいかないようなので、時期バージョンアップ待ち。今回のOSバージョンは、opkg関連の他のコマンド（opkg.pyとか）が使えるのでメーカー側が入れ忘れたか何らかの理由で諦めたかでしょうけど（私の知識不足だったらごめんなさい）。

　Joule発表時に取り上げてたUbuntuもWindows10もまだ公式に対応していません。（成功している人がいるようですがGPIOが使えないようです。今トライ中ですがうまくいきません）メーカーのコミュニケーション情報を見ると今年中とか。ハード発売をなんでこんなに急いだのでしょうかネ？

すごくビックりしたこと５

　詳細なインストール手順IoT - First-time setup | Intel® Softwareが作ってあるのですが、私が期待していた画像に関する詳細説明が全く無し。ディレクトリ内部を見てみると　/usr/share にX11 やOpenCV が鎮座していて、OpenCVに関してはexampleのコンパイル済みバイナリファイルやPythonのexsampleが存在しています。

　もしやと思い、コネクタを買ってHDMIディスプレイを接続、そしてキーボードをUSB3に直結、再起動すると。

f:id:TAKEsan:20160929203341j:plain

f:id:TAKEsan:20160929203534j:plain

　なんとディスプレイにログが表示されて、キーボード入力可能！！。startx コマンドを試しに実行したら、Xwindow画面が現れるではありませんか！！。Pi3用IGZOでも汎用HDMIディスプレイでも。TX1には無いデイスプレイを選り好みしないすんなり感。

　USBカメラをつないで、このXwindow画面から

　　　　　　　/usr/share/OpenCV/examples/python/

に行ってpython video.py を実行してみたら、

　簡単に画像をキャプチャーしてしまいました。しかも表示のスムーズさは前回取り上げたゲーミングパソコン並み。CPU部分がPi3やTX1とは格段に違うんですから当然っちゃー当然ですけどっ。これって感覚的にGPIO付きの、ハダカの、超小型比較的高速パソコンです。

　なので今回最大のビックリ！！　-------ちょっとXwindowが不安定のようですが..........。

　PiとかTX1とかなら当たり前の事ですが、Edisonをたくさん触ってた者とすりゃ、そりゃ驚きます。　　

ビックリしたところ６

　取説の何気ないところに書いてあるんですが、何せ英文。Bootを説明通りSDカードにインストールしてもBios選択できません！！すなわち取説に書いてある選択の鍵となるF2キーをScreen接続では認識しないんです。いろいろ調べたら、キーボードはUSBコネクタに直付けしたらいいような.........。認識しました。最初からこう書けばいいのに。--->ただしF2キーだけ認識。他の操作はScreen接続した端末から。

　あと、SDカードは16Gしか受付ません。32Gも64Gも全然ダメでした。メーカーがScanDiskの最速SDカードでもですよ。

　本体付属の超遅い16G SDカードは正常にBoot可能（当然内蔵eMMCも）。それ以上のメモリが必要な場合は、USBしかダメっす。USBメモリにインストールした各種OSを使い分けるには超便利。でも今の所サポートOSは１種類のみ。

　OSをインストールしたUSBメモリは、Edisonの初期の頃のように作業領域が小さく固定されている（全体で4G以下）ので、容量の大きなUSBメモリを使うには、要拡張。他のUbuntuパソコンのGパーテッドで簡単に拡張できました。

その他

　非常にわかりにくかったのですが、WifiやSSH設定は簡単につながりました。 SSH接続状態は反応が鈍くならないので、Pi3やTX1よりWiFiチップの性能がいいような。

　いろいろ変なことを書きましたが、感覚的に基本性能はさすがです。この機器の本領を発揮するのは、時期OSのバージョンアップと、Ubuntuがリリースされた時の様です。とってもすごくなりそうな予感❤️　ってことで　今日もおしまい。

その後さらにビックリしてしまうこと。

　この記事を書いた当時は、開発環境に落胆して、Intelに今後を託した感じになりました。海外のWebページを読み漁りながら、ほぼ自力で２ヶ月後には、こうなることになります。

takesan.hatenablog.com

基本性能の良さが功を奏し、もうiMacやUbuntu母艦はいらない感じ！！。と言ったらビックリしていただけマスでしょうか。

2016-09-23

ROBOX のDual Material Head キットがやっと来た。

robox

思い起こすこと今年の１月半ば。

ROBOXの２色ヘッドをイギリスに注文したのは。それがやっと9月22日に到着しました。あー長かった　ちょうど８ヶ月かかりました。

f:id:TAKEsan:20160923215029j:plain

　　　　　　　　　　　　　　　　一見交換が簡単そうだが実は.....。

f:id:TAKEsan:20160923215136j:plain

　　　　　　　ちょっとノズルが汚れているノーマルヘッドとピカピカのDual Material ヘッド

　日本では先月あたりからCGコミュニケーションズさんが取り扱い始めたようです。

　3回ほど催促メールを出したのですが、自分たちもブログで書いているように、小さな会社なのでしょうがないですね。でも結構良心的な返信メールでした。

　Robox本体は、あまりにも売れすぎて（歯科大学が大量に買い占めたとか）イギリス国内では、本体もここ１ヶ月くらいBack Oder状態の様です。

　届いたものは、ヘッド交換だけかと思いきや、完全なキットで、本体はおろかヘッドのベースまで分解して交換。部品内容を見て恐れおののいてしまいました。（上記写真右側の小袋と、中央のフレキシブルケーブルががクセモノ）

交換方法は動画を見ながらです。

　　　www.youtube.com

ケースのばらし方がわからなかったのですが、比較的簡単にバラバラになることがわかりました。ただし両側面に関しては力技が必要です。くれぐれもカバーを壊さないように。

　バラして組み上げるのに、3時間くらいかかりました。結構重い本体を逆さにしたり、横に倒したりしながら分解していかなければダメなので、腰が....。中身を開けて気付きますが、まー良くできてます。大昔Civicのエンジンルームを改造しているような感覚。

　ROBOXはそもそもセンサーや、ステッピングモーターがてんこ盛り。Dual Material Head キットの組み込みは、規模の大きなロボットを作っているような感覚なので、私の工作欲求が解消されてしまいます。

　一番分かりにくかったのはヘッドのベースで、下の写真のフィラメントを通す２個の金属部品。これは2mmの六角ドライバを差し込んで、ネジ切りしていないヘッドベース部品の穴にかなり力を入れて固定します。見た目が円形なのに奥の方が6角形になってました。（ビデオを見ても何を使ってるのかわかんない）

f:id:TAKEsan:20160923214926j:plain

結局使った工具は

f:id:TAKEsan:20160923221731j:plain

このほかにラジオペンチとROBOX付属のピンセット。右のドライバセットは上の金属部品を取り付けるためだけに購入（首が細く長くないとダメ）。

とりあえず完成したものの........

　電源を入れても内部照明すら点灯しません。本体の価格を考えると、サーッと血の気が引いていきました。こんな時は即電源OFF。焦げた匂いがしないのでとりあえずは大丈夫そう。

しょうがないので、フィラメントローダー２個、ヘッドへ供給している信号線と電源を切り離し再度電源、すると　照明が点灯。

f:id:TAKEsan:20160923215427j:plain

　　　　　　　　　このLED照明が点灯したらひとまずすべての配線がうまくいっている合図

次に、フィラメントローダー再接続-->照明が点灯！！。

ヘッドコネクタ接続-->照明つかない。（ヘッドへの電源は不安なので点検が済むまで接続しない）

ってことでヘッドからみの問題なのが発覚しました。

　ため息をつきながら一番大変なヘッド部品のバラし。また本体の大部分をバラバラにしなければなりません。ヘッドベース（上の写真中ドライバ群の上の黒いプラスチック部品）の中身を付属のアルコールクロスで丹念に清掃。コネクタ類を再点検。特にヘッドに供給している電源は逆だとオシャカになるので再々点検。危なそうなヘッドとベースの接触部分も丹念に清掃。ドライバで少しゴシゴシ。一応全部組み立てないで、コネクタ接続。照明が...............ついた。

　動くこと間違いなし！！　と自分に言い聞かせることに。やっぱどっかのコネクタがの接触がうまくいってなかったことになります。ですからこれからの方はこの辺りにご注意を。

　メーカーからの説明がありませんが、今回の経験上、どうやら電源スイッチを入れて本体内部のLEDが点灯するかどうかが成功の鍵のようです。

f:id:TAKEsan:20160923215247j:plain

２個目のフィラメントはもともと本体についているフィラメントホルダを延長しておんぶしている感じ。大概のサードパーティー製フィラメントが取り付けられそう。外部に別ホルダを置くと印刷中の管理（からまってしまわないように）やスペース確保が大変なんですが、これなら納得。

というわけで、この点検作業が＋2時間。

　本体がかなり小さい上に、可動部が集中しているので、年寄りには一苦労。結構おもしろーござんした。

f:id:TAKEsan:20160923214851j:plain

　　　　　　　小さな空間にステッピングモーター５個。モーターの下にはCPU基盤

　おかげさまで、以前のヘッド修理と、今回の大改造で、次にトラブっても直せる自信がつきました。

　組み立て中は、けっこうせっかちな性格なので、かなりラフに扱っていましたが、ほとんど印刷物に影響がありませんでした。組み立て精度の正確さが要求される3Dプリンタですので、ここまで内部に変更を加える必要のあるキットをすべてのユーザー対象に販売していることを考えると、各部の自動調整機能にかなり自信を持ってるんでしょうね。

　取り付けたDual Materialヘッドは、ノーマルヘッドよりシビアな調整が必要なようです。特にキャリブレーションは何度も実行して、最良にするのがベターです。

　で、やっとなんとかなったパージマテリアルです。ヘッドに溜まった古いフィラメントを新しいものに変える自動機能ですが、ちゃんと交互に吐き出しています。

f:id:TAKEsan:20160923214816j:plain

ノズルアライメント（ヘッドのXY方向調整）試験も２色出力してました。

f:id:TAKEsan:20160923215353j:plain

　２色分けしたモデルを作るのがめんどくさいので、本体とサポートで、色分けしてみました。

f:id:TAKEsan:20160923215210j:plain

3Dプリンタでよく使われるこのモデルは、かなり意地悪に作られています。出力モードは、NOMAL。もう少し調整が必要。黒いところはサポートです。本来は水に溶けやすいサポート用フィラメントを使えば、普通の3Dプリンタでは不可能な造形もプリント可能となるはず。

　前にTグレースフィラメントを使った時、段差が極端でも美しいと感じるものができる経験をして以来、3Dプリンタに関しては詳細な再現性にあまり意味を感じなくなりました。

　プリンタの基本性能さえよければ、フィラメントを使い分けることと、モデルの作り方でいかようにもなるんですからねー。

　そういった点では、２種類のフィラメントを簡単に使い分けられるので、すごく楽になりました。

f:id:TAKEsan:20160923215102j:plain

一応前に使ったテストモデルをノーマル（右）とファイン（左）で出力。0.4mmヘッドになったので少し雑になるかとは思っていたが、感覚的には0.3mmヘッド比較してと大きな変化はなし。印刷スピードはノーマルヘッドと同じようでした。

前のヘッド簡単に使えるんでしょうか？。

　ヘッドの構造やフィラメントの送り出し方法が全く違うので疑問だったのですが、見事にパス。ヘッドを自動判別して、すぐにプリントを開始しました。ただしキャリブレーションは必要です。そうそう。ノーマルヘッドでは、使えるフィラメントは1種類だけです。でもこれで、当初の狙い通り３種類の太さが違うノズルを簡単に使い分けできることになりました。

f:id:TAKEsan:20160923215350p:plain 　 f:id:TAKEsan:20160923215347p:plain

　　　　　　　　　左がDual Materialヘッドで右がノーマルヘッドを交換した時

　ROBOXを手に入れてから、他の機種の取り扱い説明などを冷静に眺めていますが、プリント開始方法、フィラメント挿入方法や調整も、改めてすごく簡単であることを感じています。

　唯一不便なのは、安全のためベッドが冷えないと蓋が開かないこと。また分解して鍵を取っちゃえばいいことなんですけど。急いでいるとちょっとムカついてきますが、今回はあーよかったということでおしまい。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　では　また。

2016-09-17

ゲーミングパソコンでDigits 実行環境の整備

Linux

　以前私のiMac にCaffeをインストールしています。スピードは練習用としてはそこそこだったのですが、すぐにGPUメモリーが不足してしまい、サンプルプログラムさえ工夫をしなければ、まともに動かないことが発覚していました。

　ディープラーニング勉強中の身としては、Caffeを簡単に実行できるDigits環境がどうしても欲しくなります。ちょうどTX1ボードが、使っている最中に電源チップから煙が出てきて、電源部がオシャカになったので修理中。確認だけでも1.5か月かかるとか。腹を立ててもしょうがないので、以前Macbook用に買ったSSDも余ってるし、思い切って生命保険を整理見直しして、とりあえず資金を集めゲーミングパソコンを手に入れることにしました。

　個人レベルで中身も弄くり回せて現状現実的でスピードの早いもの。i7 6700K +GTX1080が入ったゲーミングパソコンを物色。結果こんなのを入手。 f:id:TAKEsan:20160916225656p:plain 「Lev-C017-LCi7-VNS」。驚異の戦闘力だそうです。BTOでCPUをi7 6700Kに変え、メモリを16Gに変更、さらにHDDを追加。３日くらいで到着しました。基本的に市販部品の組み合わせなので、自分で拡張可能です。

　昔買ったPower Macのミニタワーが大きすぎて印象が最悪だったので、BTOゲーミングパソコンとしては一番小さくてGTX1080が動作可能パソコンを選択。

　ケースが小さくなると当然GPUが1つしか刺せませんが、資金はこれ以上一切出せない状況になったので、これで良し。3年間使用したiMacが壊れたら次期ホストマシンにすることにしました。

　単精度浮動小数点演算指標がiMacのGTX675MX=1.152TFlopsに対してGTX1080は8.9TFlopsとのこと。単純に７倍くらいの差があることになります。実際どうなのかはとても興味深いところですが、少なくてもCaffe実行で今使っているiMacの３倍以上になれば、とても快適になるはず。GPUメモリも8G積んでいるので少し大きめの画像学習もなんとかなるでしょう。

　果たしてゲーミングパソコンで実用的なニューラルネットワークが実現可能かどうかが一番のネックですけど...........。

　Webを調べると、ゲーミングパソコンはニュラールネット構築にはあまり勧められないような記事が結構多いので不安ですが、所詮パソコンの内容は同じ。部品の耐久性だけの問題。と割り切ることにしました。

　届いたパソコンに、ほとんど使わなかったintel SSD 480を取り付けて見ました。

　　 f:id:TAKEsan:20160916225659j:plain 　　　　 f:id:TAKEsan:20160916225658j:plain

f:id:TAKEsan:20160916225657p:plain

　　　　　　　　　　　矢印部分が手持ちSSD。取り付けはとっても簡単

　すでに電源コネクタなんかも配置されてて、SATA コネクタも添付されているので。増設はいたって簡単。標準のSSDはWindows用に、さらにハードディスクは２分割してWindows10(D)デッキとUbuntu14.04に。そして増設SSDは別のUbuntu14.04だけとし、トリプル起動させるように設定しました（単純にOpencv3.1と2.4を使い分けたいだけです）。

　OSの選択方法が疑問でしたが、パソコン起動時にF11を押して起動ディスクを選択すればOK。スムーズに選択できてます。Ubuntuインストールは Macで慣れてしまっているのでとても簡単でした。

　まず本体の動作スピードですがIntel i7ってとても進歩してます。いつものpython スピードテスト（この方Shibu's Diary: PyPyよりも5倍高速な最速のPython処理系

が作ったシンプルなプログラムですが、シングルコアのスピード確認方法として重宝してます）

import time

def fib(n):

if n <= 1: return n

else: return fib(n-2) + fib(n-1)

def entry_point(argv):

a = time.time()

result = fib(36)

timespan = time.time() - a

print result

print timespan

return 0

def target(*args):

return entry_point, None

if __name__ == "__main__":

import sys

entry_point(sys.argv)

　私自身i7の進化は期待していなかったのですが、想定外でした。確かPi3≒40秒前後、iMac≒10.8 4.76秒に対して今回のマシンは3.2秒でした。何回実行しても3.2秒前後。（iMacは前にCaffeをインストールした時anaconda環境に変えたので２倍くらい遅かったみたいです。後からPython2.7.12を再インストールしたら4.76秒になりました。anaconda要注意！！2016.9.26　Pi3やTx1はもう一度試してみます。TX1についてはPi3と比較して、クロックスピード分程度の速度差と記憶してます）

クロックスピードの違いを加味しても、ARM系のCPUとIntel i7では処理スピードに圧倒的な差があることがよくわかります。

　これであれば遅いことで有名なPythonもサクサクのはずです。また、３年前の3.4 GHz Intel Core i7と4.0GHz Intel Corei7 6700Kとではクロックスピード向上程度の進歩がありました。

　CPUスピードアップに伴いLinux環境も非常に良くなって、Pi3やTX1(Pi3より確実に早いが不安定)と比較してサクサク感は、水アメと水の差くらい違います。スピードが極端に上がることで、今まで「おもちゃ」にしか見えなかったフリープログラムのlinuxアプリがOSXやWindowsと肩を並べてしまう事が新鮮な驚きでした。

　インストールしたubuntuは、14.04です。16.04もインストールしてみたのですが、OpenCVやCaffeのインストールがどうしてもうまくいかないので止めました。新しいものを使いたいのは山々ですが、いじくりまわすには安定している14.04に軍配が上がります。

最初にCuda8.0rc、Cudnn5.1、グラフィックスドライバをUbuntu環境にインストール。

素人がCaffeを使ってDeepLearningしてみた(導入編) - Qiita

を参考にさせていただきました。

　GTX1080の該当ドライバは、Cuda8.0rc、Cudnn5.1、Nvidia370.28グラフィックドライバです（Nvidia367.44でも可能）。

　準備はCuda8.0rc（本体とパッチプログラム２本）とCudnn5.1をNvideaからダウンロード。

　手順はグラフィックドライバインストール->Cuda->cudnn->グラフィックドライバ重ね書きです。Cudaをインストールすると確実に画面がおかしくなるのでRebootする前にグラフィックドライバを重ね書きしておきます。上記2本のDEPファイルおよびCudnnの解凍済みファイルと、下記赤部分を記入したシェルスクリプトファイルを作って１つのフォルダに入れておくと後々すごく便利。

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-get update

sudo apt-get install nvidia-370

sudo apt-get install mesa-common-dev

sudo apt-get install freeglut3-dev

　これを最初に実行することで、画面解像度やloginできなくなった時、後から簡単に元に戻すことが可能（設定->ソフトウェアとアップグレード->追加のドライバーを開けると確認できます。別の端末からssh接続してsudo apt-get install nvidia-367 --reinstallを実行するだけ）

　そうそう。一番最初にsudo apt-get sshでsshをインストールしてreboot。他のコンピューターからSSH接続してから、その端末で以下を操作する方法が最良だと思います。

sudo apt-get --purge remove nvidia-*

sudo dpkg -i cuda-repo-ubuntu1604-8-0-rc_8.0.27-1_amd64.deb

sudo apt-get update

sudo apt-get install cuda

sudo apt-get remove --purge -y cuda-repo-ubuntu1604-8-0-rc

sudo dpkg -i cuda-misc-headers-8-0_8.0.27.1-1_amd64.deb

sudo cp cuda/lib64/* /usr/local/cuda/lib64/

sudo cp cuda/include/* /usr/local/cuda/include/

sudo apt-get install nvidia-370 --reinstall

(9/29 追記：Cuda8.0が変更になって、パッチファイルがなくなり１本になりました。上記はubuntu16.04用のCudaを14.04にインストールしちゃってます。グラフィックドライバがおかしくなるのはこのあたりかもしれません。新しいCudaは画面正常！！)

これらが無事インストールできたら

sudo nano ~/.bachrc で最後に以下を追加書き込み。

export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

export LD_LIBRARY_PATH=/usr/local/lib${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

export CUDA_HOME=/usr/local/cuda

保存してから、

sudo reboot

　今回の経験上、Nividiaドライバ関連は、runファイルでインストールしない方が画面がおかしくなる等、パニックにならないで済む様です。

　最初はグラフィックスドライバーがインストールされていないので画面が荒いのですが、ここを我慢して上記の通り必要ファイルを全部入れておきます。リブートしてから、画面が詳細モードに変わっていればOK。

　注意しなければならないのは、これらドライバを入れてから　　sudo apt-get upgradeすると「cuda8.0ドライバが必要無くなったので　sudo apt-get autoremoveして下さい」と出力されことです。が、ほっときましょう。autoremoveを実行してしまうと、せっかくインストールしたCaffeやOpencvが動かなくなります。他のソフトをインストールして不要ファイルが更に溜まって来た時はしょうがないので、autoremoveしてNvidiaドライバ関連を入れ直します（結構めんどくさい。だからシェルスクリプト！！）。どうやらNvidiaの優秀なソフトエンジニアの皆様は最終的に個別OSの実行確認をしていない様です。

次にOPENCV

　OpenGL OPenCL CUDA　qt５関連も全部入れてしまいました。これでOpencvのexampleは全て実行可能になります。

　ビルド時一番の注意点はCUDA_ARCH_BINの番号。散々エラーが出て悩みましたが、GTX1080は6.1を指定すれば簡単にインストールできることが分かりました。

　まず依存ファイルインストール。Caffe分も含めて多分これで全部です。python-opencvは故意に外してあります。

sudo apt-get install qt5-qmake

sudo apt-get install qt5-default

sudo apt-get purge python-pip

wget https://bootstrap.pypa.io/get-pip.py

sudo python get-pip.py

sudo add-apt-repository universe

sudo apt-get update

sudo apt-get install cmake git aptitude screen g++ libboost-all-dev \

libgflags-dev libgoogle-glog-dev protobuf-compiler libprotobuf-dev \

bc libblas-dev libatlas-dev libhdf5-dev libleveldb-dev liblmdb-dev \

libsnappy-dev libatlas-base-dev python-numpy libgflags-dev \

libgoogle-glog-dev python-skimage python-protobuf python-pandasÂ

何でもかんでも入れちゃいます。そしてお好きなバージョンのOpencvをダウンロード。

　解凍してOpencvのフォルダに移動しますが、Opencv3.1.0を入れたい場合は、Cuda8.0を使うためのソース変更が必要です。これで簡単に3.1.0がインストールできます。（2.4.13は修正不要）

nano modules/cudalegacy/src/graphcuts.cpp　で45行付近

#if !defined (HAVE_CUDA) || defined (CUDA_DISABLER)

をこれに変える

#if !defined (HAVE_CUDA) || defined (CUDA_DISABLER) || (CUDART_VERSION >= 8000)

だけ。あとは通常どおり

mkdir build

cd build

cmake -DWITH_CUDA=ON -DCUDA_ARCH_BIN=“6.1” -DCUDA_ARCH_PTX="" -DENABLE_FAST_MATH=1 -DCUDA_FAST_MATH=1 -DWITH_CUBLAS=1 -D WITH_OPENCL=ON -D WITH_QT=ON -D WITH_OPENGL=ON -DBUILD_TESTS=OFF -DBUILD_PERF_TESTS=OFF -DBUILD_EXAMPLES=ON -D BUILD_opencv_python2=ON -D PYTHON_EXECUTABLE=$(which python) ..

sudo make -j8

sudo make install

　ワーニングが多少出ますが、すんなりコンパイルできます。ビルド中観察して見てるとOpencv2.4.13の方がNVCCを使う時間が多い様な...。感じ。コンパイルできたら、以下を直すことでopencvを使ったgpuやcコードで書かれたソースが

　　g++ 該当ソース.cpp `pkg-config --cflags opencv` `pkg-config --libs opencv`

だけで簡単にコンパイルできます。

----------------------------------------------------

sudo nano /usr/local/lib/pkgconfig/opencv.pc

以下朱書き部を追加

# Package Information for pkg-config

prefix=/usr/local

exec_prefix=${prefix}

libdir=${exec_prefix}/lib

libdir3rd=${exec_prefix}/share/OpenCV/3rdparty/lib

includedir_old=${prefix}/include/opencv

includedir_new=${prefix}/include

Libs: -L${libdir} -L${libdir3rd} -lopencv_shape -lopencv_stitching -lopencv_objdetect -lopencv_superres -lopencv_videostab -lippicv -lopencv_calib3d -lopencv_features2d -lopencv_highgui -lopencv_videoio -lopencv_imgcodecs -lopencv_video -lopencv_photo -lopencv_ml -lopencv_imgproc -lopencv_flann -lopencv_core -lopencv_ts

----------------------------------------------------

　opencvのexample実行形式ファイルは、全部build/example に作られるんですね。知らんかった。

　それとpythonのopencvライブラリは自動でインストールされたりされなかったりしますがOpencv/build 以下に作られたcv2.soを所定の場所にコピーすれば動きます。特にCaffeではPythonもOpencvバージョンを合わせなければならないので注意。コンパイルが無事完了したら強制的に以下を実行して、ビルドされたcv2.soをコピーしてしまいます。

sudo cp ~/opencvフォルダ/build/lib/cv2.so /usr/local/lib/python2.7/dist-packages/

　ちなみにpythonのビデオキャプチャープログラムは爆速でした（cv2.4.13=camera.py cv3.1.0=video.py）。

次にCaffeインストール。

これは簡単。Nvidia のCaffeソースをダウンロード。

https://github.com/NVIDIA/caffe

中のMakecaffe.config.example をMakecaffe.configと名前を変えるかコピーして以下の様に直します。

----------------------------------------------------

## Refer to http://caffe.berkeleyvision.org/installation.html

# Contributions simplifying and improving our build system are welcome!

# cuDNN acceleration switch (uncomment to build with cuDNN).

# cuDNN version 4 or higher is required.

USE_CUDNN := 1

# NCCL acceleration switch (uncomment to build with NCCL)

# See https://github.com/NVIDIA/nccl

# USE_NCCL := 1

# CPU-only switch (uncomment to build without GPU support).

# cuDNN version 4 or higher is required.

# CPU_ONLY := 1

# uncomment to disable IO dependencies and corresponding data layers

# USE_OPENCV := 0

# USE_LEVELDB := 0

# USE_LMDB := 0

# uncomment to allow MDB_NOLOCK when reading LMDB files (only if necessary)

#You should not set this flag if you will be reading LMDBs with any

# possibility of simultaneous read and write

# ALLOW_LMDB_NOLOCK := 1

# Uncomment if you're using OpenCV 3

# OPENCV_VERSION := 3

# To customize your choice of compiler, uncomment and set the following.

# N.B. the default for Linux is g++ and the default for OSX is clang++

# CUSTOM_CXX := g++

# CUDA directory contains bin/ and lib/ directories that we need.

CUDA_DIR := /usr/local/cuda

# On Ubuntu 14.04, if cuda tools are installed via

# "sudo apt-get install nvidia-cuda-toolkit" then use this instead:

# CUDA_DIR := /usr

# CUDA architecture setting: going with all of them.

# For CUDA < 6.0, comment the *_50 lines for compatibility.

CUDA_ARCH := -gencode arch=compute_20,code=sm_20 \

-gencode arch=compute_20,code=sm_21 \

-gencode arch=compute_30,code=sm_30 \

-gencode arch=compute_35,code=sm_35 \

-gencode arch=compute_50,code=sm_50 \

-gencode arch=compute_50,code=compute_50

# BLAS choice:

# atlas for ATLAS (default)

# mkl for MKL

# open for OpenBlas

BLAS := atlas

# Custom (MKL/ATLAS/OpenBLAS) include and lib directories.

# Leave commented to accept the defaults for your choice of BLAS

# (which should work)!

# BLAS_INCLUDE := /path/to/your/blas

# BLAS_LIB := /path/to/your/blas

# Homebrew puts openblas in a directory that is not on the standard search path

# BLAS_INCLUDE := $(shell brew --prefix openblas)/include

# BLAS_LIB := $(shell brew --prefix openblas)/lib

# This is required only if you will compile the matlab interface.

# MATLAB directory should contain the mex binary in /bin.

# MATLAB_DIR := /usr/local

# MATLAB_DIR := /Applications/MATLAB_R2012b.app

# NOTE: this is required only if you will compile the python interface.

# We need to be able to find Python.h and numpy/arrayobject.h.

PYTHON_INCLUDE := /usr/include/python2.7 \

/usr/lib/python2.7/dist-packages/numpy/core/include

# Anaconda Python distribution is quite popular. Include path:

# Verify anaconda location, sometimes it's in root.

# ANACONDA_HOME := $(HOME)/anaconda

# PYTHON_INCLUDE := $(ANACONDA_HOME)/include \ # $(ANACONDA_HOME)/include/python2.7 \

# $(ANACONDA_HOME)/lib/python2.7/site-packages/numpy/core/include \

# Uncomment to use Python 3 (default is Python 2)

# PYTHON_LIBRARIES := boost_python3 python3.5m

# PYTHON_INCLUDE := /usr/include/python3.5m \

/usr/lib/python3.5/dist-packages/numpy/core/include

# We need to be able to find libpythonX.X.so or .dylib.

PYTHON_LIB := /usr/lib

# PYTHON_LIB := $(ANACONDA_HOME)/lib

# Homebrew installs numpy in a non standard path (keg only)

# PYTHON_INCLUDE += $(dir $(shell python -c 'import numpy.core; print(numpy.core.__file__)'))/include

# PYTHON_LIB += $(shell brew --prefix numpy)/lib

# Uncomment to support layers written in Python (will link against Python libs)

WITH_PYTHON_LAYER := 1

# Whatever else you find you need goes here.

INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/local/include /usr/include/hdf5/serial

LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib /usr/lib/x86_64-linux-gnu /usr/lib/x86_64-linux-gnu/hdf5/serial

# If Homebrew is installed at a non standard location (for example your home directory) and you use it for general dependencies

# INCLUDE_DIRS += $(shell brew --prefix)/include

# LIBRARY_DIRS += $(shell brew --prefix)/lib

# Uncomment to use `pkg-config` to specify OpenCV library paths.

# (Usually not necessary -- OpenCV libraries are normally installed in one of the above $LIBRARY_DIRS.)

# USE_PKG_CONFIG := 1

Â BUILD_DIR := build

DISTRIBUTE_DIR := distribute

# Uncomment for debugging. Does not work on OSX due to https://github.com/BVLC/caffe/issues/171

# DEBUG := 1

# The ID of the GPU that 'make runtest' will use to run unit tests.

TEST_GPUID := 0

# enable pretty build (comment to see full commands)

Q ?= @

# shared object suffix name to differentiate branches

LIBRARY_NAME_SUFFIX := -nv

----------------------------------------------------

Opencv3.1.0を使う場合は赤い部分のコメント#を外すだけです。

あとは

make all -j8

make test

make runtest

を実行。RuntestでエラーがなければOK。

Pycaffeのインストールは以前の記事参照

takesan.hatenablog.com

次にDigits

　Digitsの説明にUbuntuでは　apt-get install digits だけでインストール可能と書いてあるのですが、これをインストールするとCudaが7.5が勝手にインストールされて、GTX1080を取り付けたパソコンでは、OpencvもDigitさえもまともに動かなくなります。もしインストールしてしまったら慌てずにremoveして再度上記のCudaドライバー郡を再インストールします。

　そんなわけでGTX1080を使用する場合、Digitsはソースからインストールする必要があります。DigitsではTorch7も使えるのでついでにインストールしてみました。これも簡単。

Digit自体のインストール

https://github.com/NVIDIA/DIGITS/blob/master/docs/BuildDigits.md

Torch7のインストールと設定

https://github.com/NVIDIA/DIGITS/blob/master/docs/BuildTorch.md

最後に

./digits-devserver --config

でDigitsにCaffeとTorchのパスを指定します。

　　　　　caffeは~/nvcaffe/ 等

　　　　　Torch はパスではなくPを入力すると良いみたい

更に

Digitsフォルダにある実行ファイルでテストをしてエラーがなければ完了。

./digits-test

が、最初はPythoonのライブラリがないと叱られます。表示された該当ファイルを１個　pip でインストールし、再度　./digits-test

で、少し時間がかかりますが、OK。

Disitsの実行は、./ digits-devserverです。

　Digitsをインストールしたコンピューターがサーバーになっちゃいます。Lanケーブルをつないで、涼しいところにコンピュータを置いておけば、他のコンピュータからDISITSを実行できます。

　Macでは、SSH、サファリ、ForkLiftが実行できれば、CaffeやDISITSが遠隔操作できちゃいます。本来はこんな使い方を想定してるんでしょうね（GPUを2枚以上つけたコンピューターで）Disitの使い勝手は、素晴らしいものでした。

いよいよCaffeの実行スピード。

ここまでが長かった。

　僕のようなCaffe素人がGPUスピード比較する手段は、やっぱりCaffe標準のMnistがどれだけ早いのかですが、

　結果はなんと13秒。Macの4.6倍でした。ヒェー!!。終了まであっという間。ちなみにTX1の16倍！！です。

　　　　　　　　　　　　　　　　　早っ！！

次にDigitsでMnist。

DIGITS/GettingStarted.md at master · NVIDIA/DIGITS · GitHub

これはepocを標準の30から12に変えます。こうするとCaffe標準と同等になるとのこと。認識結果も99%なので良しとしますが、この時のスピードは15秒。Web画面なので少しオーバーヘッドがあるようです。それでも早い。

　このソフトの良いところは学習結果を試せること。適当な手書きファイルを指定すると学習結果が試せます。学習中でもですよ！！

さらにobject-ditection 学習テスト。

DIGITS/examples/object-detection at master · NVIDIA/DIGITS · GitHub

を参考に設定していきます。これは1248x384のカラー画像6373枚の学習です。

　画像変換に4分弱程度。実際の学習は、1Epoch 30分強くらいで　30エポック16時間必要。24時間回しっぱなしでは50エポックくらいの学習が可能です。このくらいだと個人レベルでは十分なスピードです。私のiMacのGPUフル稼働で実現できるとすれば64時間つまり３日必要！！。CPUオンリーで実行すれば極端な話、まさに天文学的な学習時間になります。GTX1080はやっぱり早い。

　問題はGPU温度。今回のGPUカードはNvidia標準の冷却システムですが、ずっと82度のままで、実行スピードを調節している模様です(DigitsでCPU,GPUの稼働状況がチェックできる)。CPU温度は水冷だけに問題外でした。一応８時間程度の試験をしてみましたが、まったく異常ありませんでした。

　GPUボードについては、さらに冷却能力を上げているものが市販されているので、そちらをチョイスするのがベターかもしれません（今回選択したBTOパソコンでは選択できませんが）。ただ、今までのNvidia新製品発表経緯では1年ごとに処理能力が２倍くらいになってますので、GTX1080の寿命が来る前に差し替えすることになるでしょう。　

　Nvidiaではアーキテクチャのシナリオができていて、小出しに新製品を出しているのでは？って感じがします。

　TITAN X Pscalが発売されたようですが、能力は1080の１.2倍程度。消費電力がUP。メモリーだけは魅力的な12Gです。8GのGTX1080でも今回テストしてみたカラー画像学習をメモリオーバーなく処理できるので、価格差を考慮すると私にとってTITAN X Pascalは将来手に入れてもあまり意味がありません。

　消費電力の比較的少ないGTX1080を積んだパソコンでも学習中は300W超くらいになります。経済的に見て個人レベルでの実行では、パソコンとエアコンの電気代を考えるほうが先です。

　こんな結果になったってことは、ゲーミングパソコンでもなんとかなると思いません？。故障しても自分でパソコンを修理できるのが最大の強みです。と、自己満足して今日の記事はおしまい。

眠いんでおかしなところは後で書き直し。まずは近況まで。

2016-08-09

Pi zero はどれだけ使えるか？

Raspberry Pi zero

PimoroniからPi zeroを取り寄せたので

　今回はOSがインストールできていることを前提として、Pi zeroがいったいどのくらいの実力があるか探って見ました。使ったセンサーは,WebCameraと以前WROOM-02の記事を書いた時に取り上げたFLIR Lepton赤外線カメラです。尚スピード的に不利になるので日本語環境はインストールしていません。

実行はエネループ充電池使用。

　プログラムを作っている時は別として、今回の実験は全てパナソニックモバイル電源2,900mAhを使ってみました。少なくても2時間以上問題なく動作します。

f:id:TAKEsan:20160809103337j:plain

Openframeworksをインストールして、いつもの3Dテストを実行。

　　　　結構早い！！。これならなんとか使えそう。（3DPrimitivesExampleの実行結果）

　開発環境は、使い慣れてきたOpenframeworksを使用。Openframeworksのインストール詳細は、raspberry pi | openFrameworksを参照。最初にRaspberry Pi Configurationを起動して、i2c,spiをON。さらにGPUメモリーを128Kbに設定後、以下のコマンドを実行します。

sudo apt-get clean

sudo apt-get update

sudo apt-get upgrade

wget http://openframeworks.cc/versions/v0.9.3/of_v0.9.3_linuxarmv6l_release.tar.gz

mkdir openFrameworks

tar vxfz of_v0.9.3_linuxarmv6l_release.tar.gz -C openFrameworks --strip-components 1

cd /home/pi/openFrameworks/scripts/linux/debian

sudo ./install_dependencies.sh

make Release -C /home/pi/openFrameworks/libs/openFrameworksCompiled/project

　Pi3と比較してビルドにかなり時間がかかるので、気長に終わるのを待ちましょう。ご存知のように高速なグラフィックやサウンド関連のアプリが初心者でもサクサク作れます。

FLIR Lepton公開ソースを使ってサーモグラフィーを作る。

　　　　　　　　　　標準のソースをコンパイルすると画像が荒い。

　FLIR Leptonサーマルカメラは、メーカーで公開しているソースをコンパイルすると、上記のようなサーモグラフィーが簡単に実現できます。ただし、画像が荒く最低最高温度が表示されないので、面白くないのも事実。このソフトはQt4を使っています。サーモグラフィーの特徴が端的に表れるのは、物体を掴んだ時。手を離すと物体に移った体温が指の形を保ったまま徐々に消えて行くところです。以下FLIR Lepton Hookup Guide - learn.sparkfun.comを参考に以下の手順でインストール。まず配線ですが、この記事通りだとSPI通信がうまくいかないので、下図のようにCSを一つ上にずらすこと（CLKの直右に刺す）。

　　　　　　　　　　　　　 f:id:TAKEsan:20160809103336p:plain

　記事に従って以下のようにインストール&実行（現状の公開ソースは内容が多少変わっている）。sparkfunの記事中で画像が表示されない場合は、センサーを入れ直すような説明があるが、非常に危ない（高額センサー破損の危険）ので絶対実行しないこと。CSの変更で確実に画像が表示されます。

最初にRaspberry Pi Configurationを起動して、SPI,i2cを使える状態にしてから、以下のコマンドを実行。

sudo apt-get install qt4-dev-tools

unzip LeptonModule-master.zip

cd LeptonModule/software/raspberrypi_video

qmake && make

sudo ./raspberrypi_video

さらに解像度を上げる。

　Qtに慣れていないので少し苦労しましたが、過去WROOM-02の記事にも書いたように、解像度を2倍に補間すると、かなり詳細に表示できるようになります。ただし、ディスプレイ接続ではPi zeroの機動性が生かせません。Pi zeroをWebサーバーにして動画として配信できれば、iPhoneでもMacでもPi3でもブラウザで確認できるのに......。

　画像解像度を上げるには、修正したソース　LeptonThread.cpp 　をダウンロード（急いで作ったので効率的に書き換えるのも面白そう。まだまだスピードを上げる余地あり）。上記raspberry_videoディレクトリの中にあるLeptonThread.cppに重ね書きしてから、qmake && make 、sudo ./raspberry.videoで再コンパイル&実行。

Openframeworksを使ってサーモグラフィー画像をJpeg配信してみる。

　ちょうど１年くらい前に紹介したofxHTTPと上記ライブラリを利用して、Jpeg配信できました。これだとPi zeroの機動性が存分に発揮されます。おまけで、画像中の最高・最低温度も表示させました。以前作ったiPhone+WROOM-02の環境に比べて大幅にスピードが上がる上にソフト作成はPi zero側だけでOKなので、かなりお手軽です。iPhoneのテザリングを有効にして、Pi zero側のWifi接続先をiPhoneに設定すれば、外出OK。

　単なるカメラ画像ではなく、Openframeworksで加工した動く画像をどのようにしてMJPEG配信させるか疑問だったのですが、ofFboを使えば簡単に配信できることが分かりました。今回は試しにLEPTONの動画と、温度を確認するための文字を合成しています（画像の拡大も同時に実行している）。これを応用すれば、メモリーの許す限りOpenframeworksで作った魅力的な画像をほとんどすべてMJPEG配信できることになります。スピードの速いPi3とクラウドパイを組み合わせると面白そう。ofxHTTPとofFBOを利用したMJPEG配信については、次に説明する私の作った自作ソースダウンロードファイル中にあるofApp.cppを見れば確認できます。簡単。

左のディスプレイはPi zero直結（配信画像とイーサネッット経由接続数を表示）。右はiMac中央はiPhone上のサファリでPi zeroの配信している画像を表示している。結構刺激的です。単独で画像を表示しながら同時に画像配信をしていることを考慮すると、この種のlinuxボードとしては納得のスピードです。しかもソフト中ではSPI通信で受け取ったグレースケールデータの解像度を2倍に補間。そして４倍に拡大して表示。さらにカラー変換。i2c通信で取り出したセンサーチップ温度から画像中の最高最低温度の計算結果をリアルタイムに表示させ、複雑なMJPEG配信までさせるという頭がこんがらかってしまうような処理がPi zero単独でできてしまってます。

実行方法ですが、OpenframeworksへofxHTTPライブラリ(addon)の追加が必要です。

GitHub - bakercp/ofxHTTP: A suite of HTTP tools, including clients and servers.を参考に、

Openframeworksのディレクトリに入って

cd addons

git clone https://github.com/bakercp/ofxIO

git clone https://github.com/bakercp/ofxMediaType

git clone https://github.com/bakercp/ofxSSLManager

git clone https://github.com/bakercp/ofxTaskQueue

git clone https://github.com/bakercp/ofxNetworkUtils

git clone https://github.com/bakercp/ofxJSON

git clone https://github.com/bakercp/ofxHTTP

さらに私の自作ソース　LEPTON.zip 　をダウンロードして解凍したら、フォルダごと

cd ../apps/myApps

の中に入れて、

cd LEPTON

make

make run

　make に30分以上かかるのでここでも気長に待ちましょう。make runは実行コマンド。binフォルダの中に実行ファイルができているので、X Window からダブルクリックしてもプログラム実行可能。一度makeすれば、ソースの修正等、再makeはさほど時間はかかりません。

　Pi版Openframeworksの良いところは、本来持っているスピードと、ssh接続した端末からでもPi zero本体の画像アプリを実行(Pi zero側でX Windowを起動しなくても良い)できることです。これは上記画像で確認できますが、CPUに負担が掛らないので、非力なPi zeroには断然有利です。方法があるのでしょうが、Qtで作ったアプリはXwindow上からしか実行できません。

　ofxHTTPを使ってWeb上でPiのIOも操作できるみたいですが、また今度。

最後に感想

　すごいですね、Pi zero。安い上に開発環境もスピードもEdisonやWroom-02(ESP8266)を完全に上回っています。専用のWifiとUSB拡張ボードをつければ、IOT制御では相当な実力ですぞ。