社会そのほか速
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
ただいまコメントを受けつけておりません。
NVIDIAは同社主催の「GPU Technology Conference 2015(GTC 2015)」において、単精度浮動小数点の場合、7TFlopsという性能を実現したハイエンドGPU「Titan X」を発表した。価格は999ドルと発表されており、コンシューマ向けのGPUである。
GTC2015の基調講演で、Titan Xを発表する同社CEOのJen-Hsun Huang氏。Titan Xは3072 Cudaコアを集積し、単精度では7TFlopsのピーク演算性能を持つ
Titan Xは3072 Cudaコアを集積し、単精度(SP)浮動小数点では7TFlopsという高い性能を持つ。これまでの最上位のGeForce 980は2048 CUDAであるので、コア数を1.5倍に引き上げている。
なお、NVIDIAの製品ページでは、コアクロックは通常1GHzで、ブースト時でも1.075GHzとなっており、3072×2×1.075=6.6048となり、基調講演での7TFlopsには若干届かない。
倍精度(DP)の演算性能は0.2TFlopsと単精度の1/32程度の値であり、倍精度の演算器は申し訳程度に積まれているという構造になっている。ゲームなどで必要なグラフィックスのための演算は単精度で十分であり、また、今回のGTCのメインテーマであるニューラスネットワークのDeep Learningにおいても単精度で十分であるので、倍精度演算器にチップ面積を割くという設計にはなっていない。
そして、Titan Xのデバイスメモリは12GBで、メモリの転送速度は7Gbps、このメモリを含めて、消費電力は250Wと発表されている。
画像認識に関してImageNet Large Scale Visual Recognition Challengeという競争がある。人間でも、これは何の写真? と迷うようなものもあり、訓練した人間でも正解率は95%(誤り率5%)程度である。これに対して、2015年の1月に中国のBaidu(百度)は誤り率5.98%という成果を発表し、2月6日にはMicrosoftが4.98%の誤り率という人間を上回る性能を達成したことを発表した。そうすると、1週間も経たない2月11日にGoogleが4.82%を達成と発表するというデッドヒートの状態となっている。
Baidu、Microsoft、GoogleのImageNet Large Scale Visual Recognition Challengeの成果を説明するHuang氏
なお、写真のCEOであるジェンスン・ファン(Jen-hsun Huang)氏の後に見えるグラフは認識率の年次推移を示すもので、2010年は72%、2011年は74%とゆっくりとした改善であったが、2012年にトロント大学のHinton教授のグループが新しいラーニング法を開発し84%と大幅な改善を実現した。Huang氏はビッグバンと表現していたが、この改善がMicrosoft、Googleの95%を超える成果に繋がっている。
また、これらのネット企業は、イメージのサーチサービスなどにこの認識を使用しており、認識率で他社に負けるわけには行かないという事情がある。
画像認識であるが、元の画像のピクセルの色、明るさの情報は32ビットの単精度、あるいはその半分の16ビットのFP16というフォーマットで十分である。このため、Titan Xでは16ビットのFP16という半精度浮動小数点演算をサポートしている。GPUの32ビットのレジスタに2つのFP16の数値を詰め込んでいるので、FP16の数値はx86のSIMDのように連続したアドレスである必要があるが、うまく使えば、同じデータ量で2倍の演算ができることになり、性能を向上させられる。
画像認識ではニューラルネットワークにトレーニング画像と呼ぶ多数の画像を学習させて、ニューロン間の情報伝達の重みを調整して、正しい認識ができるように持っていく。これが学習である。ニューロン間には膨大な数の接続があり、それぞれの重みを調整して行くためには膨大な計算が必要となる。さらに多数(ImagenetのLSVRCではトレーニング画像は6万枚)の画像を学習する必要があるので、膨大な計算量となる。
Huang氏は、AlexNetというニューラルネットワークを学習させる場合、この計算を16コアのXeonで行うと約43日かかるが、Titanを使うと6日、今回発表のTitan XとcuDNN(CudaのDeep Neural Network用のライブラリ)を使うと約2.5日という結果を示した。
Deep Learningの所要時間の比較。左端が16コアXeonで、約43日かかっているが、右端のTitan XとcuDNNを使えば3日以下となる
43日かかる作業は、おいそれと始めることはできないが、1週間以下で終わるならずっとやり易く、時間比率以上に大きな意義があるとHuang氏は主張していた。
ニューラルネットワークを学習させるという作業は、研究者や開発者が行う作業で、ユーザ数は限られており、この用途でTitan Xが多数売れるとは考えられない。主要な顧客は高性能GPUを必要とするゲーマーなどと考えられるが、Deep Learningはバズワード(Buzz Word)であり、話題作りという点ではうまいアピールであった。