(2013/01/27)

各種演算装置 (CPU, GPU, アクセラレータ等) の浮動小数点演算能力 (FLOPS) のピーク性能1の算出方法です。

多くの情報が単精度もしくは倍精度のみの値ばかりでこんがらがってきたので、まとめてみます。

また近年のプロセッサは SIMD 命令や FMA 命令を実装することで FLOPS 値を稼いでいます。 しかしながら自分のしたい計算がこれらを有効活用できるとは限らないため、 自分のしたい計算の「本当の限界性能」を見極めるためには、 どのようにベンダの公表値が計算されているのかを知ることも重要になります。 従って、ただデータを網羅するのではなく、計算式を示すことを重視します (表にないものは自分で計算してください)。

きちんと理解していない部分があるので、デタラメを書いているかもしれません。 間違いを発見しましたら報告をおねがいします。

Intel CPU

世代 (マイクロアーキテクチャの種類) による。

Core 2 以降 (Core, Nehalem)

128 ビット幅の SIMD 演算 (SSE) により同時に単精度四個、倍精度二個。 依存のない積和演算を同時実行。

コア数

クロック

FLOPS (SP)

FLOPS(DP)

Core 2 Duo E8400

2

3.00GHz

48.0GFLOPS

24.0GFLOPS

Core i5 760

4

2.80GHz

89.6GFLOPS

44.8GFLOPS

Xeon X5570

4

2.93GHz

93.8GFLOPS

46.9GFLOPS

SandyBridge 以降

SIMD 演算器を 256 ビットに増強 (AVX)。 FMA 命令も定義されているが現時点 (2013/01/27) で未実装。

コア数

クロック

FLOPS (SP)

FLOPS(DP)

Core i7 2600

4

3.40GHz

217.6GFLOPS

108.8GFLOPS

Xeon E3-1240

4

3.30GHz

210.0GFLOPS

105.0GFLOPS

Xeon E5-2670

8

2.60GHz

332.8GFLOPS

166.4GFLOPS

Xeon E5-2687W

8

3.10GHz

396.8GFLOPS

198.4GFLOPS

Haswell 以降

256 ビット長の FMA 演算器を二基搭載。

Intel Xeon Phi

2012 年に発表され、2013 年から供給が開始された演算ボード。 NVIDIA Tesla に競合。

512 ビット幅の SIMD 演算器を搭載し、最大八個の倍精度浮動小数点を同時処理可能。 FMA 演算にも対応。

メモリ帯域幅

コア数

クロック

FLOPS (SP)

FLOPS (DP)

Xeon Phi 5110P

320GB/s

60

1.053GHz

1010.8GFLOPS

NVIDIA GPU

倍精度は compute capability 1.3 以降のボードのみ。 GPGPU 向けの設計は Fermi 以降なので、それ以前 (Tesla 世代より前; GPGPU 専用製品「Tesla」ではない) のはまともに使えるレベルじゃない。

2 サイクルで 2 warp (32 スレッドをまとめたもの) を実行する。

AMD Radeon

  1. 理論的に予測される最大性能のこと (1)

その他/FLOPS算出法 (last edited 2013-06-04 08:14:40 by epii)