FLOPS
換算表 | ||
---|---|---|
接頭辞 | FLOPS | |
ヨタ(Y) | 1024 | |
ゼタ(Z) | 1021 | |
エクサ(E) | 1018 | |
ペタ(P) | 1015 | |
テラ(T) | 1012 | |
ギガ(G) | 109 | |
メガ(M) | 106 |
FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータの性能指標の一つ。1秒間に浮動小数点数演算が何回できるか 数値の大きさだけでなく、理論的に算出された値の何%で実際のプログラムが動作するかということも重要である。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである(これを強調しすぎると、効率を高くするには演算器の数を減らすなどによって性能の理論上限値を下げさえすれば良いなどということになりがちではあるが)。パーソナルコンピュータ(以下パソコンと略)向けのCPUやGPUメーカーは計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピューターでは多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている(但しLINPACK値はもてはやされているが、それが計算機の能力の全てではまったくなくて、性能のある一つの切り口からみた指標に過ぎない)。
現在、家庭用のパソコンの CPU は GFLOPS、スーパーコンピュータの世界1位は PFLOPS の単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。パソコンとスーパーコンピュータの差はおおよそ1万倍の差で推移している。
代表的なハードウェアの浮動小数点数演算能力
PC/Server (Intel)
名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Pentium | 1コア | 300MHz | 300 MFLOPS | 理論値 | 1 FLOPS/Clock × 300MHz | |
Pentium II | 1コア | 450MHz | 450 MFLOPS | 理論値 | 1 FLOPS/Clock × 450MHz | |
Pentium III | 1コア | 1.4GHz | 2.1 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.4GHz | |
Pentium M | 1コア | 2.26GHz | 3.39 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.26GHz | [2] |
Pentium 4 | 1コア | 3.8GHz | 7.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.8GHz | [2] |
Pentium D | 2コア | 3.6GHz | 14.4 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.6GHz × 2コア | [2] |
Intel Atom | 2コア | 1.8GHz | 10.8 GFLOPS | 理論値 | 3 FLOPS/Clock × 1.8GHz × 2コア | |
Core Solo | 1コア | 1.83GHz | 2.75 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.83GHz | [3] |
Core Duo | 2コア | 2.33GHz | 6.99 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.33GHz × 2コア | [3] |
Core 2 Duo | 2コア | 3.33GHz | 26.64 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 2コア | [3] |
Core 2 Quad | 4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [3] |
Core i7 (i7-965, Nehalem) |
4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [3] |
Core i7 (Sandy Bridge) |
6コア | 3.5GHz | 168 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.5GHz × 6コア | [4] |
Core i7 (Haswell) |
4コア | 3.5GHz | 224 GFLOPS | 理論値 | 16 FLOPS/Clock × 3.5GHz × 4コア |
Core 2 Duo より1クロックで SSE で加算と乗算が計算できる[5]ようになり 128 ビット幅だと倍精度で 4 FLOPS/Clock。Sandy Bridge より搭載した Intel AVX は 256 ビット幅なので 8 FLOPS/Clock。Intel AVX 2 は FMA 命令の導入により 1 cycle で2つの FMA が実行できる[5]ので 16 FLOPS/Clock。単精度だと、これらの演算回数は2倍[6]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[7]ため、合計すると倍精度で3 FLOPS/Clockとなる。
PC/Server (AMD)
名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Phenom II (X4 980 Black Edition) |
4コア | 3.7GHz | 59.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.7GHz × 4コア | |
Phenom II (X6 1100T Black Edition) |
6コア | 3.3GHz | 79.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.3GHz × 6コア | |
AMD Fusion E Series (Bobcat) |
2コア | 1.65GHz | 6.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.65GHz × 2コア | |
AMD Opteron (Magny-Cours) |
12コア | 2.5GHz | 120 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.5GHz × 12コア | [4] |
AMD FX (Bulldozer) |
8コア/4モジュール | 3.9GHz | 124.8 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.9GHz × 4モジュール | |
AMD Opteron (Interlagos) |
16コア/8モジュール | 3GHz | 192 GFLOPS | 理論値 | 8 FLOPS/Clock × 3GHz × 8モジュール |
Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
ARM
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
ARM11 | 1コア | 700MHz | 700 MFLOPS(単精度) | 理論値 | 1 FLOPS/Clock × 700MHz | |
ARM Cortex-A8 | 1コア | 1GHz | 4 GFLOPS(単精度) | 理論値 | 4 FLOPS/Clock × 1GHz | |
ARM Cortex-A9 | 4コア | 1.5GHz | 24 GFLOPS(単精度) 9 GFLOPS(倍精度) |
理論値 | 4 FLOPS/Clock × 1.5GHz × 4コア(単精度) 1.5 FLOPS/Clock × 1.5GHz × 4コア(倍精度) |
|
ARM Cortex-A15 | 4コア | 2.0GHz | 64 GFLOPS(単精度) 16 GFLOPS(倍精度) |
理論値 | 8 FLOPS/Clock × 2.0GHz × 4コア(単精度) 2 FLOPS/Clock × 2.0GHz × 4コア(倍精度) |
- NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)
ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[8]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。
倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。
ゲーム機
- ドリームキャスト: 1.4GFLOPS
- Xbox: 1.5GFLOPS
- Xbox 360: 115.2GFLOPS(Xenon(マイクロプロセッサ)単体)[9]、240GFLOPS(Xenos GPU単体)[10]、1TFLOPS (システム全体):但し詳しい内訳は不明[11]
- ゲームキューブ: 13GFLOPS (ピーク時/システム全体)[12]
- PlayStation Portable: CPU 2.6GFLOPS / 9.6GFLOPS(ピーク時/システム全体)
- PlayStation 2: 6.2GFLOPS(Emotion Engine単体)[13]
- PlayStation 3: 218GFLOPS(Cell Broadband Engine単体)[14]、224GFLOPS (RSX単体)[15]、2TFLOPS (システム全体):但し詳しい内訳は不明[16]
- PlayStation 4: 1.84TFLOPS(GPU単体)[15]
スーパーコンピュータ
名称 | FLOPS | 理論値/実測値 | システム概要 | 参照 |
---|---|---|---|---|
ENIAC | 300FLOPS | |||
CRAY-1 | 160MFLOPS | 倍精度, 理論ピーク性能値 | ||
ディープ・ブルー | 11.38GFLOPS | |||
地球シミュレータ(第1世代) | 35.86TFLOPS | 倍精度64ビット, LINPACK実測値 | TOP500 Jun 2002 1位 | |
TSUBAME 1.2 | 87.01TFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2009 41位 | |
T2Kオープンスパコン | 101.74TFLOPS | 倍精度, LINPACK実測値 | ||
地球シミュレータ(第2世代) | 122.4TFLOPS | TOP500 Jun 2009 16位 | ||
GPUクラスタ(長崎大学、濱田剛ら) | 158TFLOPS | [17] | ||
Blue Gene/L | 478.2TFLOPS | TOP500 Nov 2007 1位 | ||
IBM Roadrunner | 1.105PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2008 1位 | |
TSUBAME 2.0 | 1.192PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2011 4位 | |
天河一号A | 2.566PFLOPS | TOP500 Nov 2010 1位 | ||
TSUBAME 2.5 | 2.843PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2013 11位 , Green500 6位 | |
京 | 10.510PFLOPS | LINPACK実測値 | TOP500 Jun 2011 1位
実行効率 93.2%[18] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128) |
[19][20] |
IBM Sequoia | 17.172PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2012 1位 | |
天河二号 | 33.862PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2013 1位 |
分散コンピューティング
- BOINC: 約 8,563.365 TFLOPS 2013年12月26日平均値 Active台数:986,613台(8.51%)[21]
- SETI@home: 約 658.210 TFLOPS 2013年12月26日平均値 BOINCに含む
- UD Agent: 約 65 TFLOPS 2001年10月1日 参加PC96万台時
- Folding@Home:Active合計 353,966 CPU 約 4,273 TFLOPS 2008年11月22日 参加約355万台
グラフィックスカード
単精度の積和算を 2 FLOPS/Clock で行える。
NVIDIA
- GeForce 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、積算合計)
- GeForce 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、積算合計)
- GeForce 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、積算合計)
- GeForce 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、積算合計)
- GeForce GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、積算合計)[22][23]
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
GeForce GTX 480 | 480 | 1401 MHz | 1.345 TFLOPS | 理論値 | 2 FLOPS/Clock × 1401 MHz × 480コア | |
GeForce GTX 580 | 512 | 1544 MHz | 1.581 TFLOPS | 理論値 | 2 FLOPS/Clock × 1544 MHz × 512コア | |
GeForce GTX 590 (2GPU合計) |
1024 | 1214 MHz | 2.488 TFLOPS | 理論値 | 2 FLOPS/Clock × 1214 MHz × 1024コア | |
GeForce GTX 680 | 1536 | 1006 MHz | 3.090 TFLOPS | 理論値 | 2 FLOPS/Clock × 1006 MHz × 1536コア | |
GeForce GTX 690 (2GPU合計) |
3072 | 915 MHz | 5.621 TFLOPS | 理論値 | 2 FLOPS/Clock × 915 MHz × 3072コア | |
GeForce GTX TITAN | 2688 | 876 MHz | 4.7 TFLOPS | 理論値 | 2 FLOPS/Clock × 876 MHz × 2688コア |
AMD
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Radeon HD 3650 | 120 | 725MHz | 174 GFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 120コア | |
Radeon HD 3870 | 320 | 825MHz | 496 GFLOPS | 理論値 | 2 FLOPS/Clock × 825MHz × 320コア | |
Radeon HD 4670 | 320 | 750MHz | 480 GFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 320コア | |
Radeon HD 4870 | 800 | 750MHz | 1.2 TFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 800コア | |
Radeon HD 5870 | 1600 | 850MHz | 2.72 TFLOPS | 理論値 | 2 FLOPS/Clock × 850MHz × 1600コア | |
Radeon HD 5970 (2GPU合計) |
3200 | 725MHz | 4.64 TFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 3200コア | [24] |
Radeon HD 6970 | 1536 | 880MHz | 2.7 TFLOPS (単精度) 676 GFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 880MHz × 1536コア (単精度) 0.5 FLOPS/Clock × 880MHz × 1536コア (倍精度) |
[25] |
Radeon HD 6990 (2GPU合計) |
3072 | 830 MHz | 5.1 TFLOPS | 理論値 | 2 FLOPS/Clock × 830 MHz × 3072コア | |
Radeon HD 7970 GHz Edition |
2048 | 1.05 GHz | 4.3 TFLOPS (単精度) 1.08 TFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度) 0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度) |
[26][25] |
Radeon HD 7990 (2GPU合計) |
4096 | 1.0 GHz | 8.2 TFLOPS | 理論値 | 2 FLOPS/Clock × 1.0 GHz × 4096コア | [26] |
Radeon R9 290X | 2816 | 1.0 GHz | 5.6 TFLOPS (単精度) 1.408TFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 1.0 GHz × 2816コア (単精度) 0.5 FLOPS/Clock × 1.0 GHz × 2816コア (倍精度) |
ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[27] であったり、倍精度の計算が出来なかったりする。
Intel
名称 | EU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Intel GMA X4500 | 10 | 800MHz | 32 GFLOPS | 理論値 | 4FLOPS/EU × 800MHz × 10EU | [28] |
Intel HD Graphics (Nehalem) | 12 | 900MHz | 43.2 GFLOPS | 理論値 | 4FLOPS/EU × 900MHz × 12EU | [28] |
Intel HD Graphics 3000 | 12 | 1350MHz (Max) | 129.6 GFLOPS | 理論値 | 8FLOPS/EU × 1350MHz × 12EU | [28] |
Intel HD Graphics 4000 | 16 | 1350MHz (Max) | 345.6 GFLOPS | 理論値 | 16FLOPS/EU × 1350MHz × 16EU | |
Intel Iris Pro Graphics 5200 | 40 | 1300MHz (Max) | 832 GFLOPS | 理論値 | 16FLOPS/EU × 1300MHz × 40EU |
HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。
Qualcomm Snapdragon
名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Adreno 200 | 8 | 245MHz | 3.92 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 8ALU | |
Adreno 203 Adreno 205 |
16 | 245MHz | 7.84 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 16ALU | |
Adreno 220 | 32 | 266MHz | 17.0 GFLOPS | 理論値 | 2 FLOPS/ALU × 266MHz × 32ALU | |
Adreno 225 | 32 | 400MHz | 25.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 400MHz × 32ALU | |
Adreno 320 (Snapdragon S4 Pro) | 64 | 400MHz | 57 GFLOPS | 理論値 | 64 ALU х 0.400MHz x 2GFLOPS x 1.125 additional Scalar (57GFLOPS) | [29] |
Adreno 320 (Snapdragon 600) | 96 | 400MHz | 86.4 GFLOPS | 理論値 | 96 ALU х 0.400MHz x 2GFLOPS x 1.125 additional Scalar (86.4GFLOPS) | [29] |
Adreno 330 | 128 | 450MHz | 129.6GFLOPS | 理論値 | 128 ALU х 0.450MHz x 2GFLOPS x 1.125 additional Scalar
(129.6 GFLOPS) |
[29] |
Apple (iPhone & iPad)
Chipset | GPU Core / Cluster | GPU MHz | FLOPS | Device | GPU Model & Calculate GFLOPS | Source |
---|---|---|---|---|---|---|
Apple A4 100px | |
|
|
|
PowerVR SGX535 @ 200 MHz (2vec4)
4 x 2 х 0.200 = 1.6 GFLOPS |
[30] |
Apple A4 100px | |
|
|
|
PowerVR SGX535 @ 250 MHz (2vec4)
4 x 2 х 0.250 = 2 GFLOPS |
|
Apple A5 100px | |
|
|
|
PowerVR SGX543MP2 (dual-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS |
[31] |
Apple A5 100px | |
|
|
|
PowerVR SGX543MP2 (dual-core) @ 200 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS |
[31] |
Apple A5X 100px | |
|
|
|
PowerVR SGX543MP4 (quad-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS |
[31] |
Apple A6 100px | |
|
|
|
PowerVR SGX543MP3 (tri-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS |
[31] |
Apple A6X 100px | |
|
|
|
PowerVR SGX554MP4 (quad-core) @ 280 MHz
2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS |
[32] |
Apple A7 100px | |
|
|
|
PowerVR G6430 (quad-clusters) @ 450 MHz
64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS |
[33] |
Apple A7 100px | |
|
|
|
PowerVR G6430 (quad-clusters) @ 533 MHz
64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS |
[33] |
Texas Instruments OMAP
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
PowerVR SGX 540 | 4 | 384MHz | 6.1 GFLOPS | 理論値 | 4 FLOPS/コア × 384MHz × 4コア |
NVIDIA Tegra
名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Tegra 2 | 8 | 333MHz | 5.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 333MHz × 8ALU | |
Tegra 3 | 12 | 500MHz | 12.48 GFLOPS | 理論値 | 2 FLOPS/ALU × 520MHz × 12ALU | [34][35] |
Tegra 4i | 60 | 660MHz | 79.2 GFLOPS | 理論値 | 2 FLOPS/ALU × 660MHz × 60ALU | [36] |
Tegra 4 | 72 | 672MHz | 96.768 GFLOPS | 理論値 | 2 FLOPS/ALU × 672MHz × 72ALU | [35] |
Tegra K1 | 192 | 950MHz | 365 GFLOPS | 理論値 | 2 FLOPS/ALU × 950MHz × 192ALU |
Samsung Exynos
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Exynos 3 | 1 | 200MHz | 3.2 GFLOPS | 理論値 | 16 FLOPS × 200MHz | |
Exynos 4 Dual (45nm) | 4 | 266MHz | 9.6 GFLOPS | 理論値 | 9 FLOPS/コア × 266MHz × 4コア | |
Exynos 4 Dual (32nm) | 4 | 400MHz | 14.4 GFLOPS | 理論値 | 9 FLOPS/コア × 400MHz × 4コア | |
Exynos 4 Quad | 4 | 440MHz | 15.84 GFLOPS | 理論値 | 9 FLOPS/コア × 440MHz × 4コア | |
Exynos 5 Dual | 4 | 533MHz | 72.5 GFLOPS | 理論値 | Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS | [37] |
Exynos 5410 Octa | 3 | 533MHz | 51.2 GFLOPS | 理論値 | PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS | |
Exynos 5420 Octa | 6 | 533MHz | 102.4 GFLOPS | 理論値 | Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS | [38] |
GPGPU
- NVIDIA Tesla C870: 510 GFlops (単精度)
- NVIDIA Tesla C1060: 933 GFlops (単精度), 78 GFlops (倍精度)
- NVIDIA Tesla C2070: 1030 GFlops (単精度), 515 GFlops (倍精度)
FPGA
- アルテラ Stratix IV: 244.5 GFLOPS (単精度、実測値 171 GFLOPS)[39][40] - FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[41]。それに対して、GPUは1クロックで行える。
- ザイリンクス Virtex-5 SX240T: 162.52 GFLOPS (単精度)[42][43]
脚注
- ↑ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
- ↑ 2.0 2.1 2.2 Intel® microprocessor export compliance metrics
- ↑ 3.0 3.1 3.2 3.3 3.4 テンプレート:Cite web
- ↑ 4.0 4.1 PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
- ↑ 5.0 5.1 Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
- ↑ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
- ↑ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
- ↑ 5.5.2. NEON データ型および VFP データ型 - ARM
- ↑ http://pc.watch.impress.co.jp/docs/2005/0514/kaigai178.htm
- ↑ http://pc.watch.impress.co.jp/docs/2005/0701/kaigai195.htm
- ↑ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
- ↑ ATIのグラフィックスチップ技術が「Nintendo GAMECUBE」に採用(マイコミジャーナル)
- ↑ テンプレート:Cite web
- ↑ http://pc.watch.impress.co.jp/docs/2005/0518/kaigai180.htm
- ↑ 15.0 15.1 http://www.4gamer.net/games/990/G999024/20130224001/
- ↑ PlayStation.com(Japan)
- ↑ テンプレート:Cite web
- ↑ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
- ↑ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
- ↑ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
- ↑ BOINC STATS - BOINC combined
- ↑ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
- ↑ GeForce GTX 200 GPU Technical Brief
- ↑ テンプレート:Cite web
- ↑ 25.0 25.1 AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
- ↑ 26.0 26.1 GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
- ↑ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
- ↑ 28.0 28.1 28.2 Intel® Processor Graphics DirectX* Developer's Guide
- ↑ 29.0 29.1 29.2 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330
- ↑ AnandTech - The iPhone 5 Performance Preview
- ↑ 31.0 31.1 31.2 31.3 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP
- ↑ 359gsm.com - Apple A6X & PowerVR SGX554
- ↑ 33.0 33.1 359gsm.com - Apple A7 & PowerVR G6430
- ↑ AnandTech - Analysis of the new Apple iPad
- ↑ 35.0 35.1 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
- ↑ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
- ↑ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
- ↑ 359gsm.com - Samsung Exynos 5420 & ARM Mali T628 MP6
- ↑ アルテラ浮動小数点メガファンクション
- ↑ 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。
- ↑ 浮動小数点メガファンクション ユーザーガイド
- ↑ FPGAを用いた高性能コンピューティング
- ↑ Revaluating FPGAs for 64-bit Floating-Point Calculations