OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 !...
Transcript of OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 !...
OSCAR API プログラム
API指示文入り PE0用プログラム
API指示文入り PE1用プログラム
API指示文入り PE n 用プログラム
OSCAR自動並列化コンパイラ WASEDA UNIVERSITY 早稲田大学 笠原博徳・木村啓二研究室
マルチコアの自動高速化と電力削減 http://www.kasahara.cs.waseda.ac.jp 研究室ホームページ
Embedded Technology 2014
組込Cプログラムをマルチコア (ARM, ルネサス, Intel, IBM, Freescale, Qualcomm)用に 自動並列化及び電力削減するソフト
<適用> 自動車, 医療, スマートフォン, ミドルウェア
電力最小化スケジュール 3コアに割り当てられたタスク
PE0 PE1 PE2
時間
MT2 周波数: 50%
MT3 周波数: 25%
MT5 周波数: 50%
MT1 周波数: 100%
MT4 周波数: 50%
クロック停止
デッドライン
PE0 PE1 PE2
時間 デッドライン
MT2 周波数: 100%
MT3
MT5 周波数: 100%
MT1 周波数: 100%
MT4 周波数: 100%
タスクグラフ図
早稲田大学 OSCAR Compiler
RP2
IBM Power7
Intel Chips
マルチプラットフォーム対応 : OSCAR API
コンパイラによる省電力化
OSCAR 自動並列化コンパイラ
MT3 MT1 MT2
MT5 MT4
データ依存
クリティカル・パス
逐次C or Fortran アプリケーションプログラム
周波数: 100%
OSCARコンパイラによるAndroidマルチコア上での 自動低消費電力化 (ARM 4コア プロセッサ)
WASEDA UNIVERSITY
n OSCAR Compiler
Embedded Technology 2014
n スマートフォン n 低消費電力化
ARM Cortex-A9 4コアによる OSCARコンパイラの電力削減効果
0.95 1.50
2.23
0.72
0.36 0.30 0.00
0.50
1.00
1.50
2.00
2.50
3.00
1 2 3
平均消費電力 [W]
コア数
電力制御なし 電力制御あり
約1/7に削減 (-86.5%)
約1/3に削減 (-68.4%)
Optical Flow(動き解析)の平均消費電力
- 消費電力を1/7に削減 - 評価機器 : ODROID-X2 (ARM 4コア)
PMIC (Power Management IC)
PMICとCPU間に 電力測定回路を作成
CPU (Exynos 4412 Quad Core)
Cortex-A9 32KB I/D キャッシュ NEON
DMC + LPDDR2 RAM 16Gbit (PoP)
IMB L2キャッシュ VFPv3
CPU プラットフォーム
CPU Exynos 4412 アプリケーションプロセッサ ARM社 Cortex A9 を4コア使用
1.07 1.69
2.45
0.79 0.57 0.51
0.00
0.50
1.00
1.50
2.00
2.50
3.00
1 2 3
平均消費電力[W]
コア数
電力制御なし 電力制御あり H.264 デコーダの平均消費電力
約1/5に削減 (-79.2%) 約1/2に削減
(-52.3%)
Cortex-A9 32KB I/D キャッシュ NEON
Cortex-A9 32KB I/D キャッシュ NEON
Cortex-A9 32KB I/D キャッシュ NEON
OSCARコンパイラによるHaswellマルチコア上での OpenCV顔認識処理の自動低消費電力化(Intel 4コア)
WASEDA UNIVERSITY
n OSCAR Compiler
Embedded Technology 2014
n Intel Haswell n 低消費電力化
- 消費電力を2/5に削減 - 顔認識プログラムの並列処理
Intel Haswell 4コアの電力測定
Intel Haswell 4コア上での顔認識処理 並列化
CPU : Intel Core i7 4770k コア数 : 4 周波数 : 3.5GHz~0.8GHz マザーボード :ASUS H81M-A
ディスプレイ
カメラ 入力処理
描画処理
サイズを変えて探索・ループ
x, y方向に探索ループ 顔検出処理
OSCARコンパイラ で自動並列化
input
output 次フレームの処理
PMICとCPU間に 電力測定回路を作成
27.36 41.35
25.51
16.46
0
10
20
30
40
50
1 3
平均消費電力[W]
コア数
電力制御なし 電力制御あり 低消費電力化時の平均消費電力
約2/5に削減 (-60.2%)
約3/5に削減 (-40.0%)
93.06[msec]
48.80[msec]
38.08[msec]
0.00
0.50
1.00
1.50
2.00
2.50
3.00
1 2 3
速度向上率
コア数
約2.44倍に速度向上
最速実行処理時の速度向上率