OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 !...

3
OSCAR API プログラム API指示文入り PE0用プログラム API指示文入り PE1用プログラム API指示文入り PE n 用プログラム OSCAR自動並列化コンパイラ WASEDA UNIVERSITY 早稲田大学 笠原博徳・木村啓二研究室 マルチコアの自動高速化と電力削減 http://www.kasahara.cs.waseda.ac.jp 研究室ホームページ Embedded Technology 2014 組込Cプログラムをマルチコア (ARM, ルネサス, Intel, IBM, Freescale, Qualcomm)用に 自動並列化及び電力削減するソフト <適用> 自動車, 医療, スマートフォン, ミドルウェア 電力最小化スケジュール 3コアに割り当てられたタスク PE0 PE1 PE2 時間 MT2 周波数: 50% MT3 周波数: 25% MT5 周波数: 50% MT1 周波数: 100% MT4 周波数: 50% クロック 停止 デッドライン PE0 PE1 PE2 時間 デッドライン MT2 周波数: 100% MT3 MT5 周波数: 100% MT1 周波数: 100% MT4 周波数: 100% タスクグラフ図 早稲田大学 OSCAR Compiler RP2 IBM Power7 Intel Chips マルチプラットフォーム対応 : OSCAR API コンパイラによる省電力化 OSCAR 自動並列化コンパイラ MT3 MT1 MT2 MT5 MT4 データ依存 クリティカル・パス 逐次C or Fortran アプリケーションプログラム 周波数: 100%

Transcript of OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 !...

Page 1: OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 ! スマートフォン ! 低消費電力化 ARM Cortex-A9 4コアによる OSCARコンパイラの電力削減効果

 

OSCAR API プログラム

API指示文入り PE0用プログラム

API指示文入り PE1用プログラム

API指示文入り PE n 用プログラム

OSCAR自動並列化コンパイラ WASEDA UNIVERSITY 早稲田大学 笠原博徳・木村啓二研究室

マルチコアの自動高速化と電力削減 http://www.kasahara.cs.waseda.ac.jp 研究室ホームページ

Embedded Technology 2014

組込Cプログラムをマルチコア (ARM, ルネサス, Intel, IBM, Freescale, Qualcomm)用に 自動並列化及び電力削減するソフト

<適用> 自動車, 医療, スマートフォン, ミドルウェア

電力最小化スケジュール 3コアに割り当てられたタスク

PE0 PE1 PE2

時間

MT2 周波数: 50%

MT3 周波数: 25%

MT5 周波数: 50%

MT1 周波数: 100%

MT4 周波数: 50%

クロック停止

デッドライン

PE0 PE1 PE2

時間 デッドライン

MT2 周波数: 100%

MT3

MT5 周波数: 100%

MT1 周波数: 100%

MT4 周波数: 100%

タスクグラフ図

早稲田大学 OSCAR Compiler

RP2

IBM Power7

Intel Chips

マルチプラットフォーム対応 : OSCAR API

コンパイラによる省電力化

OSCAR 自動並列化コンパイラ

MT3 MT1 MT2

MT5 MT4

データ依存

クリティカル・パス

逐次C or Fortran アプリケーションプログラム

周波数: 100%

Page 2: OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 ! スマートフォン ! 低消費電力化 ARM Cortex-A9 4コアによる OSCARコンパイラの電力削減効果

OSCARコンパイラによるAndroidマルチコア上での 自動低消費電力化 (ARM 4コア プロセッサ)

WASEDA UNIVERSITY

n  OSCAR Compiler

Embedded Technology 2014

n  スマートフォン n  低消費電力化

ARM Cortex-A9 4コアによる OSCARコンパイラの電力削減効果

0.95 1.50

2.23

0.72

0.36 0.30 0.00

0.50

1.00

1.50

2.00

2.50

3.00

1 2 3

平均消費電力 [W]

コア数

電力制御なし 電力制御あり

約1/7に削減 (-86.5%)

約1/3に削減 (-68.4%)

Optical Flow(動き解析)の平均消費電力

- 消費電力を1/7に削減 - 評価機器 : ODROID-X2 (ARM 4コア)

PMIC (Power Management IC)

PMICとCPU間に 電力測定回路を作成

CPU  (Exynos  4412  Quad  Core)

Cortex-A9 32KB I/D キャッシュ NEON

DMC + LPDDR2 RAM 16Gbit (PoP)

IMB L2キャッシュ VFPv3

CPU プラットフォーム

CPU Exynos 4412 アプリケーションプロセッサ ARM社 Cortex A9 を4コア使用

1.07 1.69

2.45

0.79 0.57 0.51

0.00

0.50

1.00

1.50

2.00

2.50

3.00

1 2 3

平均消費電力[W]

コア数

電力制御なし 電力制御あり H.264 デコーダの平均消費電力

約1/5に削減 (-79.2%) 約1/2に削減

(-52.3%)

Cortex-A9 32KB I/D キャッシュ NEON

Cortex-A9 32KB I/D キャッシュ NEON

Cortex-A9 32KB I/D キャッシュ NEON

Page 3: OSCAR自動並列化コンパイラ - Waseda UniversityEmbedded Technology 2014 ! スマートフォン ! 低消費電力化 ARM Cortex-A9 4コアによる OSCARコンパイラの電力削減効果

OSCARコンパイラによるHaswellマルチコア上での OpenCV顔認識処理の自動低消費電力化(Intel 4コア)

WASEDA UNIVERSITY

n  OSCAR Compiler

Embedded Technology 2014

n  Intel Haswell n  低消費電力化

- 消費電力を2/5に削減 - 顔認識プログラムの並列処理

Intel Haswell 4コアの電力測定

Intel Haswell 4コア上での顔認識処理 並列化

CPU : Intel Core i7 4770k コア数 : 4 周波数 : 3.5GHz~0.8GHz マザーボード :ASUS H81M-A

ディスプレイ

カメラ 入力処理

描画処理

サイズを変えて探索・ループ

x, y方向に探索ループ 顔検出処理

OSCARコンパイラ で自動並列化

input

output 次フレームの処理

PMICとCPU間に 電力測定回路を作成

27.36 41.35

25.51

16.46

0

10

20

30

40

50

1 3

平均消費電力[W]

コア数

電力制御なし 電力制御あり 低消費電力化時の平均消費電力

約2/5に削減 (-60.2%)

約3/5に削減 (-40.0%)

93.06[msec]

48.80[msec]

38.08[msec]

0.00

0.50

1.00

1.50

2.00

2.50

3.00

1 2 3

速度向上率

コア数

約2.44倍に速度向上

最速実行処理時の速度向上率