SSI2017に参加して 3．強化学習 ·...

SSI 2017に参加して

辻和輝Kazuki TSUJI

電子情報学専攻修士課程 2年

1．はじめに

2017年 11月 25日から 27日に静岡県の静岡大学浜松キャンパスで開催された計測自動制御学会システム・情報部門学術講演会 2017（SSI 2017）に参加し，「強化学習 Profit Sharing における行動選択に関する一考察」という題目でポスター発表を行った．

2．研究背景

現在の工場では加工作業や搬送作業をロボットにより自動化させる Factory Automation 化（FA 化）が進んでいる．FA 化によって不良品の発生や，生産機械の操作ミスによるヒューマンエラーを低減することができ，作業工程の効率化が期待されている．また，市場や顧客のニーズの変化により大量生産から少量多品種の生産形態へ移行しており，工場内で作業を行うロボットには柔軟な対応が求められる．一方工場内での製品の加工やピッキング作業を行う多関節アームロボットはベルトコンベア上を流れる製品や，保管棚内の製品を掴む際に，自己位置や製品の位置を技術者があらかじめ教示しておき，固定的な軌道で作業を行うことが多い．少量多品種生産では生産する製品の変更や加工機械の入れ替えが行われることがあり，その際に熟練した技術者以外の作業者がアームロボットの軌道の教示を行った場合，熟練した技術者と比較して技術差が生じることが考えられる．そのため，本研究では強化学習を教示に対して適用することで熟練者以外の作業者が教示を行った場合でも熟練者に近いレベルの教示を行えるようにすることを目的とする．

3．強化学習

強化学習とはある環境内のエージェントが試行錯誤による報酬獲得を通じて行動選択の良し悪しを評価する方法である．エージェントはある時刻�における状態��を環境から観測し，状態��から選択可能な行動��を選び，実行する．行動を実行することで環境は次状態へと遷移し，エージェントは報酬値��を受け取る．報酬値には次状態が目標状態であれば正の値を与え，目標状態でない場合は負，または 0を与え，エージェントは報酬値を用いてルール（��, ��）の価値�の更新を行う．次状態へ遷移する際の行動を選択する際にいくつかの方法がある．ε-Greedy 選択では確率（1-ε）で価値が最大値である行動を選択し，確率 ε でランダム選択を行う．学習の初期は適度に環境内を探索する必要があるため確率 ε でのランダム選択を用い，学習が進むと一番価値が高い行動が最適行動となるため ε を 0に近づけていく．ある環境において報酬獲得に 2つ以上の行動選択が必要な場合，ε-

Greedy 選択では適切に報酬を獲得できなくなる．その様な場合にはソフトマックス行動選択法であるルーレット選択を用いることが多い．ルーレット選択は獲得した報酬値の重みで行動を選択する方法であり，学習が進むにつれて報酬を獲得したルールの行動選択確率が高くなる．ルーレット選択ではあるルール（��）の行動選択確率 π（��）を次式で決める．�� また，実ロボットで強化学習を行う場合には，試行回数が多い場合ロボットの耐久性や，作業時間の確保といった問題点があるため，収束速度の速い強化学習方法が必要とされる．

4．Profit Shairng

Profit Sharing ではルールの価値�の更新に報酬

特集学生の研究活動報告－国内学会大会・国際会議参加記 28

― ４９ ―

獲得までの行動系列を遡り分配を行う．報酬の分配の際に，分配関数として等比減少関数 ��を用いることで，報酬獲得に貢献しない無駄な経路の強化を抑制できることが知られている1）．Profit Sharingの報酬割り当て式には次式が用いられる．��5．報酬割り当てによる学習性能の変化

Profit Sharing においてルーレット選択を用いた場合，割り当て報酬を�値に累積し続けていくため，学習が進むごとに各ルールの価値の差が大きくなり，報酬を獲得し続けるルールの行動選択確率が高くなっていく．一方�値を獲得推定報酬値に近づけていく更新方法を用いた場合は各ルールごとの差が出にくく，行動選択確率に影響が出ることが考えられる．ここで更新型の Profit Sharing として次式を用いる．��：学習率学習の方法として累積型と更新型の Profit Shar-

ing を用い，行動選択方法としてルーレット選択を用いて迷路走行2）（Figure 1）を行う．また，�値の初期値に対して報酬値の大小により，学習速度の問題3）が起きるため，ここでは初期値を大中小の 3

パターン与える．結果を Figure 2に示す．

6．まとめ

本研究では Profit Sharing における累積型報酬分配と更新型報酬分配の学習性能の変化を比較した．更新型では�値の初期値に依存せずに学習が進む

ことが分かった．これにより熟練者以外の教示結果に対してでも学習を行えることが期待できる．最後に研究発表を行うにあたり，ご指導いただいた植村先生，植村研究室の皆様に感謝致します．

謝辞本研究は JSPS 科研費 15K16313の助成を受けたもので

ある．

参考文献１）宮崎和光，山村雅幸，小林重信“強化学習における報酬割当ての理論的考察”人工知能誌，Vol.9, No.4,pp.580-587, 1994

２）Sutton, R. S. and Barto, A. G.：“Reinforcement learning－an introduction－”the MIT Press, 1998

３）植村渉，上野敦志，辰巳昭治，“経験に固執しないProfit Sharing 法，”人工知能論文誌，Vol.21, No.1,pp.81-93, 2006

Figure 1 迷路

Figure 2 結果のグラフ

― ５０ ―

SSI2017に参加して 3．強化学習 ·...

Documents

Transcript of SSI2017に参加して 3．強化学習 ·...

FITELnet F2000 コマンドリファレンス 表示コマンド編...2009/02/14 TELNET セッションが確立した時刻を表示します。 ※ログインセッションではありません。

Torlon...ASTM 試験方法 高強度グレード 耐摩耗グレード 特性 単位 4203L 5030 7130 4301 4275 4435 4630 4645 機械特性 引張強さ(2) MPa 152 221 113 117 94 81.4

ISSN 1882-7136 言語京都外国語大学 京都外国語大学大学院紀要 言語と 文化 第9 号 March 2015 ISSN 1882-7136 韓国人日本語学習者の日本語指示詞「コ・ソ・ア」の習得研究

20120824 PHP+MySQL勉強会LT

17/05/29 C M Y BK 0894-1H29 歯科医師 歯科衛生士のための専門 … · 性が強く示唆されています5）．つまり，誤嚥性肺炎の予防には，口腔ケ

第1章 展示空间设计概述 - tup.tsinghua.edu.cn · 第 章 展示空间设计概述 1 展 示 空 间 设 计 第1章 展示空间设计概述 本章导读： 本章主要从空间和展示设计的

末世懸謎 - 啟示錄進解

技術資料 - アクリ屋ドットコム...伸 び ASTM D 638 % 100 10〜20 4〜7 圧縮強さ ASTM D 695 MPa 81.3 68.6 15.6〜24.5 曲げ強さ ASTM D 790 MPa 93.1 88.2〜98.0 108〜118

取扱説明書ASB-395SSG 2 機器の排気タイプと、ご自宅の混合水栓のタイプ を確認してください。.強制排気タイプ .強制通気タイプ .無煙突タイプ

数理生物学演習 - Koji Noshita · 2020. 6. 12. · 数理生物学演習. 第2回 Pythonの基本的な使い方と数理生物学演習で 使う数学の復習. 1. 野下

$ -$ 5/6 A8JA-RLN2(30A)A8JA-RL（120A） 液 晶 表 示 DISPLAYボタン 約5秒間の長押しで約40秒表示 1． 停電後10分以上の表示維持。2． 停電中「DISPLAY」ボタンによる

無機化学II 第1回（復習1 水素原子の電子構造

iÜ sL[QWVJ FTGCOU OQIOCKN EQO · 2016. 3. 22. · 1. 強調親身經驗與引導反思，也就是著名的教育學家杜威所提出的經驗學習圈。強調學生透 過真實的感官體驗，反思並將其歸納意義，應用在生活上或下個經驗。

第4 章網路學習課程 教材內容 - csim.scu.edu.t · 第4 章網路學習課程教材內容. Written By : BV6CN. 3. 4-1-1. 課程設計架構圖. 學習路徑 前測題目

01 hitachi pdf · 1 day ago · JP1操作入門 1日間 JPJ277 マシン実習 Renewal JP1操作入門 1日間 JPJ277 マシン実習 Renewal JP1エンジニア－機能概説－

How to Study DynEd...ダインエドコースウェアの学習法 ダインエドの教材は従来の英語学習教材とは異なり、言語を自然にしかも短期間で習得

SPARKvue User Guide - KYS Teducation.kyst.com.tw/upload/SPARKvue-2.2-chinese-traditional-users... · n顯示SPARKlab頁面，並以圖表、表格、數字顯示及計量指針表形式顯示其中

2011年全國高工技藝競賽研習 COLT PLUS 底盤與電系概論

FITELnet F2000 コマンドリファレンス表示コマンド編...2009/02/14 TELNET セッションが確立した時刻を表示します。 ※ログインセッションではありません。

Torlon...ASTM 試験方法高強度グレード耐摩耗グレード特性単位 4203L 5030 7130 4301 4275 4435 4630 4645 機械特性引張強さ(2) MPa 152 221 113 117 94 81.4

ISSN 1882-7136 言語京都外国語大学京都外国語大学大学院紀要言語と文化第9 号 March 2015 ISSN 1882-7136 韓国人日本語学習者の日本語指示詞「コ・ソ・ア」の習得研究

17/05/29 C M Y BK 0894-1H29 歯科医師歯科衛生士のための専門 … · 性が強く示唆されています5）．つまり，誤嚥性肺炎の予防には，口腔ケ

第1章展示空间设计概述 - tup.tsinghua.edu.cn · 第章展示空间设计概述 1 展示空间设计第1章展示空间设计概述本章导读：本章主要从空间和展示设计的

技術資料 - アクリ屋ドットコム...伸び ASTM D 638 % 100 10〜20 4〜7 圧縮強さ ASTM D 695 MPa 81.3 68.6 15.6〜24.5 曲げ強さ ASTM D 790 MPa 93.1 88.2〜98.0 108〜118

取扱説明書ASB-395SSG 2 機器の排気タイプと、ご自宅の混合水栓のタイプを確認してください。.強制排気タイプ .強制通気タイプ .無煙突タイプ

数理生物学演習 - Koji Noshita · 2020. 6. 12. · 数理生物学演習. 第2回 Pythonの基本的な使い方と数理生物学演習で使う数学の復習. 1. 野下

$ -$ 5/6 A8JA-RLN2(30A)A8JA-RL（120A）液晶表示 DISPLAYボタン約5秒間の長押しで約40秒表示 1．停電後10分以上の表示維持。2．停電中「DISPLAY」ボタンによる

iÜ sL[QWVJ FTGCOU OQIOCKN EQO · 2016. 3. 22. · 1. 強調親身經驗與引導反思，也就是著名的教育學家杜威所提出的經驗學習圈。強調學生透過真實的感官體驗，反思並將其歸納意義，應用在生活上或下個經驗。

第4 章網路學習課程教材內容 - csim.scu.edu.t · 第4 章網路學習課程教材內容. Written By : BV6CN. 3. 4-1-1. 課程設計架構圖. 學習路徑前測題目

How to Study DynEd...ダインエドコースウェアの学習法ダインエドの教材は従来の英語学習教材とは異なり、言語を自然にしかも短期間で習得