強(qiáng)化學(xué)習(xí)

主講老師：葉梓

課程領(lǐng)域：管理者技能提升培訓(xùn)課程

課程詳情：

第一課強(qiáng)化學(xué)習(xí)綜述

1.強(qiáng)化學(xué)習(xí)要解決的問題

2.強(qiáng)化學(xué)習(xí)的發(fā)展歷史

3.強(qiáng)化學(xué)習(xí)方法的分類

4.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)

5.環(huán)境搭建實(shí)驗(yàn)（Gym，TensorFlow等）

6.Gym環(huán)境的基本使用方法

7.TensorFlow基本使用方法

第二課馬爾科夫決策過程

1.基本概念：馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)

3.貝爾曼方程

4.最優(yōu)策略

5.Python介紹及簡單的代碼演示

案例：構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境

第三課基于模型的動(dòng)態(tài)規(guī)劃方法

1.動(dòng)態(tài)規(guī)劃概念介紹

2.策略評(píng)估過程介紹

3.策略改進(jìn)方法介紹

4.策略迭代和值迭代

5.值迭代與最優(yōu)控制介紹

6.基于 python 的動(dòng)態(tài)規(guī)劃方法演示

案例：實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法

第四課蒙特卡羅方法

1.蒙特卡羅策略評(píng)估方法

2.蒙特卡羅策略改進(jìn)方法

3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法

4.同策略和異策略強(qiáng)化學(xué)習(xí)

5.重要性采樣

6.基于 python 的蒙特卡羅強(qiáng)化學(xué)習(xí)方法演示

案例：利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮

第五課時(shí)序差分方法

1.DP，MC 和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法：Sarsa 方法

4.異策略TD方法：Q-learning 方法

5.N步預(yù)測及的前向和后向觀點(diǎn)

案例：Q-learning和Sarsa的實(shí)現(xiàn)

第六課基于值函數(shù)逼近方法

1.值函數(shù)的參數(shù)化表示

2.值函數(shù)的估計(jì)過程

3.神經(jīng)網(wǎng)絡(luò)基礎(chǔ)講解

4.DQN 方法介紹

5.DQN變種：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戲——flappy bird

第七課策略梯度方法

1.策略梯度方法介紹

2.似然率策略梯度推導(dǎo)及重要性采樣視角推導(dǎo)

3.似然率策略梯度的直觀理解

4.常見的策略表示

5.常見的減小方差的方法:引入基函數(shù)法，修改估計(jì)值函數(shù)法

案例：利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng)，乒乓球游戲

第八課 TRPO方法介紹及推導(dǎo)

1.替代回報(bào)函數(shù)的構(gòu)建

2.單調(diào)的改進(jìn)策略

3.TRPO 實(shí)用算法介紹

4.共軛梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法實(shí)現(xiàn)

案例：trpo算法和ppo算法實(shí)現(xiàn)

第九課 AC方法

1.隨機(jī)策略與確定性策略比較

2.隨機(jī)策略AC的方法

3.確定性策略梯度方法

4.DDPG 方法及實(shí)現(xiàn)

5.A3C方法講解

案例：基于 python 的 DDPG 方法實(shí)現(xiàn)

第十課逆向強(qiáng)化學(xué)習(xí)

1.基于最大邊際的方法

2.學(xué)徒學(xué)習(xí)、MMP

3.結(jié)構(gòu)化分類、神經(jīng)逆向強(qiáng)化學(xué)習(xí)

4.基于概率模型的方法

5.最大熵、相對(duì)熵

6.深度逆向強(qiáng)化學(xué)習(xí)

案例：略

其他課程

強(qiáng)化學(xué)習(xí): 培訓(xùn)課程

數(shù)據(jù)分析與數(shù)據(jù)挖掘: 培訓(xùn)課程

人工智能之最新自然語言處理技術(shù)與實(shí)戰(zhàn): 培訓(xùn)課程

人工智能與深度學(xué)習(xí): 培訓(xùn)課程

人工智能自然語言處理: 培訓(xùn)課程

授課見證

葉梓還沒有發(fā)布授課見證

推薦講師

馬成功

Office超級(jí)實(shí)戰(zhàn)派講師,國內(nèi)IPO排版第一人

講師課酬：面議

常駐城市：北京市

學(xué)員評(píng)價(jià)：

賈倩

注冊(cè)形象設(shè)計(jì)師,國家二級(jí)企業(yè)培訓(xùn)師,國家二級(jí)人力資源管理師

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：

鄭惠芳

人力資源專家

講師課酬：面議

常駐城市：上海市

學(xué)員評(píng)價(jià)：

晏世樂

資深培訓(xùn)師,職業(yè)演說家,專業(yè)咨詢顧問

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：

文小林

實(shí)戰(zhàn)人才培養(yǎng)應(yīng)用專家

講師課酬：面議

常駐城市：深圳市

學(xué)員評(píng)價(jià)：

日韩三区_亚洲日日操_午夜精品_中文字幕二区_91精品久久_岛国视频

強(qiáng)化學(xué)習(xí)

其他課程

馬成功

賈倩

鄭惠芳

晏世樂

文小林