第一課 強(qiáng)化學(xué)習(xí)綜述
1.強(qiáng)化學(xué)習(xí)要解決的問題
2.強(qiáng)化學(xué)習(xí)的發(fā)展歷史
3.強(qiáng)化學(xué)習(xí)方法的分類
4.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)
5.環(huán)境搭建實(shí)驗(yàn)(Gym,TensorFlow等)
6.Gym環(huán)境的基本使用方法
7.TensorFlow基本使用方法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
5.Python介紹及簡單的代碼演示
案例:構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境
第三課 基于模型的動(dòng)態(tài)規(guī)劃方法
1.動(dòng)態(tài)規(guī)劃概念介紹
2.策略評(píng)估過程介紹
3.策略改進(jìn)方法介紹
4.策略迭代和值迭代
5.值迭代與最優(yōu)控制介紹
6.基于 python 的動(dòng)態(tài)規(guī)劃方法演示
案例:實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法
第四課 蒙特卡羅方法
1.蒙特卡羅策略評(píng)估方法
2.蒙特卡羅策略改進(jìn)方法
3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法
4.同策略和異策略強(qiáng)化學(xué)習(xí)
5.重要性采樣
6.基于 python 的蒙特卡羅強(qiáng)化學(xué)習(xí)方法演示
案例:利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮
第五課 時(shí)序差分方法
1.DP,MC 和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
5.N步預(yù)測及的前向和后向觀點(diǎn)
案例:Q-learning和Sarsa的實(shí)現(xiàn)
第六課 基于值函數(shù)逼近方法
1.值函數(shù)的參數(shù)化表示
2.值函數(shù)的估計(jì)過程
3.神經(jīng)網(wǎng)絡(luò)基礎(chǔ)講解
4.DQN 方法介紹
5.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第七課 策略梯度方法
1.策略梯度方法介紹
2.似然率策略梯度推導(dǎo)及重要性采樣視角推導(dǎo)
3.似然率策略梯度的直觀理解
4.常見的策略表示
5.常見的減小方差的方法:引入基函數(shù)法,修改估計(jì)值函數(shù)法
案例:利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng),乒乓球游戲
第八課 TRPO方法介紹及推導(dǎo)
1.替代回報(bào)函數(shù)的構(gòu)建
2.單調(diào)的改進(jìn)策略
3.TRPO 實(shí)用算法介紹
4.共軛梯度法搜索可行方向
5.PPO方法
6.基于python的TRPO方法實(shí)現(xiàn)
案例:trpo算法和ppo算法實(shí)現(xiàn)
第九課 AC方法
1.隨機(jī)策略與確定性策略比較
2.隨機(jī)策略AC的方法
3.確定性策略梯度方法
4.DDPG 方法及實(shí)現(xiàn)
5.A3C方法講解
案例:基于 python 的 DDPG 方法實(shí)現(xiàn)
第十課 逆向強(qiáng)化學(xué)習(xí)
1.基于最大邊際的方法
2.學(xué)徒學(xué)習(xí)、MMP
3.結(jié)構(gòu)化分類、神經(jīng)逆向強(qiáng)化學(xué)習(xí)
4.基于概率模型的方法
5.最大熵、相對(duì)熵
6.深度逆向強(qiáng)化學(xué)習(xí)
案例:略
講師課酬: 面議
常駐城市:北京市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:上海市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):
講師課酬: 面議
常駐城市:深圳市
學(xué)員評(píng)價(jià):