日韩三区_亚洲日日操_午夜精品_中文字幕二区_91精品久久_岛国视频

葉梓
  • 葉梓國內(nèi)知名上市IT企業(yè)的資深技術(shù)專家,高級(jí)工程師
  • 擅長領(lǐng)域: 人工智能 大數(shù)據(jù)
  • 講師報(bào)價(jià): 面議
  • 常駐城市:上海市
  • 學(xué)員評(píng)價(jià): 暫無評(píng)價(jià) 發(fā)表評(píng)價(jià)
  • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
  • 在線咨詢

強(qiáng)化學(xué)習(xí)

主講老師:葉梓
發(fā)布時(shí)間:2021-05-21 14:54:00
課程詳情:

第一課 強(qiáng)化學(xué)習(xí)綜述

1.強(qiáng)化學(xué)習(xí)要解決的問題

2.強(qiáng)化學(xué)習(xí)的發(fā)展歷史

3.強(qiáng)化學(xué)習(xí)方法的分類

4.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)

5.環(huán)境搭建實(shí)驗(yàn)(Gym,TensorFlow等)

6.Gym環(huán)境的基本使用方法

7.TensorFlow基本使用方法


第二課 馬爾科夫決策過程

1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)

3.貝爾曼方程

4.最優(yōu)策略

5.Python介紹及簡單的代碼演示

案例:構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境


第三課 基于模型的動(dòng)態(tài)規(guī)劃方法

1.動(dòng)態(tài)規(guī)劃概念介紹

2.策略評(píng)估過程介紹

3.策略改進(jìn)方法介紹

4.策略迭代和值迭代

5.值迭代與最優(yōu)控制介紹

6.基于 python 的動(dòng)態(tài)規(guī)劃方法演示

案例:實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法


第四課 蒙特卡羅方法

1.蒙特卡羅策略評(píng)估方法

2.蒙特卡羅策略改進(jìn)方法

3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法

4.同策略和異策略強(qiáng)化學(xué)習(xí)

5.重要性采樣

6.基于 python 的蒙特卡羅強(qiáng)化學(xué)習(xí)方法演示

案例:利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮


第五課 時(shí)序差分方法

1.DP,MC 和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法:Sarsa 方法

4.異策略TD方法:Q-learning 方法

5.N步預(yù)測及的前向和后向觀點(diǎn)

案例:Q-learning和Sarsa的實(shí)現(xiàn)


第六課 基于值函數(shù)逼近方法

1.值函數(shù)的參數(shù)化表示

2.值函數(shù)的估計(jì)過程

3.神經(jīng)網(wǎng)絡(luò)基礎(chǔ)講解

4.DQN 方法介紹

5.DQN變種:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戲——flappy bird


第七課 策略梯度方法

1.策略梯度方法介紹

2.似然率策略梯度推導(dǎo)及重要性采樣視角推導(dǎo)

3.似然率策略梯度的直觀理解

4.常見的策略表示

5.常見的減小方差的方法:引入基函數(shù)法,修改估計(jì)值函數(shù)法

案例:利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng),乒乓球游戲


第八課 TRPO方法介紹及推導(dǎo)

1.替代回報(bào)函數(shù)的構(gòu)建

2.單調(diào)的改進(jìn)策略

3.TRPO 實(shí)用算法介紹

4.共軛梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法實(shí)現(xiàn)

案例:trpo算法和ppo算法實(shí)現(xiàn)


第九課 AC方法

1.隨機(jī)策略與確定性策略比較

2.隨機(jī)策略AC的方法

3.確定性策略梯度方法

4.DDPG 方法及實(shí)現(xiàn)

5.A3C方法講解

案例:基于 python 的 DDPG 方法實(shí)現(xiàn)


第十課 逆向強(qiáng)化學(xué)習(xí)

1.基于最大邊際的方法

2.學(xué)徒學(xué)習(xí)、MMP

3.結(jié)構(gòu)化分類、神經(jīng)逆向強(qiáng)化學(xué)習(xí)

4.基于概率模型的方法

5.最大熵、相對(duì)熵

6.深度逆向強(qiáng)化學(xué)習(xí)

案例:略


授課見證
推薦講師

馬成功

Office超級(jí)實(shí)戰(zhàn)派講師,國內(nèi)IPO排版第一人

講師課酬: 面議

常駐城市:北京市

學(xué)員評(píng)價(jià):

賈倩

注冊(cè)形象設(shè)計(jì)師,國家二級(jí)企業(yè)培訓(xùn)師,國家二級(jí)人力資源管理師

講師課酬: 面議

常駐城市:深圳市

學(xué)員評(píng)價(jià):

鄭惠芳

人力資源專家

講師課酬: 面議

常駐城市:上海市

學(xué)員評(píng)價(jià):

晏世樂

資深培訓(xùn)師,職業(yè)演說家,專業(yè)咨詢顧問

講師課酬: 面議

常駐城市:深圳市

學(xué)員評(píng)價(jià):

文小林

實(shí)戰(zhàn)人才培養(yǎng)應(yīng)用專家

講師課酬: 面議

常駐城市:深圳市

學(xué)員評(píng)價(jià):

主站蜘蛛池模板: 欧美视频精品 | 免费a网站 | 中文字幕综合 | 久久久www成人免费精品张筱雨 | 中文字幕亚洲视频 | 午夜影院在线观看版 | 久久精品这里精品 | 久久精品一 | 国产91丝袜 | 成人久久久 | 一区二区三区在线免费观看 | 欧美一区二区三区国产 | 国产黄色精品 | 亚洲精品久久久一区二区三区 | 亚洲精品一区二三区不卡 | 日韩成人在线播放 | 久久精品这里 | 免费在线一区二区三区 | 国产精品美女久久久久久不卡 | 91久久综合亚洲鲁鲁五月天 | 国产激情在线观看 | 91欧美精品成人综合在线观看 | 高清一区二区三区 | 伊人国产精品 | 日韩一级免费看 | 男女污网站 | 亚洲国产免费 | 国产欧美一区二区三区久久 | 欧美精品一区二区三区四区 在线 | 免费人成在线观看网站 | 中国黄色在线视频 | 涩涩视频网站在线观看 | 91精品国产色综合久久不卡蜜臀 | 成人在线视频网址 | 亚洲免费婷婷 | 久久久久久艹 | 2021狠狠天天天 | 99国产精品久久久久久久 | 亚洲综合色自拍一区 | 久久久久久网站 | 自拍偷拍欧美 |