- Goal: Learn from reward to adapt the environment
- Setting:
- action/decision(agent -> environment)
- reward/state (environment ->agent)
- 怎么理解state? -> 人對狗狗施加的命令
- Policy -- for Agent: learning a classifier(state->action)
- Agent's Goal: discounted reward $\sum_{t=1}^\infty \gamma^t r_t$
- Difference between RL and planning:
- RL: learning a model and find policy from samples
- Planing: find an optimal solution with a well-defined problem.
- Difference between RL and SL:
- All learn the model, but SL學的是batch的數(shù)據(jù),一次性學,從數(shù)據(jù)到算法到模型,DAG單向路徑
- RL:閉環(huán)/數(shù)據(jù)不同,環(huán)境->數(shù)據(jù)->算法->模型->環(huán)境
- 決策影響實踐/環(huán)境 : 強化學習適用
Introduction to Reinforcement Learning
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
- 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...