主页
分类
标签
归档
友链
关于
日间/夜间模式
主页
分类
标签
归档
友链
关于
日间/夜间模式
Dekel'Blog
奔赴山海,保持热爱
主页
分类
标签
归档
友链
关于
强化学习(三.1)贝尔曼最优策略和公式推导
强化学习中的策略优化推导 在强化学习(Reinforcement Learning, RL)中,状态值函数的定义经常涉及一个关于策略 的最优化问题。本文将结合数学推导,解释如何从 Bellman 方程推导出最优策略的形式,并说明为什么最优策略是 贪心策略(greedy policy)。 1. 从 Bellman 方程出发 我们考虑状态值函数(假设已知一个固定的下一步值函数...
2025-09-10
学习
学习
阅读全文
强化学习(一)Basic Concepts
test RL
2025-09-05
RL
RL
阅读全文
粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
分类
标签
主页
暗黑模式
打印页面
阅读模式