抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

Dekel'Blog

奔赴山海,保持热爱

强化学习中的策略优化推导 在强化学习(Reinforcement Learning, RL)中,状态值函数的定义经常涉及一个关于策略 的最优化问题。本文将结合数学推导,解释如何从 Bellman 方程推导出最优策略的形式,并说明为什么最优策略是 贪心策略(greedy policy)。 1. 从 Bellman 方程出发 我们考虑状态值函数(假设已知一个固定的下一步值函数...

ViT架构的学习笔记

关于Transformer架构的学习

记录一下对网易云音乐评论的爬取。

记录平时用到的LaTeX标记。