分类：学习 - Dekel'Blog

- 主页
- 分类
- 标签
- 归档
- 友链
- 关于
- 日间/夜间模式

Dekel'Blog

奔赴山海，保持热爱

强化学习（三.1）贝尔曼最优策略和公式推导

强化学习中的策略优化推导在强化学习（Reinforcement Learning, RL）中，状态值函数的定义经常涉及一个关于策略的最优化问题。本文将结合数学推导，解释如何从 Bellman 方程推导出最优策略的形式，并说明为什么最优策略是贪心策略（greedy policy）。 1. 从 Bellman 方程出发我们考虑状态值函数（假设已知一个固定的下一步值函数...

2025-09-10 学习

Vision Transformer

ViT架构的学习笔记

2025-01-29 学习

Transformer

关于Transformer架构的学习

2025-01-27 学习Transformer

爬虫-网页网易云音乐评论抓取

记录一下对网易云音乐评论的爬取。

2025-01-15 学习爬虫

✔️LaTeX公式✔️

记录平时用到的LaTeX标记。

2024-04-29 学习

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
分类
标签
主页

暗黑模式
打印页面
阅读模式