马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

云烟 • 2024年 10月 21日上午11:55 • 未分类

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素本文接前面文章入门强化学习所需掌握的基本概念 MDP 的前置知识随机过程马尔可夫过程马尔可夫奖励根据上文我们已经得知在随机过程的基础上增加马尔可夫性质即可得马尔可夫过程而再增加奖励则得到了马尔可夫奖励过程 MRP 如果我们再次增加

欢迎大家来到IT世界,在知识的湖畔探索吧!

本文接前面文章：

入门强化学习所需掌握的基本概念
MDP的前置知识：随机过程、马尔可夫过程、马尔可夫奖励

根据上文我们已经得知，在随机过程的基础上

增加马尔可夫性质，即可得马尔可夫过程
而再增加奖励，则得到了马尔可夫奖励过程(MRP)
如果我们再次增加一个来自外界的刺激比如智能体的动作，就得到了马尔可夫决策过程(MDP)

通俗讲，MRP与MDP的区别就类似随波逐流与水手划船的区别在马尔可夫决策过程中，

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

考虑到在当前状态和当前动作确定后，那么其对应的即时奖励则也确定了

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

，故sutton的RL一书中，给的状态转移概率矩阵类似为

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

从而可得奖励函数即为

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

通过上文，我们已经知道不同状态出现的概率不一样（比如今天是晴天，那明天是晴天，还是雨天、阴天不一定），同一状态下执行不同动作的概率也不一样（比如即便在天气预报预测明天大概率是天晴的情况下，你大概率不会带伞，但依然不排除你可能会防止突然下雨而带伞）

而有了动作这个因素之后，我们重新梳理下价值函数

首先，通过“状态价值函数”对当前状态进行评估

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

相当于从状态S出发遵循策略

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

能获得的期望回报

其次，通过“动作价值函数”对动作的评估

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

相当于对当前状态S依据策略

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

执行动作

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

得到的期望回报，这就是大名鼎鼎的Q函数，得到Q函数后，进入某个状态要采取的最优动作便可以通过Q函数得到

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

当有了策略、价值函数和模型3个组成部分后，就形成了一个马尔可夫决策过程（Markov decision process）。如下图所示，这个决策过程可视化了状态之间的转移以及采取的动作。

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

且通过状态转移概率分布，我们可以揭示状态价值函数和动作价值函数之间的联系了

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

针对这个公式大部分资料都会一带而过，但不排除会有不少读者问怎么来的，考虑到对于数学公式咱们不能想当然靠直觉的自认为，所以还是得一五一十的推导下

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

上述推导过程总共五个等式，其中，第三个等式到第四个等式依据的是

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

，至于第四个等式到第五个等式依据的是状态转移概率矩阵的定义

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

的计算结果互相代入，可得马尔可夫决策的贝尔曼方程

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

上述过程可用下图形象化表示(配图来自文献21)

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

计算示例和更多细节待补充..

想在NLP领域更系统、深入提升的同学，我建议你看下【NLP高级小班第十一期】一次报名，答疑服务三年

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

考虑到市面上课程大都以讲技术、讲理论为主，鲜有真正带着学员一步步从头到尾实现企业级项目的高端课程，故我们让大厂技术专家手把手带你实战大厂项目。一方面，让大家更好的在职提升，另一方面，力求让每位同学都深刻理解NLP的各大模型、理论和应用。

第十一期，除了继续维持上一期的：

五大技术阶段：分别从NLP基础技能、深度学习在NLP中的应用、Seq2Seq文本生成、Transformer与预训练模型、模型优化等到新技术的使用，包括且不限于GPT、对抗训练、prompt小样本学习等
八大企业项目：包括机器翻译系统、文本摘要系统、知识图谱项目、聊天机器人系统，以及基本文本的问答系统、FAQ问答机器人、文本推荐系统、聊天机器人中的语义理解
标准流程：环境配置与特征工程、模型构建与迭代优化、模型评估与优化上线；
就业指导：就业部辅助BAT大咖讲师做简历指导、面试辅导、就业内推。

本期更对技术和项目阶段做了大力度改进：

对于技术阶段，新增文本检索系统中的关键技术以及22年年底爆火的ChatGPT原理解析
对于项目阶段，新增第五大企业级项目：短文本相关性语义搜索系统

面向群体： 本课程适合已经在做AI的进一步在职提升，比如在职上班族跳槽涨薪/升职加薪，采用严格筛选制（通过率不到1/3），需要具备一定的基础能力才能报名通过，故以下同学优先：

985或211高校的CS、数学理工科相关专业的应届或往届研究生
已有一定的AI在职开发经验，如AI岗想在职提升
已有一定的AI项目经验，如学过七月在线的机器学习集训营

【NLP高级小班第十一期】已开营，放5个免费试听名额，有意找苏苏老师（VX：julyedukefu008 ）或七月在线其他老师申请试听了解课程

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/80553.html

赞 (0)

0

发表回复

下月上线，微软 Teams 会议将支持用户临时修改名称
4天前
分享到:

下月上线，微软 Teams 会议将支持用户临时修改名称p data vmark 7b1c a class s tag href https www ithome com target blank IT 之家 a 1 月 8 日消息科技媒体 mwpro 今天 1 月 8 日发布博文报道称微软计划于 2025 年 2 月在 Microsoft Teams 中推出新功能用户可以在会议期间修改他们的显示名称 strong 这项改动仅限于会议期间不会影响用户个人资料卡片上的原始姓名 strong p p data vmark 055b 用户可以在会议期间临时修改显示名称修改后的名称仅在该会议中生效会议结束后显示名称将恢复为原始名称 IT 之家附上相关截图如下 p p data vmark 4c8c style text align center img src https img ithome com newsuploadfi 2025 1 5f76915d 1592 407b 8d49 7a1d94feeb1f jpg x bce process image format f auto w 1440 h 810 data weibo 0 class lazy title 下月上线微软 Teams 会议将支持用户临时修改名称 data original https img ithome com newsuploadfi 2025 1 5f76915d 1592 407b 8d49 7a1d94feeb1f jpg x bce process image format f auto width 1440 height 461 p p data vmark cd75 style text align center img src https img ithome com newsuploadfi 2025 1 945b09a9 3754 4082 bcca 57d0c33fc855 jpg x bce process image format f auto w 1440 h 810 data weibo 1 class lazy title 下月上线微软 Teams 会议将支持用户临时修改名称 data original https img ithome com newsuploadfi 2025 1 945b09a9 3754 4082 bcca 57d0c33fc855 jpg x bce process image format f auto width 1440 height 461 p p data vmark f360 style text align center img src https img ithome com newsuploadfi 2025 1 62868774 813a 4eb4 8270 870792216892 jpg x bce process image format f auto w 1440 h 810 data weibo 2 class lazy title 下月上线微软 Teams 会议将支持用户临时修改名称 data original https img ithome com newsuploadfi 2025 1 62868774 813a 4eb4 8270 870792216892 jpg x bce process image format f auto width 1440 height 461 p p data vmark bca1 该功能适用于 Windows 和 Mac 系统的 Teams 桌面和 Web 应用程序用户修改过显示名称的参会者其姓名旁边会显示 edited 标签 p p data vmark 0b78 默认情况下该功能对所有租户关闭管理员可以在 Teams 管理中心为整个组织或选定成员启用该功能即使管理员启用了该功能会议组织者仍需在会议选项中开启允许用户编辑其显示名称才能在特定会议中使用此功能 p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p
年同比增长速度达 9.32% 领先竞争对手，Python 荣获 TIOBE 2024 年度编程语言
4天前
分享到:

年同比增长速度达 9.32% 领先竞争对手，Python 荣获 TIOBE 2024 年度编程语言p data vmark 429e a class s tag href https www ithome com target blank IT 之家 a 1 月 7 日消息 TIOBE nbsp 编程社区指数是一个衡量编程语言受欢迎程度的指标评判的依据来自世界范围内的工程师课程供应商及搜索引擎官方今日发文 strong 公布了 nbsp TIOBE 2024 nbsp 年度编程语言 Python strong 作为比较 TIOBE 2023 nbsp 年的 a href https www ithome com 0 744 014 htm target blank 年度编程语言为 nbsp C a p p data vmark 8df1 TIOBE nbsp 的 nbsp CEO nbsp Paul Jansen nbsp 表示 strong Python 去年同比增长达惊人的 9 32 strong 遥遥领先于其他竞争对手作为比较 Java 相比去年同比增长了 2 28 JavaScript 增长了 1 43 Go 增长了 1 24 p p style text align center data vmark d709 img src https img ithome com newsuploadfi 2025 1 6a285561 d51f 4601 b496 8551f09e8f1f jpg x bce process image format f auto w 1394 h 1140 data weibo 0 class lazy title 年同比增长速度达 9 32 领先竞争对手 Python 荣获 TIOBE 2024 年度编程语言 data original https img ithome com newsuploadfi 2025 1 6a285561 d51f 4601 b496 8551f09e8f1f jpg x bce process image format f auto width 1394 height 671 p p data vmark b9c5 当下 Python 几乎无处不在并且是许多领域的首选语言目前 Python 唯一的缺点是性能开销较大 p p data vmark 7730 Paul Jansen nbsp 同时表示 2024 年 TIOBE 指数中还有两件有趣的事 C 语言被 C 和 Java 超越如今 nbsp Java 和 C 正争夺排行榜前二的位置而 nbsp PHP 的第十名地位被谷歌 Go 语言所取代如今 Go 稳居前十 p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p
跨越灯控生态藩篱，微星、华擎同第三方同步软件 SignalRGB 达成合作
4天前
分享到:

跨越灯控生态藩篱，微星、华擎同第三方同步软件 SignalRGB 达成合作p data vmark 23ad a class s tag href https www ithome com target blank IT 之家 a 1 月 7 日消息 IT 之家从微星华擎的 a class s tag href https www ithome com tag ces2025 target blank CES 2025 a 新品发布新闻稿获悉这两大主板制造商已同第三方 RGB 灯效同步软件 SignalRGB 达成合作微星华擎主板的用户 strong 未来将在第一方的 Mystic Light 或 Poly Chrome 外获得新的官方支持灯控软件选择 strong p p data vmark c08e style text align center img src https img ithome com newsuploadfi 2025 1 1be034e3 8e19 4f52 b3b8 b68ce2c6be39 jpg x bce process image format f auto w 1440 h 480 data weibo 0 class lazy title 跨越灯控生态藩篱微星华擎同第三方同步软件 SignalRGB 达成合作 data original https img ithome com newsuploadfi 2025 1 1be034e3 8e19 4f52 b3b8 b68ce2c6be39 jpg x bce process image format f auto width 1440 height 273 p p data vmark a4cc style text align center img src https img ithome com newsuploadfi 2025 1 d8778bcc e985 4631 8f3e 4bb9b06b43b6 jpg x bce process image format f auto w 1200 h 1800 data weibo 1 class lazy title 跨越灯控生态藩篱微星华擎同第三方同步软件 SignalRGB 达成合作 data original https img ithome com newsuploadfi 2025 1 d8778bcc e985 4631 8f3e 4bb9b06b43b6 jpg x bce process image format f auto width 1200 height 1230 p p data vmark 7668 strong PC DIY 的 RGB 同步生态一直以来相对割裂 strong 不同厂商均推出了各自的灯控软件甚至此前存在个别不支持非自身软件的情况 p p data vmark 0233 而 SignalRGB 会自动检测所有已连接 RGB 和 ARGB 接头优化了跨品牌跨类别的 RGB LED 设备灯效同步设定从而为组装电脑主机提供了更好的 RGB 灯光定制和同步效果同时 strong 解锁了灯效与游戏交互等场景的可能 strong p p style text align center a class topic bar target blank href https www ithome com zt ces2025 CES 2025 消费电子展专题海量数码新品发布 a p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p
多款 Chrome 浏览器扩展程序被植入恶意代码，以窃取用户数据
2025年 1月 6日
分享到:

多款 Chrome 浏览器扩展程序被植入恶意代码，以窃取用户数据p data vmark 43a2 a class s tag href https www ithome com target blank IT 之家 a 12 月 29 日消息据 BleepingComp 报道近期至少五款 Chrome 扩展程序遭受协同攻击攻击者通过注入恶意代码窃取用户敏感信息数据丢失防护公司 Cyberhaven 于 12 月 24 日率先披露了其扩展程序遭到入侵的消息原因是其在 Google Chrome 商店的管理账户遭遇了成功的网络钓鱼攻击 p p style text align center data vmark 4186 img src https img ithome com newsuploadfi 2024 12 f0c8a330 7fb4 45ee 88f7 3ce9c1b99d30 jpg x bce process image format f auto w 1440 h 810 data weibo 0 class lazy title 多款 Chrome 浏览器扩展程序被植入恶意代码以窃取用户数据 data original https img ithome com newsuploadfi 2024 12 f0c8a330 7fb4 45ee 88f7 3ce9c1b99d30 jpg x bce process image format f auto width 1440 height 461 p p data vmark 6336 据 IT 之家了解 Cyberhaven 的客户包括 Snowflake 摩托罗拉佳能 Reddit AmeriHealth Cooley IVP Navan 星展银行 Upstart 和 Kirkland amp Ellis 等知名企业攻击者劫持了 Cyberhaven 员工的账户并发布了恶意版本的 Cyberhaven 扩展程序版本号 24 10 4 strong 该版本包含可将已验证的会话和 Cookie 数据泄露到攻击者控制的域名 cyberhavenex pro 的代码 strong p p data vmark 5ae7 Cyberhaven 在发送给客户的邮件中表示其内部安全团队在检测到恶意程序后一小时内就将其下架干净版本的扩展程序版本号 24 10 5 已于 12 月 26 日发布除了升级到最新版本外 Cyberhaven Chrome 扩展程序的用户还被建议撤销所有非 FIDOv2 的密码轮换所有 API 令牌并检查浏览器日志以评估是否存在恶意活动 p p data vmark 947b 在 Cyberhaven 披露事件后 Nudge Security 的研究员 Jaime Blasco 根据攻击者的 IP 地址和注册域名进行了深入调查 Blasco 发现 strong 用于让扩展程序接收攻击者指令的恶意代码片段也在同一时间段被注入到其他四款 Chrome 扩展程序中 strong 包括 Uvoice ParrotTalks 等 Blasco 还发现了指向其他潜在受害者的更多域名但只有以上四款扩展程序被确认为携带了恶意代码片段 p p data vmark d4a7 建议用户将这些扩展程序从浏览器中移除或升级到 12 月 26 日之后发布的确认已修复安全问题的安全版本如果不确定扩展程序的发布者是否已获悉并修复了安全问题最好卸载该扩展程序重置重要的账户密码清除浏览器数据并将浏览器设置恢复到原始默认设置 p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p
Linux 挥别 WinXP 时代协议，USB RNDIS 即将退场
2025年 1月 6日
分享到:

Linux 挥别 WinXP 时代协议，USB RNDIS 即将退场p data vmark 0d9f a class s tag href https www ithome com target blank IT 之家 a 1 月 2 日消息 Linux 基金会研究员 Greg Kroah Hartman 计划在 Linux 内核中 strong 彻底移除 USB RNDIS 协议驱动 strong p p data vmark ab76 IT 之家查询公开资料 USB RNDIS 是一种远程网络驱动接口规范将 USB 设备模拟成网卡从而在计算机和设备之间建立网络连接简单来说就是通过 USB 线缆实现 TCP IP over USB 的功能 p p data vmark db2b 该协议源于微软 Windows XP 时代存在诸多安全漏洞 Hartman 早在 2022 年 11 月就提出移除它的提议 p p data vmark 5637 Hartman 于 2024 年 12 月 23 日再次推送提案认为这个古老的协议已经不再必要反而会让系统存在诸多安全隐患容易受到网络威胁 p p data vmark 42e8 他明确指出任何使用 RNDIS 协议连接不受信任主机或设备的系统都存在安全风险最佳方案就是尽快移除 p p data vmark c04c style text align center img src https img ithome com newsuploadfi 2025 1 c0cd037d e6dc 4e9b b4ab ac3b4ba698e4 jpg x bce process image format f auto w 800 h 1119 data weibo 0 class lazy title Linux 挥别 WinXP 时代协议 USB RNDIS 即将退场 data original https img ithome com newsuploadfi 2025 1 c0cd037d e6dc 4e9b b4ab ac3b4ba698e4 jpg x bce process image format f auto width 800 height 1119 p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p
微软 Edge 浏览器新特性前瞻：融入 Win11 系统托盘、AI 增强自动填充和收藏夹
2025年 1月 6日
分享到:

微软 Edge 浏览器新特性前瞻：融入 Win11 系统托盘、AI 增强自动填充和收藏夹p data vmark 27d5 a class s tag href https www ithome com target blank IT 之家 a 1 月 2 日消息科技媒体 Windows Latest 昨日 2025 年 1 月 1 日发布博文报道称在 Canary 频道最新 Microsoft Edge 浏览器中微软正测试 msTaskbarXUs 实验性 Flag strong 暗示 Windows 11 将更深度整合 Edge 功能 strong p h3 data vmark 15bd Windows 11 nbsp 系统托盘将添加 nbsp Edge nbsp 图标 h3 p data vmark 0820 该媒体反馈在启用该实验性 Flag 后相关特性暂未生效不过从名称判断应该是 Windows 11 系统托盘中会显示 Edge 浏览器的图标显示下载进度网页相关通知甚至可能还有关闭后台运行等操作 p h3 data vmark b2ee AI nbsp 自动填充 h3 p data vmark 6d5e IT 之家援引该媒体报道 Microsoft Edge 浏览器还进一步整合 AI 功能发现了 span class link text start with http msEdgeAutofi span 和 msEdgeAutofi 两个实验性 Flag 目前尚不清楚 Levo 的含义可能是某个小语言 AI 模型 p p data vmark aa98 style text align center img src https img ithome com newsuploadfi 2025 1 231b8fbe b432 4c30 b9ab 9be10f1e5f3f jpg x bce process image format f auto w 1219 h 849 data weibo 0 class lazy title 微软 Edge 浏览器新特性前瞻融入 Win11 系统托盘 AI 增强自动填充和收藏夹 data original https img ithome com newsuploadfi 2025 1 231b8fbe b432 4c30 b9ab 9be10f1e5f3f jpg x bce process image format f auto width 1219 height 571 p p data vmark 5048 该媒体推测 Edge 浏览器在启用上述实验性 Flag 后可以更智能地建议登录信息信用卡或地址等特别是对于经常填写送货表单的用户 Edge 能够学习用户习惯更快地提供所需信息 p h3 data vmark a8b0 增强收藏夹 h3 p data vmark ad4c 此外还发现了 msFavoritesR 和 msFavoritesL 两个实验性 Flag 预示着微软将升级 Edge 浏览器的收藏夹功能这些嵌入技术可能基于 AI 或索引方法让用户能够通过上下文而非仅仅标题或 URL 搜索书签实现更精准的查找 p p class ad tips 广告声明文内含有的对外跳转链接包括不限于超链接二维码口令等形式用于传递更多信息节省甄选时间结果仅供参考 IT 之家所有文章均包含本声明 p

云烟 2023年 4月 25日

你这文采，堪称现代李白

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主有大厦之将倾而面不改色，狂澜于既倒而稳如泰山只能。

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主好文采

评论于古天乐拍戏误伤眼球缝八针！而他第一时间却只想给粉丝道歉[通俗易懂]
样 2023年 4月 25日

干货干货

评论于 UG编程，钻孔攻丝，铣螺纹，干货知识[亲测有效]
云烟 2023年 4月 25日

人家是chatGPT 不是GBT

评论于程序开发中MySql、SQLServer、SQLite数据库的使用场景及性能评测

联系我们YX

mu99908888

在线咨询：微信交谈

邮件：itzsgw@126.com

工作时间：时刻准备着!

关注微信