阶段掌握:0%
|
课程:0/8 |
0/8 掌握点
关于本阶段
奠定强化学习的基础。介绍马尔可夫决策过程,讲解强化学习的基本概念,如策略、奖励函数、价值函数和 KL 散度等。分别介绍值学习算法和策略梯度算法,最后通过实战进行强化学习算法实践。

35. AI Agent智能体:基于MCP与A2A的Manus架构全解析
36. AI Agent智能体与MCP开发实践
37. AI+Cursor+trae辅助开发多模态全栈项目
38. 图解机器学习
39. 机器学习 - 解锁人工智能的核心
40. 图解大模型:生成式AI原理与实战
41. 面试指导购买
03. 2026Python编程入门到实践(ai创新实战版)
04. Python数据分析企业项目(12个)05. Python蟒蛇书精讲-入门到精通-销量250万教材06. 图解Python语法B站2500+万播放量07. 可爱的python08. Python常见编码100题
09. Python精讲100题-2025版10. Python经典常见问题100问
11. Python编程霸主:100个实战案例统治代码世界12. 自动化高效办公100例13. 【全100个】Python课设|毕设项目14. 源码剖析python实用模块15. Python项目合集
16. Python陪学训练营
17. Pygame游戏项目(6个)18. 数据分析思维实战课-人人能用得上19. PythonGUI-tkinter20. PythonGUI项目:E起去旅行21. Python GUI设计PyQt5入门到精通22. 专升本 | 高中信息技术合格考精讲23. 2025版-看漫画学Python(一)24. 全国计算机等级二级考试25. 2025版-看漫画学Python(二)26. 自动化办公真简单-趣玩python
09. 手把手教你Claude Code企业级实战案例购买奠定强化学习的基础。介绍马尔可夫决策过程,讲解强化学习的基本概念,如策略、奖励函数、价值函数和 KL 散度等。分别介绍值学习算法和策略梯度算法,最后通过实战进行强化学习算法实践。