首页 > 强化学习 > 强化学习基础算法

强化学习RL与MATLAB详解程序视频教程深度学习Q-learning和SARSA及策略迭代与值迭代4个基本算法

视频课 5集全 次学习
  • ¥110.00
  • 有效期:永久有效课程自购买之日起永久有效,该课程后续更新内容将免费参加学习。
    • 课程详情
    • 课程目录

    6郑一讲课圆头像.png

    新221103_宝贝主图4_800x800推广广告.jpg

    【内容简介】

    强化学习与MATLAB程序视频》共10章110节视频总学时1197分钟,合20小时。它是深度强化学习算法的基础和理论,深度强化学习是神经网络几个典型且具有代表性的算法之一,在系统控制、优化策略、定点稳定降落等【学习问题】中,是首选的算法。

    主要内容包括:视频课程内容介绍及慎拍不拍说明与参考文献,强化学习的基本概念及实例解读与理论介绍,Q-Learning算法代码程序求解悬崖行走问题,SARSA算法代码程序再解悬崖行走问题,Q-learning算法与SARSA算法的对比分析,Q-learning算法自带函数程序求解网格世界优选路线,SARSA算法自带函数程序求解网格世界优选路线,策略迭代算法与值迭代算法步骤及区别,策略迭代算法代码程序求解两地租车优化调度,值迭代算法代码程序求解迷宫逃脱问题

    全部免费提供MATLAB程序,免费提供辅导答疑,免费提供PPT课件。

    【如何为己所用】

    (1)只需具有自己的问题,代入所给的程序求解即可。

    (2)利用提供的程序即可完整得到论文写作所需的指标数据、论文用图。

    【前期基础】课程或知识

    (1) 了解MATLAB软件知识视频

    【后期选学】课程推荐

    (1)《深度强化学习DRL及其应用与MATLAB程序详解视频》

    (2)《强化学习设计器使用与MATLAB程序详解视频》

    (3)《如何创建强化学习问题的MATLAB环境及程序详解视频》

    (4)《如何创建强化学习问题的Simulink环境及程序详解视频》

    (5)AC算法实现股票交易操作深度强化学习与MATLAB程序》

    深度强化学习算法视频课程】推荐:

    (1)《强化学习RL及其应用与MATLAB程序详解视频》

    (2)《深度强化学习DRL及其应用与MATLAB程序详解视频》

    (3)《强化学习设计器使用与MATLAB程序详解视频》

    (4)《如何创建强化学习问题的MATLAB环境及程序详解视频》

    (5)《如何创建强化学习问题的Simulink环境及程序详解视频》

    (6)AC算法实现股票交易操作深度强化学习与MATLAB程序》

    一、学习指导方案

    1、全部视频都在网上。请首先按照视频文件序号由小到大(若前序号相同,说明视频内容密切联系,再看后面序号大小)的序号观看,保证内容由浅入深地顺序学习。

    2、在看视频的同时,利用【倍速】【暂停】【倒回】操作,最好运行程序文件。

    3、将存在的问题记录下来,看看视频是否讲解。对视频还是没有讲解的问题,尽快问【面对面数学】答疑。

    4、视频观看结束后,看看PPT课件,复习、巩固学习效果。

    5视频清晰度:(1)建议屏幕分辨率设置1920x1080 或者屏幕分辨率1280x720。(2)全屏播放。这样看视频更加清晰。

    6、倍速播放:现在【淘宝新平台】已经具备【倍速播放】视频功能

    黑图看视频.jpg

    四、目  录

    第一章  视频课程内容介绍及慎拍不拍说明与参考文献(29+39分钟)

    1、先看全面讲解9个关键重点问题和店主预言先告必看第三版(25+4分钟)

    2、RL1_视频讲些什么及能干什么与程序演示结果(21分钟,网络上免费“试看”

    3、RL2_MATLAB程序使用说明及亮点特点介绍(6分钟,网络上免费“试看”

    4、RL3_慎拍不拍说明及学习基础要求与参考文献(12分钟,网络上免费“试看”

    第二章  强化学习的基本概念及实例解读与理论介绍(153分钟)

    5、RL4_强化学习算法的基本思想及其应用领域(12分钟)

    6、RL5_1强化学习基本模型解读及学习过程分析(18分钟)

    7、RL5_2马尔科夫决策过程5要素解读分析(10钟)

    8、RL5_3累计回报及状态值函数及最优定义(12分钟)

    9、RL5_4行为值函数及最优策略等问题(17分钟)

    10、RL5_5Bellman期望方程及其推导依据(17分钟)

    11、RL5_6Bellman最优方程及其4个迭代算法(15分钟)

    12、RL5_7学生活动强化学习实例及最优策略(22分钟)

    13、RL5_8强化学习算法有解及可解问题的两处定理(6分钟)

    14、RL5_9强化学习程序资料及学习对策(8分钟,网络上免费“试看”

    15、RL5_10思考强化学习7个问题及总结(16分钟,有程序)

    第三章 Q-Learning算法代码程序求解悬崖行走问题(271分钟)

    16、RL6_01Q-Learning更新公式与Bellman最优方程对比(18分钟,有程序)

    17、RL6_02Q表结构及Q学习算法实现步骤说明(12分钟,有程序)

    18、RL6_1Q-Learning算法学习目标及悬崖行走问题说明(8分钟,有程序)

    19、RL6_2自学程序及RL6_1详解11点提纲(11分钟,有程序)

    20、RL6_3环境创建与参数设置问题(9分钟,有程序)

    21、RL6_4命令sub2ind作用及maxQ含义解读(9分钟,有程序)

    22、RL6_5详解函数trans设置动作走向与奖励(11分钟,有程序)

    23、RL6_6某片段第1步循环操作过程程序详解(10分钟,有程序)

    24、RL6_7某片段各步循环到终点程序详解(12分钟,有程序)

    25、RL6_8训练好的Q表分析与详解(9分钟,有程序)

    26、RL6_9片段回报及其含义与图像分析(8分钟,有程序,网络上免费“试看”

    27、RL6_10片段包含步数指标及作用与图像分析(11分钟,有程序)

    28、RL6_11状态行为对访问次数及其含义和作用(10分钟,有程序)

    29、RL6_12最优策略获取及3个存储变量含义(12分钟,有程序)

    30、RL6_13环境绘图及起终点坐标对应关系(8分钟,有程序)

    31、RL6_14最优策略绘图程序详解与图像分析(15分钟,有程序)

    32、RL6_15最优状态值函数及访问次数图像分析(10分钟,有程序)

    33、RL6_16可改9处及其可改建议(13分钟,有程序)

    34、RL6_17改动9点及回报设置等经验介绍(11分钟,有程序)

    35、RL6_18改动程序得到结果分析及经验介绍(11分钟,有程序)

    36、RL6_19模型扩展之8点方向介绍(6分钟,有程序)

    37、RL6_20算法扩展之8个思路介绍(7分钟,有程序)

    38、RL6_21思考Q表结构等4个问题(11分钟,有程序)

    39、RL6_22思考动作及更新公式等5个问题(13分钟,有程序)

    40、RL6_23思考如何使用程序等问题及总结(16分钟,有程序)

    第四章  SARSA算法代码程序再解悬崖行走问题(61分钟)

    41、RL7_1SARSA算法更新公式及步骤分析(16分钟,有程序)

    42、RL7_2悬崖行走问题及程序自学建议(6分钟,有程序)

    43、RL7_3算法各个步骤与程序语句一一对应(13分钟,有程序)

    44、RL7_4n程序关键语句强调及程序结果简析(13分钟,有程序)

    45、RL7_5模型与算法扩展之6点再强调(7分钟,有程序)

    46、RL7_6思考如何改动程序等9个问题及总结(6分钟,有程序,网络上免费“试看”

    第五章  Q-learning算法与SARSA算法的对比分析(74分钟)

    47、RL8_1学习内容与数据保存及导入操作(7分钟,有程序,网络上免费“试看”

    48、RL8_2最优策略画图函数及对比结论(9分钟,有程序)

    49、RL8_3最优状态值画图改进及对比结论(11分钟,有程序)

    50、RL8_4访问次数数值指标对比分析(12分钟,有程序)

    51、RL8_5累计回报与平均回报指标联系对比(9分钟,有程序)

    52、RL8_6步数及单步均值与Q均值指标含义分析(10分钟,有程序)

    53、RL8_7Q学习与SARSA算法6点定型分析(4分钟,有程序)

    54、RL8_8思考图像分析与数值指标及重点总结(12分钟,有程序)

    第六章 Q-learning算法自带函数程序求解网格世界优选路线(180分钟)

    55、RL9_1学习内容及网格世界问题分析(9分钟,有程序)

    56、RL9_2自学程序及GW各个属性详解(13分钟,有程序)

    57、RL9_3障碍状态及跳跃与回报设置详解(10分钟,有程序)

    58、RL9_4创建Q表用的4个函数详解(14分钟,有程序)

    59、RL9_5创建qAgent和设置训练可选参数(13分钟,有程序)

    60、RL9_6qAgent含义及sim图像解读(13分钟,有程序)

    61、RL9_7train功能和语法及插件出错(8分钟,有程序,网络上免费“试看”

    62、RL9_8train过程图像及其输出结果详解(14分钟,有程序)

    63、RL9_9可改7处及学习率等参数大小作用(11分钟,有程序)

    64、RL9_10可改重点3处及论文用绘图保存(11分钟,有程序)

    65、RL9_11子程序ZHY3生成及改编讲解(10分钟,有程序)

    66、RL9_12主程序9_3运行出错及图像结果讲评(12分钟,有程序)

    67、RL9_13路径优先及第一轮学习率调参(7分钟,有程序)

    68、RL9_14主程序第二轮调参及最终结果详解(12分钟,有程序)

    69、RL9_15思考如何使用程序等4个问题(11分钟,有程序)

    70、RL9_16思考大坑等4个问题及总结强调(12分钟,有程序)

    第七章  SARSA算法自带函数程序求解网格世界优选路线(27分钟)

    71、RL10_1学习目的及函数差别提示(6分钟,有程序)

    72、RL10_2程序5处差别及图像结果分析(11分钟,有程序)

    73、RL10_3改动建议与对比分析及思考总结(10分钟,有程序)

    第八章 策略迭代算法与值迭代算法步骤及区别(32分钟)

    74、RL11_1动态规划及策略迭代基本思想(5分钟,有程序)

    75、RL11_2策略迭代步骤及其优缺点(14分钟,有程序)

    76、RL11_3值迭代算法步骤及与策略迭代区别(13分钟,有程序)

    第九章 策略迭代算法代码程序求解两地租车优化调度(222分钟)

    77、RL12_1学习目标及杰克租车问题已知条件说明(13分钟,有程序)

    78、RL12_2两地租车问题分析及其结果先读(10分钟,有程序)

    79、RL12_3自学建议及问题几个参数设置(6分钟,有程序)

    80、RL12_4A点状态与回报R计算公式讲解(12分钟,有程序)

    81、RL12_5回报R的计算程序分析详解(8分钟,有程序,网络上免费“试看”

    82、RL12_6状态转移概率矩阵P计算程序详解(14分钟,有程序)

    83、RL12_7值函数与策略函数初始化及绘图解读(9分钟,有程序)

    84、RL12_8策略评估及更新值函数V出现(16分钟,有程序)

    85、RL12_9Bellman方程更新V值程序详解(16分钟,有程序)

    86、RL12_10寻找策略改进的移动车辆动作(12分钟,有程序)

    87、RL12_11策略改进程序与算法步骤详解(14分钟,有程序)

    88、RL12_12结果解读及程序逻辑关系再强调(10分钟,有程序)

    89、RL12_13可改程序6处及其可改建议(8分钟,有程序)

    90、RL12_14改动杰克租车问题及22点改动(6分钟,有程序,网络上免费“试看”

    91、RL12_15改动8处及雇员移车策略绘图与数据分析(14分钟,有程序)

    92、RL12_16改动12处及雇员移车行为值函数(13分钟,有程序)

    93、RL12_17改动关键2处及最终结果解读(9分钟,有程序)

    94、RL12_18模型扩展之8各问题讲解(6分钟,有程序)

    95、RL12_19算法扩展之8点建议讲解(8分钟,有程序)

    96、RL12_20思考如何使用程序等4各问题(9分钟,有程序)

    97、RL12_21再思考程序4个问题及总结强调(9分钟,有程序)

    第十章 值迭代算法代码程序求解迷宫逃脱问题(141分钟)

    98、RL13_1学习目的及迷宫问题解读(10分钟,有程序)

    99、RL13_2自学程序及矩阵转图函数(17分钟,有程序)

    100、RL13_3值函数及策略函数初始化(8分钟,有程序)

    101、RL13_4函数MazeSolver语法详解(16分钟,有程序)

    102、RL13_5动作表示及最优行走路径画图(9分钟,有程序)

    103、RL13_6可改程序10处及其可改建议(8分钟,有程序)

    104、RL13_7改动增加回头动作程序处理(9分钟,有程序,网络上免费“试看”

    105、RL13_8改动9处及程序对比算法步骤(14分钟,有程序)

    106、RL13_9模型扩展之6点思路(4分钟,有程序)

    107、RL13_10算法扩展之6点想法(5分钟,有程序)

    108、RL13_11思考动作如何得到等8个问题(13分钟,有程序)

    109、RL13_12思考如何使用程序及展望问题(12分钟,有程序)

    110、RL13_13论文与科研思路12点及总结(16分钟,有程序)

    五、下载文件

    附件1_必先看_强化学习及程序视频学习指导.doc

    附件2_强化学习与程序视频_PPT课件.rar

    附件3_强化学习全部程序m_郑一.rar

    点击到淘宝网付款.png

    六、各种算法视频课程及其到淘宝详情页链接

    点击下列链接,即可进入淘宝教育【视频播放】页面有免费的试看视频,可以“倍速”播放。

    留意:【视频播放】页面右下角到淘宝店铺详情页】拍宝贝。详情页介绍了你所关心的所有问题

    1、第2版卡尔曼滤波与应用和MATLAB程序详解视频科研算法辅导答疑

    https://jiaoyu.taobao.com/course/TBJY_2835001?spm=qingketang.24510471.0.0.210251f8R2bkjx

    22.5版粒子滤波与应用和MATLAB程序详解视频科研技术算法

    https://jiaoyu.taobao.com/course/QKT_3919002?spm=qingketang.24510471.0.0.491a51f85R0UQP

    3、第2版小波分析与应用和MATLAB程序详解视频科研技术教育数学答疑

    https://jiaoyu.taobao.com/course/QKT_3810002?spm=qingketang.24510471.0.0.4f2251f8ShzRhz

    4、第3版经验模态分解和希尔伯特黄变换应用和MTALAB程序分析视频

    https://jiaoyu.taobao.com/course/QKT_3400003?spm=qingketang.24510471.0.0.7b1151f8pGgiRs

    5、第2版傅里叶变换傅立叶频率幅值信号分析算法教育视频和MTALAB程序

    https://jiaoyu.taobao.com/course/QKT_1744006?spm=qingketang.24510471.0.0.788651f8Ci7JsF

    6、非局部均值滤波类算法与应用和MATLAB程序详解视频科研技术算法

    https://jiaoyu.taobao.com/course/QKT_3951003?spm=qingketang.24510471.0.0.71e351f8lh4a8P

    7、第2版最小二乘法与MATLAB程序详解视频课程数据分析回归预测

    https://jiaoyu.taobao.com/course/QKT_1882007?spm=qingketang.24510471.0.0.8a7b51f8IBe8Lv

    8、随机变量数据分析与处理和MATLAB程序详解视频教程

    https://jiaoyu.taobao.com/course/QKT_4206006?spm=qingketang.24510471.0.0.299b51f8ofqosP

    9、第2版改进的经验模态分解(MEEMD)与排列熵(PE)算法和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/TBJY_3147001?spm=qingketang.24510471.0.0.333d51f807CiJU

    10、第2BP神经网络及其应用与MATLAB命令详解视频

    https://jiaoyu.taobao.com/course/QKT_3694013?spm=qingketang.24510471.0.0.10cc51f8zEZ816

    11、第2版遗传算法(GA)及其约束条件工具箱应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/TBJY_3143136?spm=qingketang.24510471.0.0.71fb51f8I6BG32

    12、第2.5版卷积神经网络(CNN)及其分类识别应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3785005?spm=qingketang.24510471.0.0.517f51f8J2JHYF

    13、支持向量机(SVM)及其分类识别应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3919001?spm=qingketang.24510471.0.0.59fa51f8dgKDM5

    14、粒子群优化算法(PSO)及其路径配置优化应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_4125008?spm=qingketang.24510471.0.0.12fb51f8Cl4dh5

    15、遗传算法优化BP神经网络及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/TBJY_3026040?spm=qingketang.24510471.0.0.338e51f8NN5JGt

    16、模拟退火算法(SA)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3384003?spm=qingketang.24510471.0.0.6b6351f8pEKtjq

    17、第2版变分模态分解(VMD)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_1572002?spm=qingketang.24510471.0.0.160551f8qoeKDU

    18、循环神经网络(RNN)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3675001?spm=qingketang.24510471.0.0.47d351f83DgbG1

    19、长短时记忆网络(GAN)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/TBJY_3414002?spm=qingketang.24510471.0.0.15d151f85pWtbm

    20、生成式对抗网络(GAN)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/TBJY_3084112?spm=qingketang.24510471.0.0.77f351f8J3ewfJ

    21、强化学习(RL)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3179062?spm=qingketang.24510471.0.0.340751f83r7clZ

    22、深度强化学习(DRL)及其应用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3551159?spm=qingketang.24510471.0.0.20d051f8jo5prn

    23、辅助正则粒子滤波与应用和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_3675002?spm=qingketang.24510471.0.0.1e1d51f8oJ3B1f

    24、交易操作用深度强化学习AC算法与MATLAB程序

    https://jiaoyu.taobao.com/course/QKT_3996003?spm=pc_detail.29232929/evo365560b447259.202205.1.42417dd6UKFRI1

    25、第3Python程序及傅里叶变换与应用详解视频

    https://jiaoyu.taobao.com/course/QKT_4862067?spm=qingketang.24510471.0.0.41fc51f8l9DBBC

    26、交叉验证优化3个神经网络参数与应用和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_4660145?spm=2013.1.0.0.7e182286IIvqif

    27、粒子群算法优化支持向量机和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_4498113?spm=qingketang.24510471.0.0.291a51f8ZVY9Rj

    28、多目标遗传算法优化支持向量机和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_5063115?spm=qingketang.24510471.0.0.2f2051f8bHrtcZ

    29、粒子群算法优化PID控制算法和MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_5341013?spm=qingketang.24510471.0.0.429851f8WFtx4g

    30、强化学习设计器使用与MATLAB程序详解视频

    https://jiaoyu.taobao.com/course/QKT_5262003?spm=qingketang.24510471.0.0.474651f8RlQkTZ

    31、如何创建强化学习问题的MATLAB环境及程序详解视频

    https://jiaoyu.taobao.com/course/QKT_5285024?spm=qingketang.24510471.0.0.70b951f8926O6T

    32、如何创建强化学习问题的Simulink环境及程序详解视频

    https://jiaoyu.taobao.com/course/QKT_4422023?spm=qingketang.24510471.0.0.433651f8ynib9r

    33B站:傅里叶变换快速入门及Python程序绘图详解视频

    https://www.bilibili.com/cheese/play/ss20232 

    34B站:强化学习设计器操作简明版详解视频

    https://www.bilibili.com/cheese/play/ss20138 

    35B站:BP神经网络MATLAB快速入门了解神经网络知识

    https://www.bilibili.com/cheese/play/ss23543

    36B站:创建强化学习MATLAB环境求解自己问题详解视频

    https://www.bilibili.com/cheese/play/ss19900 

    37B站:变分模态分解原创优良降噪整形算法处理心电图信号与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss28622

    38B站:变分模态分解原创优良降噪光滑算法处理海洋内波数据与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss28565

    39B站:BP神经网络预测上证开盘指数与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss28471

    40B站:BP神经网络遗传算法求解无目标函数表达式问题与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss28950

    41B站:DDPG算法实现双积分系统控制与MATLAB程序详解视频

    https://www.bilibili.com/cheese/play/ss28770

    42B站:多目标遗传算法求解资源优化配置问题与MATLAB程序详解视频

    https://www.bilibili.com/cheese/play/ss32166 

    43B站:多尺度排列熵算法与MATLAB详解视频

    https://www.bilibili.com/cheese/play/ss32251 

    44B站:粒子群算法优化支持向量机预测上证股指和MATLAB程序详解视频

    https://www.bilibili.com/cheese/play/ss32383

    45B站:扩展卡尔曼滤波方法利用距离实现实时跟踪与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss32638

    46B站:观测方位利用扩展卡尔曼滤波方法实现实时跟踪与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss32732

    47B站:无迹卡尔曼滤波方法利用距离实现实时跟踪与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss32850

    48B站:卡尔曼滤波方法实现自由落体视频实时跟踪与MATLAB程序视频

    https://www.bilibili.com/cheese/play/ss64326