数学论文 | 力学论文 | 化学论文 | 信息科学论文 | 物理学论文 | 农学论文 | 林学论文 | 药学论文 | 天文学论文 | 生物学论文 | 水产学论文 | 核科学论文 | 中医中药学论文
管理学论文 | 经济学论文 | 教育学论文 | 地球科学论文 | 畜牧兽医论文 | 基础医学论文 | 临床医学论文 | 医学卫生论文 | 工程学科论文 | 测绘科学论文 | 军事特种医学论文
材料学论文 | 矿山工程论文 | 化学工程论文 | 纺织科学论文 | 食品科学论文 | 体育科学论文 | 水利工程论文 | 环境科学论文 | 安全科学论文 | 能源科学论文 | 机械工程论文
电子通信自动控制论文 | 计算机科学论文 | 冶金工程技术论文 | 动力电气工程论文 | 土木建筑工程论文 | 交通运输工程论文 | 航空航天科学论文 | 图书馆情报文献学论文
  当前位置:免费论文首页 >> 电子通信自动控制论文 >> 正文

自适应重要采样Actor-Critic算法

论文发布时间:[2010-03-08]    范文大全    编辑:Voive.net

所有作者:冯涣婷

作者单位:江苏省徐州市中国矿业大学信息与电气工程学院

论文摘要:在离策略Actor-Critic(AC)强化学习中,虽然Critic使用重要采样技术可以减小值函数估计的偏差,但是重要采样方法没有考虑估计的方差,算法性能倾向于不稳定。为了减小估计方差,提出一种自适应重要采样AC学习算法。该算法将自适应重要采样技术应用于带资格迹的最小二乘时间差分AC方法中,重复使用策略更新过程中收集的数据样本,在重要权重的基础上引入一个用于权衡策略梯度估计偏差和方差的平衡因子,其中平衡因子的值由重要权重交叉验证方法根据样本和策略自动选择。排队问题的仿真结果表明,本文所提AC算法不仅具有稳定的性能,而且学习速度快

关键词: 策略梯度 自适应重要采样 重要权重交叉验证 最小二乘时间差分 AC学习

免费下载《自适应重要采样Actor-Critic算法》PDF全文(已停止下载)
  本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!

〖返回电子通信自动控制论文列表〗

下一篇:基于CAN总线的本安型CO检测系统设计

 相关范文