加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

深度强化学习模型的训练方法、装置、介质及设备

发明专利有效专利
  • 申请号:
    CN202110127253.5
  • IPC分类号:G06N3/08;G06K9/62
  • 申请日期:
    2021-01-29
  • 申请人:
    北京字节跳动网络技术有限公司
著录项信息
专利名称深度强化学习模型的训练方法、装置、介质及设备
申请号CN202110127253.5申请日期2021-01-29
法律状态实质审查申报国家中国
公开/公告日2021-05-07公开/公告号CN112766497A
优先权暂无优先权号暂无
主分类号G06N3/08IPC分类号G;0;6;N;3;/;0;8;;;G;0;6;K;9;/;6;2查看分类表>
申请人北京字节跳动网络技术有限公司申请人地址
北京市石景山区实兴大街30号院3号楼2层B-0035房间 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京字节跳动网络技术有限公司当前权利人北京字节跳动网络技术有限公司
发明人范嘉骏;肖昌南
代理机构北京英创嘉友知识产权代理事务所(普通合伙)代理人魏嘉熹
摘要
本公开涉及一种深度强化学习模型的训练方法、装置、介质及设备,所述方法包括:获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,交互序列包括多个采样数据,每一采样数据包括虚拟环境的第一状态、决策动作、以及在虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值和第二状态;针对每一所述采样数据,根据所述深度强化学习模型的优势函数和所述采样数据对应的决策策略,确定所述采样数据对应的计算动作价值;针对每一所述采样数据,根据所述采样数据对应的目标采样数据和所述目标采样数据对应的计算动作价值,确定所述深度强化模型对应的更新梯度信息;根据所述更新梯度信息对所述深度强化学习模型进行更新。

专利服务由北京酷爱智慧知识产权代理公司提供