加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于深度强化学习的多机协同空战规划方法及系统

发明专利有效专利
  • 申请号:
    CN202110261574.4
  • IPC分类号:G06F30/27;G06N3/04;G06N3/08;G06F111/08
  • 申请日期:
    2021-03-10
  • 申请人:
    中国人民解放军国防科技大学
著录项信息
专利名称基于深度强化学习的多机协同空战规划方法及系统
申请号CN202110261574.4申请日期2021-03-10
法律状态授权申报国家中国
公开/公告日2021-05-28公开/公告号CN112861442A
优先权暂无优先权号暂无
主分类号G06F30/27IPC分类号G;0;6;F;3;0;/;2;7;;;G;0;6;N;3;/;0;4;;;G;0;6;N;3;/;0;8;;;G;0;6;F;1;1;1;/;0;8查看分类表>
申请人中国人民解放军国防科技大学申请人地址
湖南省长沙市开福区德雅路109号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国人民解放军国防科技大学当前权利人中国人民解放军国防科技大学
发明人冯旸赫;程光权;施伟;黄魁华;黄金才;刘忠
代理机构北京融智邦达知识产权代理事务所(普通合伙)代理人董惠文
摘要
本发明提出了基于深度强化学习的多机协同空战规划方法及系统,通过将战机视为智能体,构建强化学习智能体模型,通过集中式训练‑分布式执行架构对网络模型进行训练,克服了多机协同时因不同实体间的动作区分度不大,网络模型探索性不强的缺点。通过在奖励值中嵌入专家经验,解决了现有技术中需要大量专家经验支撑的问题。通过经验共享机制,所有智能体共享一套网络参数和经验回放库,解决了单个智能体的策略不只取决于自身的策略和环境的反馈,同时还受其他智能体行为和合作关系的影响问题。通过增加优势值绝对值较大样本的采样概率,使奖励值极大或极小的样本都能影响神经网络的训练,加快算法收敛速度。通过添加策略熵提高智能体的探索能力。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供