加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于无监督集成学习的抽取式文本摘要方法

发明专利有效专利
  • 申请号:
    CN202011624456.7
  • IPC分类号:G06F16/34;G06F40/216;G06F40/289;G06N3/04
  • 申请日期:
    2020-12-31
  • 申请人:
    山西三友和智慧信息技术股份有限公司
著录项信息
专利名称基于无监督集成学习的抽取式文本摘要方法
申请号CN202011624456.7申请日期2020-12-31
法律状态实质审查申报国家中国
公开/公告日2021-05-11公开/公告号CN112784036A
优先权暂无优先权号暂无
主分类号G06F16/34IPC分类号G;0;6;F;1;6;/;3;4;;;G;0;6;F;4;0;/;2;1;6;;;G;0;6;F;4;0;/;2;8;9;;;G;0;6;N;3;/;0;4查看分类表>
申请人山西三友和智慧信息技术股份有限公司申请人地址
山西省太原市高新区科技街15号A118室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人山西三友和智慧信息技术股份有限公司当前权利人山西三友和智慧信息技术股份有限公司
发明人潘晓光;易传润;王宇琦;陈亮;马彩霞
代理机构太原荣信德知识产权代理事务所(特殊普通合伙)代理人杨凯;连慧敏
摘要
本发明公开了一种基于无监督集成学习的抽取式文本方法,包括以下步骤:首先将输入文档D进行预处理;然后通过TF‑IDF转换输入到编码器中,得到整篇文档的高阶特征表示下的句向量集合,对无监督模型下对使用算法和抽取式的启发式规则生成候选集;最后对三种模型下的结果根据投票选择方式进行集成,将句子根据得分进行排序,选取出最终,输出目标。通过自动确定文本中心数量K来提高聚类算法准确度,进一步提高抽取式文本的准确度。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供