基于深度学习的网页正文抽取方法

发明专利有效专利

申请号：
CN202110026891.8
IPC分类号：G06F16/957;G06N3/04;G06N3/08
申请日期：
2021-01-09
申请人：
广东电子工业研究院有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	基于深度学习的网页正文抽取方法
申请号	CN202110026891.8	申请日期	2021-01-09
法律状态	实质审查	申报国家	中国
公开/公告日	2021-04-16	公开/公告号	CN112667940A
优先权	暂无	优先权号	暂无
主分类号	G06F16/957	IPC分类号	G;0;6;F;1;6;/;9;5;7;;;G;0;6;N;3;/;0;4;;;G;0;6;N;3;/;0;8查看分类表>
申请人	广东电子工业研究院有限公司	申请人地址	广东省东莞市松山湖园区科汇路1号1栋2111室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	广东电子工业研究院有限公司	当前权利人	广东电子工业研究院有限公司
发明人	陈前华
代理机构	北京盛凡智荣知识产权代理有限公司	代理人	叶似锦

摘要

本发明公开了基于深度学习的网页正文抽取方法，包括如下步骤：1)根DOM节点到叶子DOM节点的数据集准备；2)根DOM节点到叶子DOM节点的数据集构建；3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注；4)利用Fasttext对路径的标签进行预训练和编码；5)训练标签路径文本的LSTM分类模型；6)LSTM模型对标签路径文本进行预测；7)还原抽取到的网页正文。本发明属于互联网技术领域，具体是指提高简历网页正文抽取正确率的基于深度学习的网页正文抽取方法。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供