加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

网页正文的识别方法、装置、电子设备及存储介质

发明专利有效专利
  • 申请号:
    CN202110823007.3
  • IPC分类号:G06K9/00;G06K9/34
  • 申请日期:
    2021-07-20
  • 申请人:
    东莞市盟大塑化科技有限公司
著录项信息
专利名称网页正文的识别方法、装置、电子设备及存储介质
申请号CN202110823007.3申请日期2021-07-20
法律状态公开申报国家中国
公开/公告日2021-10-22公开/公告号CN113537091A
优先权暂无优先权号暂无
主分类号G06K9/00IPC分类号G;0;6;K;9;/;0;0;;;G;0;6;K;9;/;3;4查看分类表>
申请人东莞市盟大塑化科技有限公司申请人地址
广东省东莞市南城区周溪隆溪路5号高盛科技园二期之高盛科技大厦第7层701-703室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人东莞市盟大塑化科技有限公司当前权利人东莞市盟大塑化科技有限公司
发明人余良
代理机构广州三环专利商标代理有限公司代理人张艳美;刘光明
摘要
本申请公开了一种网页正文的识别方法、装置、电子设备及存储介质,其中方法包括:获取待分析网页文本,待分析网页文本包括字符行和空白行,单个空白行和多个连续排列的空白行视作间隔,间隔对应的空白行数量表示该间隔的长度;根据待分析网页文本的所有间隔计算得到一参考间隔长度;利用参考间隔长度过滤待分析网页文本的所有间隔,以保留长度大于参考间隔长度的间隔;穷举搜索任意两行之间对应的字符数和过滤后的所有间隔,并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。本申请具有较高识别准确率,还能适用于多种类型的网页。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供