加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

页面类别识别方法及装置、用于页面类别识别的装置

发明专利有效专利
  • 申请号:
    CN201610798538.0
  • IPC分类号:G06F16/9532;G06F16/35;G06F40/279
  • 申请日期:
    2016-08-31
  • 申请人:
    北京搜狗科技发展有限公司
著录项信息
专利名称页面类别识别方法及装置、用于页面类别识别的装置
申请号CN201610798538.0申请日期2016-08-31
法律状态授权申报国家中国
公开/公告日2018-03-09公开/公告号CN107784034A
优先权暂无优先权号暂无
主分类号G06F16/9532IPC分类号G;0;6;F;1;6;/;9;5;3;2;;;G;0;6;F;1;6;/;3;5;;;G;0;6;F;4;0;/;2;7;9查看分类表>
申请人北京搜狗科技发展有限公司申请人地址
北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京搜狗科技发展有限公司当前权利人北京搜狗科技发展有限公司
发明人杜建光;孙键;李毅;许静芳
代理机构北京三高永信知识产权代理有限责任公司代理人郭晶
摘要
本发明公开了一种页面类别的识别方法及装置、用于页面类别识别的装置,属于互联网技术领域。方法包括:从待识别页面中提取文本数据构成待识别数据集;获取待识别数据集包含的多个隐含主题以及对应的概率;获取属于特定类别隐含主题的概率,构成主题分布特征;依据概率最高的隐含主题是否属于特定类别生成特定类别判断特征;依据待识别数据集中每个词汇的正概率和负概率,得到特定类别比例特征;依据主题分布特征、特定类别判断特征和特定类别比例特征构成特征向量;基于预设的分类器对特征向量进行识别;本发明通过在训练过程中引入样本数据集对应的各隐含主题的概率和词汇的正概率和负概率等语义特征,提高了分类器的精确度,提高了识别精确度。

专利服务由北京酷爱智慧知识产权代理公司提供