加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于倒序索引的微博去重方法和系统

发明专利无效专利
  • 申请号:
    CN201310681714.9
  • IPC分类号:G06F17/30
  • 申请日期:
    2013-12-12
  • 申请人:
    北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
著录项信息
专利名称基于倒序索引的微博去重方法和系统
申请号CN201310681714.9申请日期2013-12-12
法律状态驳回申报国家中国
公开/公告日2014-03-19公开/公告号CN103646080A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司申请人地址
北京市海淀区苏州街20号2号楼2层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司当前权利人北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
发明人王鑫文
代理机构中原信达知识产权代理有限责任公司代理人陈依虹;刘光明
摘要
本发明涉及一种基于倒序索引的微博去重方法和系统。所述方法包括:由模型训练模块根据词库数据对文本进行分词;由simhash模块根据分词后的结果对文本进行词频统计以将其转换为N维向量,并且对所述N维向量进行simhash运算以便获得f位的二进制签名;由去重运算模块执行以下操作:根据设定参数将所述f位的二进制签名分段,并依据分段结果建立倒序索引;根据所建立的倒序索引来分段检索第一分段下的签名集合,并计算所述第一分段中的对应的海明距离;以及确定在所述第一分段中的所计算的海明距离是否在所述设定参数范围内。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供