加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

挖掘文本数据的方法、装置、计算机设备和存储介质

发明专利有效专利
  • 申请号:
    CN202010124827.9
  • IPC分类号:G06F16/33;G06F16/35
  • 申请日期:
    2020-02-27
  • 申请人:
    北京奇艺世纪科技有限公司
著录项信息
专利名称挖掘文本数据的方法、装置、计算机设备和存储介质
申请号CN202010124827.9申请日期2020-02-27
法律状态实质审查申报国家中国
公开/公告日2020-06-30公开/公告号CN111353020A
优先权暂无优先权号暂无
主分类号G06F16/33IPC分类号G;0;6;F;1;6;/;3;3;;;G;0;6;F;1;6;/;3;5查看分类表>
申请人北京奇艺世纪科技有限公司申请人地址
北京市海淀区海淀北一街2号鸿城拓展大厦10、11层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京奇艺世纪科技有限公司当前权利人北京奇艺世纪科技有限公司
发明人王文超;阳任科;郏昕
代理机构北京华夏泰和知识产权代理有限公司代理人张丽颖;李雪
摘要
本申请涉及一种挖掘文本数据的方法、装置、计算机设备和存储介质。所述方法包括:获取包括候选字符串的文本数据;根据成词函数计算候选字符串的分值,得到成词分值;从候选字符串中筛选出成词分值大于或等于第一预设阈值的字符串作为第一候选字符串;从第一候选字符串中查找与预设词典中匹配的字符串作为第一目标字符串,未匹配的字符串作为第二字符串;从第二字符串中查找出成词分值大于第二预设阈值的字符串作为第二目标字符串;将在预设知识库中查找到的目标字符串对应的类别作为目标字符串的目标类别。自动划分作品,对划分得到的字符串的成词分数确定目标字符串,并进行实时分类,保证字符串的划分速度,并较好的分类。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供