加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于web的文本分类挖掘系统及方法

发明专利无效专利
  • 申请号:
    CN201110160465.X
  • IPC分类号:G06F17/30;G06F17/27
  • 申请日期:
    2011-06-15
  • 申请人:
    悠易互通(北京)广告有限公司
著录项信息
专利名称基于web的文本分类挖掘系统及方法
申请号CN201110160465.X申请日期2011-06-15
法律状态撤回申报国家暂无
公开/公告日2011-09-14公开/公告号CN102184262A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
申请人悠易互通(北京)广告有限公司申请人地址
北京市朝阳区光华路4号东方梅地亚C座2201室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人悠易互通(北京)广告有限公司当前权利人悠易互通(北京)广告有限公司
发明人张杰;刘奎飞
代理机构北京市炜衡律师事务所代理人王启莺
摘要
本发明公开了一种基于web的文本分类挖掘系统及方法,其主要包括文本预处理模块、分词处理模块和分类算法模块;其中,文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。该系统通过利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足,对分类器进行了改进,能够提高数据挖掘的查全率和查准率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供