加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

面向医学领域的网站识别和网页细分类的方法

发明专利有效专利
  • 申请号:
    CN201310113454.5
  • IPC分类号:G06F17/30
  • 申请日期:
    2013-04-02
  • 申请人:
    浙江大学
著录项信息
专利名称面向医学领域的网站识别和网页细分类的方法
申请号CN201310113454.5申请日期2013-04-02
法律状态授权申报国家中国
公开/公告日2013-07-31公开/公告号CN103226578A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人浙江大学申请人地址
浙江省杭州市西湖区浙大路38号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人浙江大学当前权利人浙江大学
发明人陈德人;林臻;郑小林;郭华;邓志豪
代理机构杭州中成专利事务所有限公司代理人周世骏
摘要
本发明涉及互联网搜索技术,旨在提供一种面向医学领域的网站识别和网页细分类的方法。该方法是从现有网站中提取医学分类主题词库的算法,以及将网站及网页根据分类主题词库进行打分,并根据打分结果进行分类的算法。打分算法根据网页的内容特征,不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。本发明先从全网中提取医药相关的网站,然后将这些网站中的网页进行分类,从中提取出包括各类网页。本发明能够快速的判断医药相关网站属于某一个分类,具有计算简单,计算速度快,准确度高等优点。相较于同类的方明,本发明的算法不会受到网页中高频词的影响,也不会受限于特定的网页html写法。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供