加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于信息抽取技术的搜索引擎

发明专利无效专利
  • 申请号:
    CN02111893.0
  • IPC分类号:--
  • 申请日期:
    2002-05-31
  • 申请人:
    浙江大学
著录项信息
专利名称基于信息抽取技术的搜索引擎
申请号CN02111893.0申请日期2002-05-31
法律状态撤回申报国家中国
公开/公告日2003-04-16公开/公告号CN1410918
优先权暂无优先权号暂无
主分类号暂无IPC分类号暂无查看分类表>
申请人浙江大学申请人地址
浙江省杭州市玉古路20号浙大计算机系 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人浙江大学当前权利人浙江大学
发明人吴朝晖;徐杰锋;陆伟
代理机构杭州九洲专利事务所有限公司代理人陈继亮
摘要
本发明涉及一种基于信息抽取技术的搜索引擎,利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。本发明有益的效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供