著录项信息
专利名称 | 基于关键词的个性化文档处理系统 |
申请号 | CN200710200102.8 | 申请日期 | 2007-01-24 |
法律状态 | 驳回 | 申报国家 | 中国 |
公开/公告日 | 2007-07-25 | 公开/公告号 | CN101004737 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/21 | IPC分类号 | G06F17/21;G06F17/30;G06F3/048查看分类表>
|
申请人 | 贵阳易特软件有限公司 | 申请人地址 | 贵州省贵阳市延安东路***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 贵阳易特软件有限公司 | 当前权利人 | 贵阳易特软件有限公司 |
发明人 | 李丹宁;李丹 |
代理机构 | 贵阳中新专利商标事务所 | 代理人 | 李大刚 |
摘要
本发明公开了一种基于关键词的个性化文档处理系统,它包括计算机,在该计算机中运行有多任务和多窗口的操作系统,还包括屏幕协同显示装置、信息组织装置、鼠标轨迹识别装置、屏幕抓词装置、剪贴板取词装置、输入过程取词装置、关键词识别装置、关键词分析装置、关键词语义装置、关注位置识别装置、操作控制识别装置、主题词与评语装置、附记与评论装置、搜索引擎接口装置和辅助工具库接口装置。本系统根据用户在使用包含文字信息的文档过程中,有意识地抓取的用户关注的个性化的关键词,利用软性超链接技术,以关键词为节点,对文档进行组织,生成个性化的综合倒排索引表和以文档为中心的软性超链接记录,以帮助用户深入文档内部管理用户个人信息。
1.一种基于关键词的个性化文档处理系统,它包括具有至少一个处理机和一组存储器,并且还至少包括一个输出用的屏幕和输入用的键盘、鼠标以提供用户和程序交互的用户接口,并且与外部存储器、内部局域网和/或者外部国际互连网连接的计算机,在该计算机中运行有多任务和多窗口的操作系统,其特征在于:系统的构成还包括,用以显示用户关注的主文档和与该主文档关联的辅助文档和/或者辅助信息的屏幕协同显示装置;用以存储屏幕协同显示装置显示的各种信息和这些信息之间的关系并供其它装置使用、或者供外部工具调用的信息组织装置;用以识别用户移动鼠标有意识地画出的一些特定鼠标轨迹、并调用对应操作的鼠标轨迹识别装置;用于确定用户感兴趣的关键词的关键词产生装置;用于对用户确定的关键词进行分析处理的关键词处理装置;以及用于根据用户确定的关键词调用外部工具的工具调用装置。
2.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以通过用户使用鼠标移动的特定轨迹有意识地标明屏幕上显示的、用户能够看到的文字和符号串的起始和结束位置,并将该文字和符号串作为关键词取出的屏幕抓词装置。
3.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以监视用户利用操作系统提供的剪贴板进行复制、粘贴、移动乃至删除操作,并察看剪贴板中的内容,判断其是否为关键词,如果是,则作为关键词取出的剪贴板取词装置。
4.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以监视用户输入的文字和符号串,并通过关键词识别装置自动分析和判断输入的文字和符号串是否为关键词,如果是,则将该文字和符号串作为关键词取出的输入过程取词装置。
5.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词处理装置包括用以判断一个给定的文字和符号串是否是关键词,以及是否可能是新的关键词的关键词识别装置和用以确定用户感兴趣的关键词并确定用户希望通过该关键词启动操作的关键词分析装置。
6.根据权利要求5所述的基于关键词的个性化文档处理系统,其特征在于:关键词处理装置还包括用以给出关键词的语义的关键词语义装置,该关键词语义装置给出关键词识别装置识别出的关键词的语义并记录到信息组织装置中,在屏幕上显示;或者将关键词和有关的语义传递到关键词分析装置进行后续处理。
7.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:工具调用装置包括一个基于关键词来调用外部搜索引擎,以提高信息搜索质量的搜索引擎接口装置。
8.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:工具调用装置包括一组基于关键词来调用外部辅助工具库的辅助工具库接口装置。
9.根据权利要求8所述的基于关键词的个性化文档处理系统,其特征在于:所述的辅助工具库包括但不限于中外文词典、汉语词典、百科全书、通讯录、电话号码本、计算器、地图、电影片段、音乐片段、名人介绍以及内容相关的文档链接的至少之一
10.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以提取主文档中用户关注的某个位置的信息和特点的关注位置识别装置。
11.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以根据鼠标轨迹识别装置识别轨迹后得到的轨迹代号查找对应的功能或指令,并根据运行环境和相关参数的情况调用对应的功能或发出对应的操作指令,以及在不适合的情况下,取消功能的调用和指令的发出的操作控制识别装置。
12.根据权利要求10或11中任意一项所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以弹出一个窗口以树状结构展示主题词或评语供用户选择的主题词与评语装置。
13.根据权利要求10或11中任意一项所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以打开一个文字编辑器供用户录入文字信息,对文档关注位置的上下文进行附记补充和/或者进行评论的附记与评论装置。
14.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:屏幕协同显示装置包括主窗口、辅窗口、协同显示控制装置;主窗口就是常规软件的显示窗口,用以显示用户进行主要的阅读和/或者编辑操作的包括有文字和符号的信息;协同显示控制装置用以监视主窗口的操作和/或者接受主窗口发出的消息,当主窗口显示的内容变化时,计算出主窗口内显示的所有被选择或者产生的关键词的坐标值和显示的缩放比例值,并将这些值传递给所有的辅窗口,使辅窗口能够调整显示位置和状态,与主窗口显示的内容协同地变化并显示;辅窗口用于在协同显示控制装置的控制下,基于主窗口中的显示内容显示出对应的帮助、附记、评论、主题词和评语辅助信息。
15.根据权利要求14所述的基于关键词的个性化文档处理系统,其特征在于:辅窗口具有视觉透明和交互操作透明的功能,即:当辅窗口置于主窗口之上时,辅窗口具有半透明到完全透明的边框和背景,用户可以看清辅窗口之下的主窗口所显示的内容,辅窗口中显示的文字或者图形内容漂浮在主窗口之上;用户的键盘和鼠标操作可以透过辅窗口和辅窗口中的显示内容而操作在辅窗口之下主窗口显示的内容上。
16.根据权利要求14所述的基于关键词的个性化文档处理系统,其特征在于:辅窗口可根据协同显示控制装置提供的关键词的新的位置坐标值和缩放比例值进行显示刷新,主要有四种模式的显示刷新,即:当主窗口中链接该辅窗口的关键词位置移动时,模式一,辅窗口跟随移动;模式二,辅窗口保持不动;模式三,辅窗口变为一个同关键词包含的文字同等大小的半透明图标,挂在该关键词后面跟随移动;模式四,辅窗口关闭。
17.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:信息组织装置的构成包括工作日志装置、综合倒排索引装置、软性超链接装置、文档操作装置和系统配置装置。
18.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:工作日志装置用于保存用户使用计算机的过程以及本系统各个装置运行的状态与结果;重点保存计算机的当前配置、近期使用过的工具、超链接和软性超链接的记录、用户的个性化特点。
19.根据权利要求18所述的基于关键词的个性化文档处理系统,其特征在于:工作日志装置记录的信息至少包括关键词产生表、关键词应用表和关注位置操作表,其中关键词产生表中的信息是由屏幕抓词装置、剪贴板取词装置或输入过程取词装置产生,并经关键词识别装置识别、传递后,调用工作日志装置进行记录的;关键词应用表中的信息是由搜索引擎接口装置调用外部搜索引擎成功返回辅助文档后,或者是辅助工具库接口装置调用辅助工具成功返回信息后,调用工作日志装置进行记录;关注位置操作表中的信息是主题词与评语装置和附记与评论装置运行后,调用工作日志装置进行记录的。
20.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:综合倒排索引装置用于根据工作日志装置中记录的关于关键词、主题词和评语的记录,建立以关键词、主题词和评语为索引词,以文档、附记、评论和辅助工具为检索项的索引表;索引表中的词汇是动态的,不断有新关键词加入也不断有旧关键词删除或遗忘,所有经过用户确认的新关键词采用瞬时记忆、短期记忆和长期记忆三个阶段的模式进行记忆和遗忘,新出现的主题词和评语直接进入短期记忆缓冲区;瞬时记忆的新关键词保留在综合倒排序索引装置的瞬时记忆缓冲区,同时根据索引主表记录它的渠道信息,该记忆缓冲区使用频率排序和用遗忘很快的遗忘算法减少词频;当该新关键词与某个文档关联或者与某个辅助工具固定关联,或者瞬时词频大于某个阈值后,该关键词就被存入综合倒排序索引装置的短期记忆缓冲区,并仍然根据索引主表记录该词的产生渠道,该新关键词的词频统计采取新渠道奖励算法统计,并按照词频进行排序和遗忘比较慢的遗忘算法减少词频,词频很低的词将被遗忘,从缓冲区排除;当存入短期记忆缓冲区的新关键词的必要属性被补充,而且词频高于一定的阈值,则该关键词将被存入综合倒排序索引装置的长期记忆缓冲区,成为该区的新关键词,并仍然根据索引主表进行词频统计的渠道奖励算法和用遗忘很慢的遗忘算法减少词频
21.根据权利要求20所述的基于关键词的个性化文档处理系统,其特征在于:词频统计的渠道奖励算法是模仿人类记忆过程中的感观渠道的综合作用和新鲜感对记忆的影响;一个关键词被使用第n次,并且使用渠道Hi,这时Hi被累计使用了ni次,则该词的词频Fc(n)=Fc(n-1)+1+Ft(Hi,ni),Fc为0~255之间的整数,当Fc(n-1)=255时,Fc(n)=Fc(n-1);Ft(Hi,ni)为使用Hi渠道第ni次的奖励词频值,Ft(Hi,ni)的计算公式为:Ft(Hi,ni)=F0·minj{zdini[1-Q(Hi,Hj)·(1-Zdjnj)]}]]>Fo为词频奖励值,Q为渠道相似度,Zd为渠道的新鲜感指数因子;Zd的取值大于0,小于1;Q的取值范围在0与1之间;遗忘算法是根据用户使用关键词时遗忘的特点,参考艾宾浩斯记忆规律曲线揭示的规律,将该曲线分为三段:瞬时记忆阶段、短期记忆阶段和长期记忆阶段,并都用指数函数进行模拟,在综合倒排索引装置中索引词的词频Fc作为记忆强度的度量,设经过T时间后,遗忘比例为Y,Y的取值大于0,小于1,则遗忘算法就是经过一段时间t之后,记忆残留量Fc=Fc0*(1-Y)t/T。
22.根据权利要求20所述的基于关键词的个性化文档处理系统,其特征在于:索引文档按文档关注度Gz排序,文档关注度Gz与该文档被使用到的情况有关,首先与该文档被使用的频率Fw有关,也与该文档的所有用户用到的关键词、主题词和评语有关,与用户直接给文档关注度的打分Fs相关,还与该文档联系的其它文档和辅助工具有关;文档被关注的信息包含在用户使用该文档时最经常用到的索引词中,所有的文档取与它关联的最重要的前k个索引词进行词频平均,得到文档的关注度Gz的计算公式为:Gz=Rw·Fw+Rc1k·Σi=1kFci+Rs·Fs]]>公式中,Rw代表文档使用频率的权重,Rc代表重要索引词词频均值的权重,Rs代表用户对文档关注度主观打分值的权重,对于不同的用户,可以取不同的权重值,并且Rw+Rc+Rs=1。
23.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:软性超链接装置用于以文档为中心,从工作日志装置的记录中,将用户使用该文档时抓取过的关键词及其位置、由该关键词调用的辅助工具以及返回的信息、调用搜索引擎搜索到的辅助文档,还有通过关注位置及其上下文进行的主题词和评语标注,以及添加的附记和评论记录按照时间排列,以最近和最频繁使用的记录作为该文档的软性超链接,当该文档被再次打开使用时,这些软性超链接就会被自动打开调出辅助信息,协同显示在屏幕上,恢复用户最近几次使用该文档时的运行状况,并且从工作日志装置的记录中,还可以统计出调用或打开该文档的主要方式,从而使该文档可以进行一定的回溯操作。
24.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:文档操作装置用于将用户最常用到的文档、最新用到的文档,以及将会被用户感兴趣的新文档的标题和简单摘要按照主题词和重要关键词进行用户主导下的自动分类显示。
25.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:系统配置装置用于用户设定整个系统运行参数和输入用户个人信息。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2014-12-26 | 2014-12-26 | | |
2 | | 2013-03-26 | 2013-03-26 | | |
3 | | 2010-11-22 | 2010-11-22 | | |
4 | | 2010-12-26 | 2010-12-26 | | |
5 | | 2014-09-15 | 2014-09-15 | | |
6 | | 2012-01-13 | 2012-01-13 | | |
7 | | 2015-05-07 | 2015-05-07 | | |
8 | | 2012-06-25 | 2012-06-25 | | |
9 | | 2014-06-25 | 2014-06-25 | | |
10 | | 2014-12-30 | 2014-12-30 | | |
11 | | 2015-07-15 | 2015-07-15 | | |
12 | | 2011-04-18 | 2011-04-18 | | |
13 | | 2010-03-09 | 2010-03-09 | | |
14 | | 2014-12-26 | 2014-12-26 | | |
15 | | 2012-04-25 | 2012-04-25 | | |
16 | | 2012-06-25 | 2012-06-25 | | |
17 | | 2010-03-09 | 2010-03-09 | | |
18 | | 2012-09-17 | 2012-09-17 | | |
19 | | 2014-12-23 | 2014-12-23 | | |
20 | | 2014-09-15 | 2014-09-15 | | |
21 | | 2015-07-15 | 2015-07-15 | | |
22 | | 2015-12-16 | 2015-12-16 | | |
23 | | 2012-11-21 | 2012-11-21 | | |
24 | | 2013-03-26 | 2013-03-26 | | |
25 | | 2008-11-20 | 2008-11-20 | | |
26 | | 2014-07-08 | 2014-07-08 | | |
27 | | 2015-12-25 | 2015-12-25 | | |
28 | | 2011-04-18 | 2011-04-18 | | |
29 | | 2012-11-21 | 2012-11-21 | | |
30 | | 2010-04-14 | 2010-04-14 | | |
31 | | 2015-05-07 | 2015-05-07 | | |
32 | | 2015-12-10 | 2015-12-10 | | |