著录项信息
专利名称 | 一种文本主题推荐的方法和装置 |
申请号 | CN200710107365.4 | 申请日期 | 2007-05-29 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-12-03 | 公开/公告号 | CN101315624 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/27 | IPC分类号 | G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 阿里巴巴集团控股有限公司 | 申请人地址 | 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 吴辉;文德;项碧波 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明 |
摘要
本发明公开了一种文本主题推荐方法和装置,所述方法包括:对目标文本进行扫描,并对所述目标文本分词,获得目标词语;计算所述目标词语的权重;根据所述目标词语的权重优选出所述目标文本的主题关键词。由于基于上述方法得到的主题关键词能够很好地预测目标文本的主题,因此,通过主题关键词,用户可以在很短的时间内对文本内容的有效性做出判断,大大节约了用户的时间成本。
一种文本主题推荐的方法和装置\n技术领域\n[0001] 本发明涉及数据的分析处理,特别是涉及一种文本主题推荐的方法和装置。\n背景技术\n[0002] 在信息技术快速发展的今天,与传统的纸质媒体相比,人们获取信息的能力获得了前所未有的提高。但是,人们在一边享受信息技术及互联网带来便利的同时,也不得不面对信息泛滥所带来的困扰。通常,在人们在获得的有效信息的同时,往往还掺杂着大量的、无用的垃圾信息。例如,人们可能每天都要面对数量庞大的电子邮件、网页或其他载有信息的文件等。那么该如何从如此繁多的文件中获取有效信息呢?\n[0003] 现有的技术条件下,用户为了判断文章中所记载信息的有效性,往往需要通过浏览文章的内容才能做出判断,而通常文章的内容都会具有较大的篇幅、包含非常多的信息,而用户浏览这些信息则需要花费大量的时间。若这样的文章、邮件是垃圾信息,则会极大地浪费用户的时间和资源。\n发明内容\n[0004] 本发明的目的是提供一种文本主题推荐方法和装置,以解决现有技术中用户必须通过浏览全文才能获知该文章主题所花费的大量时间成本的问题。\n[0005] 为解决上述问题,本发明公开了一种文本主题推荐方法,包括:\n[0006] 目标文本为目标邮件,并对所述目标邮件分词,获得目标词语;\n[0007] 计算所述目标词语的权重;\n[0008] 根据所述目标词语的权重优选出所述目标邮件的主题关键词;\n[0009] 确定所述目标邮件的主题关键词是否包括预定垃圾信息,若包括,则判定所述目标邮件为垃圾邮件。\n[0010] 优选的,所述计算目标词语的权重包括:\n[0011] 计算该目标词语在所述目标文本中的词语频率;\n[0012] 从预置的词根词典中获取与所述目标词语对应的词根权重;\n[0013] 根据所述目标词语的词语频率和词根权重计算该目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。\n[0014] 优选的,所述预置的词根词典中的词根权重通过以下步骤获得:\n[0015] 收集多个不同的文本作为语料;\n[0016] 计算词根在所述语料中的逆文本频率指数作为该词根的权重。\n[0017] 优选的,所述方法还包括:对分词后得到的目标词语按预置规则进行过滤。\n[0018] 优选的,所述根据目标词语的权重优选出目标文本的主题关键词包括:对目标词语按权重进行排序;将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为所述目标文本的主题关键词。\n[0019] 优选的,所述方法还包括:将主题关键词组成相关词组;对所述相关词组中的主题关键词进行聚类获得目标词组;根据所述目标词组和预置的短语词典获得主题短语。\n[0020] 优选的,所述对相关词组中的主题关键词进行聚类获得目标词组包括:从预置的相关性词典获取所述相关词组的相关性权重;从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。\n[0021] 优选的,所述预置条件为该主题关键词与所述目标词组中的每一个主题关键词组成的相关词组的相关性权重大于第二阀值。\n[0022] 优选的,所述根据目标词组和预置的短语词典获得主题短语包括:根据目标词组中的主题关键词分别从短语词典中查找对应的短语;对同一目标词组的主题关键词所对应的短语,取其交集作为目标文本的一个主题短语;重复该步骤,直到获得所有的主题短语。\n[0023] 优选的,所述短语词典中的短语设置有短语权重;所述获得主题短语还包括:对主题短语按其对应的权重进行排序。\n[0024] 与现有技术相比,本发明具有以下优点:\n[0025] 对于一篇文章、邮件等文本信息,词语是该文本中最小的语意单位。通常,文章中的一个或几个关键词语就足以构成该文章所要表达的主题,通过这些主题关键词,用户不必浏览全文,就能够迅速地对文章的重要性以及是否有效做出判断。本发明通过对文本分词,获得目标词语,计算目标词语的权重,然后根据权重优选出该目标文本的主题关键词。\n这样一来,避免了现有技术中通过浏览文章内容判断信息有效性导致的时间和资源的浪费。\n附图说明\n[0026] 图1是本发明所述文本主题推荐方法的实施例1的步骤流程图;\n[0027] 图2是本发明所述文本主题推荐方法的实施例2的步骤流程图;\n[0028] 图3是是本发明所述文本主题推荐装置的一实施例的结构框图;\n[0029] 图4是本发明所述文本主题推荐方法的一个应用实施例的步骤流程图。\n具体实施方式\n[0030] 目前,随着信息技术的发展,人们获取信息的方式也变得非常快捷,但随之而来的垃圾信息却给人们带来了无尽的困扰。在现有技术中,面对各种各样的电子信息,用户往往只能通过浏览全文才能判断该信息的有效性,如此一来,将会耗费该用户大量的时间成本。\n本发明通过对目标文本分词获得目标词语,然后计算目标词语的权重,再根据目标词语的权重优选出该目标文本的主题关键词,这样一来,用户通过这些主题关键词就可以迅速的获知该目标文本的主题内容,并进一步判断该信息的有效性,因而很好的解决了现有技术存在的上 述问题。\n[0031] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施例对本发明作进一步详细的说明。\n[0032] 本发明的实施例1中,通过对目标文本分词获得目标词语,然后计算目标词语的权重,最后根据目标词语的权重优选出该目标文本的主题关键词。下面结合图1对该实施例作进一步详细描述:\n[0033] 步骤101:对目标文本分词获得目标词语。\n[0034] 本发明中,对所述目标文本的存储载体不做限制,例如可以是网页、txt文件、word文件、xml文件等。本发明所述的目标文本既可以是一句、一段话,也可以是一篇文章,当然也可以是其他任何形式的存在的文本信息。可以看出,对任何具有语意的文本都可以看作是由很多个句子组成,因此,句子是最基本的目标文本。\n[0035] 本发明中,词语是最小的语意单位。对目标文本分词可采用典型的“查字典”法。\n所谓“查字典”法,就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,这样,对一个句子的分词就完成了。当然也可以采用其它分词方法,如统计语言模型分词方法。实施本发明时采用何种分词方法对目标文本进行分词,可由本领域技术人员根据需要自行选择,本发明对此不做限制。其中,经分词得到的词语称为目标词语。\n[0036] 步骤102:对目标词语按预置规则进行过滤。\n[0037] 本步骤为可选步骤。分词完成后,对得到的目标词语进行过滤。例如,过滤掉目标词语中包含的“的”“地”“啊”这样的词。由于这类“应删除”的词语对文本主题通常不会产生影响,将其过滤掉不但可以减少处理其所消耗的成本,而且可以降低对其他词语产生的干扰。\n[0038] 步骤103:计算目标词语的权重。\n[0039] 优选的,目标词语的权重按以下步骤计算:\n[0040] a:从分词得到的目标词语中选择一个用于计算权重的目标词语tw。\n[0041] b:从预置的词根词典中获取该目标词语tw对应的词根权重。\n[0042] 所述预置的词根词典中设置有词根和该词根对应的权重。优选的,词根的 权重为该词根的逆文本频率指数(IDF,Inverse Document Frequency)。词根的IDF是根据预先收集的多个文本作为语料计算得出。IDF的计算公式为1n(D/Dw),其中D是收集的全部的语料文本数,Dw为词根w在D个文本中出现的次数。例如,假定中文网页数是D=10亿,若词根“巧克力”在两百万篇文章中出现,即Dw=200万,则词根“巧克力”的权重IDF=ln(500)=6.2。\n[0043] 从词典中查找与目标词语tw匹配的词根,并取得该词根对应的权重。\n[0044] c:计算该目标词语在所述目标文本中的词语频率(TF,Term Frequency)。\n[0045] 将该目标词语在目标文本中出现的次数除以该目标文本的总字数,其商值就是该目标词语的TF。例如,一篇1000字的文章中,“巧克力”出现了2次,那么目标词语“巧克力”的TF值为2。\n[0046] d:计算目标词语tw的权重Weight。目标词语的权重为该目标词语的TF与所对应的词根IDF的乘积。\n[0047] e:按照上述步骤b、c、d所述的方法分别计算每一个目标词语的权重。结果如下:\n[0048] Weight1=TF1*IDF1;\n[0049] Weight2=TF2*IDF2;\n[0050] …\n[0051] Weightn=TFn*IDFn\n[0052] 优选的,上述步骤b所使用的词典的内容按照语料所属专业或所属领域进行设置。例如,可按照法律、机械、电子、化工等领域分别收集语料、设置背景词典。若已知目标文本所述领域,就可以选择相应的词典计算目标词语的权重,这样一来,进一步缩小了词根的语意范围,提高了计算的准确性。\n[0053] 需要指出的是,在所述词根词典中将词根的IDF值作为词根的权重只是本发明优选的方法,在实施本发明时还可以采用其他方法设置词根的权重,例如,可将词根在语料中出现的频率作为该词根的权重。\n[0054] 用目标词语的频率和词根权重的乘积作为目标词语的权重也是本发明优选的方法,此外,还可以根据目标词语在目标文本中的位置以及该目标词语所属词性来计算目标词语的权重,具体过程为:\n[0055] 所述词语位置为词语在文本中出现的位置比例,例如,文本总的字数为 100,若词语在第5字符的位置出现,那么该词语在所述文本中的位置为:5/100=0.05。\n[0056] 在词典中设置词根以及与该词根对应的词性,每一种词性设置有相应的权重,例如,可将动词的权重设置为5,形容词设置为2。\n[0057] 计算目标词语的权重时,首先计算该目标词语在目标文本中的位置,然后查找词典,获得该目标词语对应的词性权重,取二者的乘积作为该目标词语的权重。\n[0058] 当然,本领域技术人员在实施本发明时也可采用其他方式计算目标词语的权重,本发明对此不做限制。\n[0059] 步骤104:根据目标词语的权重优选出目标文本的主题关键词。\n[0060] 优选的,按照以下步骤优选主题关键词:\n[0061] 对目标词语按权重进行排序;将所述目标词语的权重与预置的第一阀值进行比较,若大于,则将该目标词语作为目标文本的主题关键词。所述第一阀值的取值根据经验得出。\n[0062] 按照上述优选方法可获得目标文本的一个或多个主题关键词,并且这些主题关键词是按照权重的大小排序列出的,因此,当用户从前向后查看这些主题关键词时,可迅速的获知该目标文本的主题。\n[0063] 在本发明的实施例2中,在获得目标文本的主题关键词后,将主题关键词组成相关词组;从预置的相关性词典获取所述相关词组的相关性权重,然后对相关词组中的主题关键词进行聚类获得目标词组,最后,根据目标词组和预置的短语词典获得主题短语。下面结合图2对该实施例进行详细描述:\n[0064] 步骤201:对目标文本分词获得目标词语。\n[0065] 步骤202:对目标词语按预置规则进行过滤。\n[0066] 步骤203:计算目标词语的权重。\n[0067] 步骤204:根据目标词语的权重优选出目标文本的主题关键词。\n[0068] 步骤205:将主题关键词组成相关词组;从预置的相关性词典获取所述相关词组的相关性权重。\n[0069] 相关性词典中设置有词组和词组的相关性权重。其中,每个词组包含2个词语,如假设词语为Wi(1<=i<=n,n为词语总数),则相关性词典的内容示例 如下:\n[0070] 词组 相关性权重\n[0071] w1:w2 0.4\n[0072] w1:w3 0.1\n[0073] w1:w4 0.3\n[0074] w2:w3 0.0\n[0075] w2:w4 0.2\n[0076] w3:w4 0.1\n[0077] …\n[0078] 下面举例说明如何计算词组的相关性权重:\n[0079] 首先,采集多个文本作为语料;然后,对每个文本进行切词,得到每个词语出现的文本数P;最后,统计任意两个词语共同出现的文本数T,根据公式计算任意两个词语W1和W2的相关性:(T/P1+T/P2)/2。\n[0080] 例如,选择100个文本作为语料,词语“雅虎”在20个文本中出现,则“雅虎”的文本数为20,词语“中国”出现的文本数为“90。“雅虎”和“中国”一起出现的文本数为10,那么词语“雅虎”和“中国”的相关性为(10/20+10/90)/2=0.31。\n[0081] 在得到目标文本的主题关键词后,将任意两个不同的主题关键词组成相关词组,若该相关词组在所述相关性词典中存在,则取得该相关词组对应的相关性权重;否则,将该相关词组的权重置为0。例如:目标文本的主题关键词分别为w1、w2、w3、w4,将这些主题关键词两两组成相关词组,并查询相关性词典中是否存在该词组,若存在,获得对应的权重;\n若不存在,权重设置为0。结果为:{w1,w2}=0.4,{w1,w3}=0.1,{w1,w4}=0.3,{w2,w3}=0,{w2,w4}=0.2,{w3,w4}=0.1。\n[0082] 步骤206:对相关词组中的主题关键词进行聚类获得目标词组。聚类算法的具体描述如下:\n[0083] 首先,预置第二阀值(m)和一个空的词组集(A)。所述第二阀值的取值根据经验得出。\n[0084] 步骤s1:判断A是否为空,若为空,执行步骤s2;若不为空,执行步骤s3。\n[0085] 步骤s2:判断是否存在权重值大于阀值m的相关词组,若存在,取权重值最大的词组置为A,并将该词组从相关词组集合中删除;否则,则执行步骤s5。\n[0086] 步骤s3:判断是否扫描完所有的主题关键词,若扫描未完成,扫描并选择一个主题关键词(w),所述用于扫描的主题关键词不包括所述当前A中的主题关键词;否则,执行步骤s5。\n[0087] 步骤s4:若w满足预置条件,则将w作为一个新的元素加入A,然后执行步骤s3;\n若不满足,将A保存为一个目标词组,然后将A置空,执行步骤s1。\n[0088] 步骤s5:聚类结束。\n[0089] 上述步骤s4中,优选的,所述用于判断当前关键词是否满足的预置条件是指:当前主题关键词与A中每一个主题关键词所构成的相关词组的相关性权重均大于第二阀值。\n另外,所述预置条件还可以是:当前主题关键词与A中的任意一个主题关键词所构成的相关词组的相关性权重大于预置阀值。该步骤中,若w满足预置条件,即w与A中的任意一个关键词或每一个关键词构成的相关词组的权重值大于第二阀值,则将该相关词组从相关词组集合中删除。\n[0090] 对于步骤205得到的相关词组:\n[0091] {w1,w2}=0.4,\n[0092] {w1,w3}=0.1,\n[0093] {w1,w4}=0.3,\n[0094] {w2,w3}=0,\n[0095] {w2,w4}=0.2,\n[0096] {w3,w4}=0.1,\n[0097] 若预置阀值为0.2,应用上述聚类算法得到的目标词组为:{w1,w2,w4}。\n[0098] 需要说明的是,上述对词语聚类获得目标词组的描述只是本发明优选的实现方式,本领域技术人员在实施本发明时可对聚类算法进行改进或替换,但是无论采用何种表达形式,都不能认为超出了上述算法所描述的思想。\n[0099] 步骤207:根据目标词组中的主题关键词分别从短语词典中查找对应的短 语。\n[0100] 本发明中,短语是有顺序的两个或多个词语的组合。本发明的短语词典中设置有词语和包含该词语的短语之间的映射关系,内容示例如下:\n[0101] \n词语 短语1 短语2 短语3 …\nw1 w1w3w4 w4w1 w2w3w1w4 …\nw2 w1w2 W2w1 w2w3w1w4 …\nW3 w1w3 w3w4 \nW4 w1w4 W2w4 w2w3w1w4 \n[0102] 例如,对于目标词组{w1,w2,w4},分别在短语词典中查询关键词w1、w2和w4对应的短语。\n[0103] 步骤208:对属于同一目标词组的主题关键词的短语,取其交集作为目标文本的一个主题短语\n[0104] 步骤209:判断是否处理完所有的目标词组,若没有,执行步骤208。\n[0105] 例如对于目标词组{w1,w2,w4},主题关键词w1,w2,w4短语的交集为:w2w3w1w4,该短语即为目标文本的一个主题短语。对其它的目标词组也采用同样的方法进行处理获得相应的主题短语。\n[0106] 优选的,短语词典中的每一个短语还设置有相应的权重。\n[0107] \n词语 短语1 权重1 …\nw1 w1w3w4 3 …\nw2 w1w2 2 …\nW3 w1w3 2 …\nW4 w1w4 2 …\n[0108] 权重值可以按照该短语包含的词语个数进行设置,如短语w1w3w4包含了3个词语,则该短语的权重值为3;另外,也可以按照该短语被检索的次数统计得出,如,若短语w1w3w4被检索了600次,则该短语的权重为600,当然也可以采用其他方法设置短语的权重。由于短语词典中设置了短语的权重,因此,根据该短语词典得到的主题短语也具有相应的权重,可按照权重对多个主题短语进行排序,将权重值高的主题短语优先展示给用户,有利于该用户更加快速地判断文本的主题。\n[0109] 优选的,短语词典中还设置有短语的所属类别。例如:\n[0110]\n词语 短语1 权重1 所属类别1 …\nw1 w1w3w4 3 机械 …\nw2 w1w2 2 电子 …\nW3 w1w3 2 法律 …\nW4 w1w4 2 手机 …\n[0111] 通过所属类别,在检索目标词组别中主题关键词的短语时,按照预先给定的类别检索短语,这样一来,可进一步缩小检索范围,提高主题短语的准确性。\n[0112] 以上为本发明实施例2的具体描述。\n[0113] 一般的,短语是有顺序的两个或多个的词语。与独立的词语相比较,短语具有更加准确的语意含义,例如:词语“笔记本”通常具有两种含义,一种是书写用的工具,另一种是个人电脑。当出现“笔记本”时,我们往往还不能对其表达的含义做出准确判断,但是若出现的是一个短语“IBM笔记本”,则可以认为其要表达的含义是笔记本电脑。实施例2在获得目标文本主题关键词的基础上,对主题关键词进行聚类,并进一步获得目标文本的主题短语,而这些主题短语具有更明确的语意,因此能够更加准确的预测文本的主题,提高了用户判断文本内容的效率和准确性。\n[0114] 以上结合具体的实施例描述了本发明所述的一种文本主题推荐方法,下面结合图\n3,对本发明所述的一种文本主题推荐装置进行描述,如图3所示,\n[0115] 所述装置包括:分词单元310,用于对目标文本分词,获得目标词语;权重计算单元320,用于计算目标词语的权重;主题关键词优选单元330,用于从目标词语中按照其权重优选出主题关键词。\n[0116] 优选的,所述装置还包括:过滤单元390,用于对分词单元获得的目标词语按预定规则进行过滤。\n[0117] 所述装置还包括:词典训练单元340,用于建立词典;存储单元380,用于存储词典;其中,词典词语训练单元还包括:语料收集单元341,用于收集多个不同的文本作为语料;词根词典训练单元342,用于在存储单元380中设置词根词典,该词典包括词根以及该词根对应的权重,所述权重为该词根在所述语料中的逆文本频率指数。\n[0118] 其中,所述权重计算单元320包括:\n[0119] 词频计算单元321,用于计算目标词语在所述目标文本中的词语频率;\n[0120] 词根权重获取单元322,用于从存储单元380中的词根词典中获取目标词语的词根权重;\n[0121] 目标词语权重计算单元323,用于根据词频计算单元321所计算的目标词语的词语频率和词根权重获取单元322所获取的词根权重计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。另外,目标词语权重计算单元323也可以根据目标词语在目标文本中的位置以及该目标词语所属词性计算该目标词语的权重。\n[0122] 所述主题关键词优选单元330还包括:排序单元331,用于对目标词语按权重进行排序;主题关键词选择单元332,用于比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。\n[0123] 所述装置还包括:\n[0124] 相关词组获取单元350,用于将主题关键词组成相关词组;\n[0125] 聚类单元360,用于对相关词组获取单元350所获取的相关词组中的主题关键词进行聚类以获得目标词组;\n[0126] 主题短语获取单元370,用于根据聚类单元所获得的目标词组和预置的短语词典获取主题短语。\n[0127] 所述词典训练单元340还包括:相关性词典训练单元343,用于根据语料收集单元所收集的语料在存储单元380中设置相关性词典,该相关性词典包括词组和该词组的相关性权重其中;\n[0128] 所述聚类单元360还包括:初始化单元361,用于根据存储单元380中的相关性词典设置所述相关词组的相关性权重;目标词组生成单元362,用于从所述相关词组中选择相关性权重最高的词组作为目标词组;扫描主题关键词,将满足预置条件的主题关键词作为一个新的元素加入目标词组,所述用于扫描的主题关键词不包括所述目标词组中的主题关键词;重复该步骤,直到获得所有的目标词组。\n[0129] 其中,所述预置条件为该主题关键词与所述目标词组中的每一个主题关键词组成的相关词组的相关性权重大于第二阀值。另外,所述预置条件还可以为 该主题关键词与所述目标词组中的任意一个主题关键词组成的相关词组的相关性权重大于第二阀值。\n[0130] 所述词典训练单元340还包括:短语词典训练单元343,用于在存储单元380中设置短语词典,该短语词典包括词语以及该词语对应的短语。其中,所述主题短语获取单元\n370包括:短语查找单元371,用于从存储单元380的短语词典中查找与目标词组中主题关键词对应的短语;主题短语生成单元372,用于对属于同一目标词组的主题关键词的短语,取其交集作为一个主题短语;重复该步骤,直到获得所有的主题短语。优选的,所述短语词典中的短语设置有短语权重;所述主题短语获取单元370包括还包括:主题短语排序单元\n373,用于对主题短语生成单元372所生成的主题短语按其对应的权重进行排序。\n[0131] 应用所述文本主题推荐装置,对于一个目标文本,\n[0132] 首先,分词单元310对该目标文本进行分词,获得目标词语;其次,过滤单元390按预定规则对分词单元310获得的目标词语进行过滤。\n[0133] 然后,词频计算单元321计算目标词语在所述目标文本中的词语频率;词根权重获取单元322从存储单元380的词根词典中获取目标词语的词根权重;目标词语权重计算单元323计算目标词语的权重,所述目标词语的权重为所述词语频率与所述词根权重的乘积。\n[0134] 得到目标词语的权重后,排序单元对目标词语按权重进行排序;主题关键词选择单元332比较目标词语的权重与第一阀值,若大于,则将该目标词语作为目标文本的主题关键词。\n[0135] 基于得到的主题关键词,相关词组获取单元350将每两个主题关键词组合成一个相关词组;然后,初始化单元361根据相关性词典设置这些相关词组的权重;最后,由目标词组生成单元372将这些相关词组生成目标词组。\n[0136] 选择一个目标词组,短语查找单元371根据目标词组中的主题关键词分别从短语词典中查找对应的短语;最后,主题短语生成单元372将同一目标词组的主题关键词所对应的短语取交集生成一个主题短语。依次选择其他目标词组,获得相应的主题短语。对所获得的主题短语,按权重排序后推出。\n[0137] 以上对本发明所述文本主题推荐装置的一个实施例进行了描述,未详尽之处请参见上述方法实施例所述内容。\n[0138] 在实施本发明时,能够将本发明所述的文本主题推荐方法和装置实施到多种应用环境中。\n[0139] 例如:有些用户每天都可能收到大量的邮件,利用本发明所述方法获得该邮件内容的主题关键词或主题短语显示给用户,这样该用户在不用查看邮件内容的情况下就能快速地对邮件信息的有效性做出判断,节省了大量的时间。若将这样的方法应用到垃圾邮件过滤中,通过验证邮件的主题关键词或主题短语是否包括预定的垃圾信息,不但提高了验证垃圾邮件的准确性,而且由于只是通过少量的主题关键词或主题短语进行验证,而不必用邮件全文进行匹配验证,因此使得验证的效率大大提高。\n[0140] 又例如:随着互联网的发展,网页资源以指数级数量增长,因此,如何从庞大数量的网页资源中准确的获取我们需要的信息就变得越来越重要。参见图4,图4示出了将本发明所述文本主题推荐方法应用到网页搜索中的一实施例的步骤流程图,下面对该实施例进行详细介绍。\n[0141] 步骤401:对从互联网中收集到的网页进行分词,获得目标词语。\n[0142] 利用离散数学中图的概念,我们可以将整个互联网看作是一个图,每一个网页看作是这个图中的一个节点,而网页中的超链接则可以看作是图中节点之间的弧。这样一来,收集网页的过程就可以看作是遍历图中的每一个节点的过程。\n[0143] 可以通过建立程序,自动从互联网中收集网页、对网页分词以获得目标词语。这样的程序也就是我们常说的“网络爬虫”。\n[0144] 步骤402:对获取到的目标词语按规则过滤。\n[0145] 步骤403:计算目标词语的权重。\n[0146] 步骤404:按权重对目标词语进行排序,优选出网页内容的主题关键词。\n[0147] 步骤405:以主题关键词为词根,建立词根和网页之间的映射关系。\n[0148] 建立词根和网页之间的映射关系,所述网页的主题关键词包含该词根。这样的映射关系可以看作是一张表,表结构内容示例如下,表中所述“地址”为网页地址:\n[0149] 词根a 地址1 地址2 ... 地址n\n[0150] 词根b 地址1 地址2 ... 地址n\n[0151] …\n[0152] 词根n 地址1 地址2 ... 地址n\n[0153] 在上述映射关系表中,一个词根对应一个或多个网页,也就是说存在多个网页的主题关键词中包含同一个主题关键词的可能。\n[0154] 步骤406:接收用户输入的搜索关键词,从所述映射关系中查找与该搜索关键词相匹配的词根及相应的网页。\n[0155] 当用户需要搜索网页时,通常会先输入搜索关键词。然后,根据该搜索关键词从上述映射表中查找与该搜索关键词匹配的词根和相应的网页地址。最后,将搜索结果显示给用户。\n[0156] 在该实施例中,将输入的搜索关键词作为网页的主题关键词查找对应的网页,由于主题关键词能够非常准确的预测网页内容的主题,因此查找出的网页与该搜索关键词的相关性大大提高。而且,由于避免了用网页的全部内容与搜索关键词进行匹配,因此,有效的提高了搜索效率,节约了搜索所需花费的时间。\n[0157] 当然上述实施例中,为了进一步提高搜索关键词与网页主题的相关性,可在得到网页主题关键词的基础上进一步获得网页内容的主题短语,然后建立词根与包含该词根的主题短语以及该主题短语对应网页的映射关系表,如下所示:\n[0158] 词根a主题短语1地址1主题短语2地址2...主题短语n地址n\n[0159] 当用户输入搜索关键词后,首先查找与该搜索关键词匹配的词根,然后再进一步得到包含该词根的主题短语和对应的网页。由于主题短语相比主题关键词更能准确预测网页内容的主题,因此得到的搜索结果的准确性也大为提高。\n[0160] 上述实施例中未详尽之处,请参见上文有关实施例1或实施例2的内容,这里不再赘述。以上对本发明所提供的一种文本主题推荐方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |