著录项信息
专利名称 | 原创内容的搜索方法和搜索服务器 |
申请号 | CN201310153664.7 | 申请日期 | 2013-04-27 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-08-07 | 公开/公告号 | CN103235821A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦三层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 熊咏志;张刚;刘悦 |
代理机构 | 北京清亦华知识产权代理事务所(普通合伙) | 代理人 | 宋合成;张大威 |
摘要
本发明提出一种原创内容的搜索方法和搜索服务器,其中方法包括:搜索服务器接收客户端发送的搜索词;搜索服务器根据搜索词获得N个搜索结果,N为大于1的正整数;搜索服务器对N个搜索结果进行分析以确定N个搜索结果中的M个原创内容发布源,其中,M为正整数且小于N;以及搜索服务器对M个原创内容发布源进行特殊标记之后并提供至客户端。根据本发明实施例的方法,通过对搜索结果进行分析获取搜索结果中的原创内容发布源,并对原创内容发布源进行特殊标记后提供至客户端,能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。
1.一种原创内容的搜索方法,其特征在于,包括以下步骤:
搜索服务器接收客户端发送的搜索词;
所述搜索服务器根据所述搜索词获得N个搜索结果,所述N为大于1的正整数;
所述搜索服务器对所述N个搜索结果进行分析以确定所述N个搜索结果中的M个原创内容发布源,其中,所述M为正整数且小于N,其中,所述搜索服务器对所述N个搜索结果进行文本相似度分析,并获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜索数量Q是否大于预设数量,如果判断大于所述预设数量,则所述搜索服务器从所述Q个搜索结果中抽取所述M个原创内容发布源中的一个;以及
所述搜索服务器对所述M个原创内容发布源进行特殊标记之后并提供至所述客户端。
2.如权利要求1所述的原创内容的搜索方法,其特征在于,还包括:
根据权威网站获取的原创数据对所述M个原创内容发布源进行修正。
3.如权利要求1或2所述的原创内容的搜索方法,其特征在于,所述搜索服务器对所述M个原创内容发布源进行特殊标记进一步包括:
所述搜索服务器在所述M个原创内容发布源对应的搜索结果中进行原创标记。
4.如权利要求3所述的原创内容的搜索方法,其特征在于,还包括:
所述搜索服务器在所述M个原创内容发布源对应的搜索结果中标记作者和发表时间。
5.如权利要求1或2所述的原创内容的搜索方法,其特征在于,所述M个原创内容发布源具有高的排序优先级。
6.如权利要求1或2所述的原创内容的搜索方法,其特征在于,还包括:
所述搜索服务器分别从所述M个原创内容发布源中获取作者名称;以及
所述搜索服务器根据所述作者名称进行检索以获取与所述作者名称相关的内容并提供至所述客户端。
7.一种搜索服务器,其特征在于,包括:
接收模块,用于接收客户端发送的搜索词;
搜索模块,用于根据所述搜索词获得N个搜索结果,所述N为大于1的正整数;
分析模块,用于对所述N个搜索结果进行分析以确定所述N个搜索结果中的M个原创内容发布源,其中,所述M为正整数且小于N,其中,所述分析模块进一步包括:文本相似度分析子模块,用于对所述N个搜索结果进行文本相似度分析;判断子模块,用于获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜索数量Q是否大于预设数量;抽取子模块,用于当所述判断子模块判断所述搜索数量Q大于所述预设数量时,从所述Q个搜索结果中抽取所述M个原创内容发布源,其中,Q为预设数量;以及
搜索结果提供模块,用于对所述M个原创内容发布源进行特殊标记之后并提供至所述客户端。
8.如权利要求7所述的搜索服务器,其特征在于,还包括:
修正子模块,用于根据权威网站获取的原创数据对所述M个原创内容发布源进行修正。
9.如权利要求7所述的搜索服务器,其特征在于,所述搜索结果提供模块在所述M个原创内容发布源对应的搜索结果中进行原创标记。
10.如权利要求9所述的搜索服务器,其特征在于,所述搜索结果提供模块在所述M个原创内容发布源对应的搜索结果中标记作者和发表时间。
11.如权利要求7所述的搜索服务器,其特征在于,所述M个原创内容发布源具有高的排序优先级。
12.如权利要求7所述的搜索服务器,其特征在于,还包括:
扩展内容提供模块,用于分别从所述M个原创内容发布源中获取作者名称,并根据所述作者名称进行检索以获取与所述作者名称相关的内容并提供至所述客户端。
原创内容的搜索方法和搜索服务器\n技术领域\n[0001] 本发明涉及搜索技术领域,特别涉及一种原创内容的搜索方法和搜索服务器。\n背景技术\n[0002] 随着互联网的发展,用户可以通过多种途径上传或者获取互联网上的各种资源,使得互联网上的资源越来越多,更新越来越快,资源的质量也参差不齐,目前,资源搜索方法大多只展现搜索结果的链接,而不能对优秀资源(如原创内容等)和低质量资源进行标识以进行区别显示,使得用户无法对资源进行分辨,这一方面会导致由于一些低质量的资源而大大降低用户的阅读体验,另一方面会由于无法对原创和非原创资源进行标识区分,使得对原创的优秀资源难以进行有效的保护,损害原创用户的利益,不利于互联网知识产权保护的发展。\n发明内容\n[0003] 本发明的旨在至少解决上述技术缺陷之一。\n[0004] 为此,本发明第一个目的在于提出一种原创内容的搜索方法,该方法能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。\n[0005] 本发明第二个目的在于提出一种搜索服务器。\n[0006] 为实现上述目的,根据本发明第一方面的实施例的原创内容的搜索方法包括以下步骤:搜索服务器接收客户端发送的搜索词;所述搜索服务器根据所述搜索词获得N个搜索结果,所述N为大于1的正整数;所述搜索服务器对所述N个搜索结果进行分析以确定所述N个搜索结果中的M个原创内容发布源,其中,所述M为正整数且小于N;以及所述搜索服务器对所述M个原创内容发布源进行特殊标记之后并提供至所述客户端。\n[0007] 根据本发明实施例的原创内容的搜索方法,通过对搜索结果进行分析获取搜索结果中的原创内容发布源,并对原创内容发布源进行特殊标记后提供至客户端,能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。\n[0008] 为实现上述目的,根据本发明第二方面的搜索服务器包括:接收模块,用于接收客户端发送的搜索词;搜索模块,用于根据所述搜索词获得N个搜索结果,所述N为大于1的正整数;分析模块,用于对所述N个搜索结果进行分析以确定所述N个搜索结果中的M个原创内容发布源,其中,所述M为正整数且小于N;以及搜索结果提供模块,用于对所述M个原创内容发布源进行特殊标记之后并提供至所述客户端。\n[0009] 根据本发明实施例的搜索服务器,通过分析模块对搜索结果进行分析获取搜索结果中的原创内容发布源,进而对原创内容发布源进行特殊标记后提供至客户端,能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。\n[0010] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。\n附图说明\n[0011] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:\n[0012] 图1为根据本发明一个实施例的原创内容的搜索方法的流程图;\n[0013] 图2为根据本发明又一个实施例的原创内容的搜索方法的流程图;\n[0014] 图3为根据本发明另一个实施例的原创内容的搜索方法的流程图;\n[0015] 图4为根据本发明一个实施例的搜索服务器的结构框图;\n[0016] 图5为根据本发明又一个实施例的搜索服务器的结构框图;\n[0017] 图6为根据本发明另一个实施例的搜索服务器的结构框图;\n[0018] 图7为根据本发明一个实施例的原创内容特殊标记效果图;\n[0019] 图8为根据本发明一个实施例的原创机构显示结果示意图;\n[0020] 图9为根据本发明一个实施例的原创作者相关信息的显示结果示意图。\n具体实施方式\n[0021] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。\n[0022] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。\n[0023] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。\n[0024] 下面参考附图描述根据本发明实施例的原创内容的搜索方法。\n[0025] 一种原创内容的搜索方法,包括以下步骤:搜索服务器接收客户端发送的搜索词;\n搜索服务器根据搜索词获得N个搜索结果,N为大于1的正整数;搜索服务器对N个搜索结果进行分析以确定N个搜索结果中的M个原创内容发布源,其中,M为正整数且小于N;以及搜索服务器对M个原创内容发布源进行特殊标记之后并提供至客户端。\n[0026] 图1为根据本发明一个实施例的原创内容的搜索方法的流程图。\n[0027] 如图1所示,根据本发明实施例原创内容的搜索方法包括以下步骤。\n[0028] S101,搜索服务器接收客户端发送的搜索词。\n[0029] S102,搜索服务器根据搜索词获得N个搜索结果,N为大于1的正整数。\n[0030] S103,搜索服务器对N个搜索结果进行分析以确定N个搜索结果中的M个原创内容发布源,其中,M为正整数且小于N。\n[0031] 具体地,搜索服务器可按照搜索结果的主题内容进一步对这N个搜索结果进行分组,进而可在M组具有不同主题内容的搜索结果中的每组分别确定一个具有原创内容的搜索结果,可将发布时间最早的一个搜索结果作为具有原创内容的搜索结果,并据此确定原创内容发布源,其中,原创内容发布源可以是具有原创内容的搜索结果的URL(Uniform Resourcel Locator,统一资源定位符)。\n[0032] S104,搜索服务器对M个原创内容发布源进行特殊标记之后并提供至客户端。\n[0033] 其中,特殊标记可以是搜索服务器根据原创内容发布源的来源、作者等为原创内容发布源设定的文字标识,在本发明的一个实施例中,搜索服务器还可在M个原创内容发布源对应的搜索结果中进行原创标记,以及在M个原创内容发布源对应的搜索结果中标记作者和发表时间,并且,这M个原创内容发布源具有高的排序优先级,在提供至客户端时,可在搜索结果页面中前排显示。例如,如图7所示,对于用户输入的搜索词“××××”,搜索服务器将原创内容作为第一搜索结果优先显示,并在输入框中和搜索结果中的搜索词“××××”之前自动添加特殊标记“[舒立观察]”,以及为第一个搜索结果中添加原创标记“财新网的原创文章”,并标记出作者和发表时间。\n[0034] 根据本发明实施例的原创内容的搜索方法,通过对搜索结果进行分析获取搜索结果中的原创内容发布源,并对原创内容发布源进行特殊标记后提供至客户端,能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。\n[0035] 在本发明的一个实施例中,搜索服务器还将发布原创内容的机构的信息以及发布的原创内容提供给客户端进行显示,图8为搜索服务器提供给客户端显示的关于南京日报搜索结果的展示图,由此,能够将原创机构明确展现给用户,并使得用户能够直接浏览原创机构发布的原创内容,既有效保护了原创机构的知识产权,又方便了用户获取原创资源,将原创价值最大化。\n[0036] 图2为根据本发明又一个实施例的原创内容的搜索方法的流程图。\n[0037] 如图2所示,根据本发明实施例的原创内容的搜索方法包括以下步骤。\n[0038] S201,搜索服务器接收客户端发送的搜索词。\n[0039] S202,搜索服务器根据搜索词获得N个搜索结果,N为大于1的正整数。\n[0040] S203,搜索服务器对N个搜索结果进行文本相似度分析。\n[0041] 具体地,可通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N个搜索结果进行分组。\n[0042] S204,获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜索数量Q是否大于预设数量。\n[0043] 具体地,对于主题内容一致的搜索结果组,也就是相似度满足预设阈值的搜索结果组,可获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q是否大于预设数量。\n[0044] S205,如果判断大于预设数量,则搜索服务器从Q个搜索结果中抽取M个原创内容发布源中的一个,其中,M为正整数且小于N。\n[0045] 其中,原创内容发布源可以是具有原创内容的搜索结果的URL,具体地,如果有M组的搜索结果的数量Q大于预设数量,则可在这M组中每组分别抽取一个远程内容发布源。\n[0046] 例如,可设定预设数量为10,对于搜索到的40个搜索结果,如果文本相似度满足预设阈值的搜索结果有A、B、C三组,搜索结果数量分别8、12、14,则可在B组合C组中分别抽取一个原创内容发布源。\n[0047] S206,根据权威网站获取的原创数据对M个原创内容发布源进行修正。\n[0048] 在本发明的一个实施例中,可通过权威网站引入高质量的原创数据,辅以机器识别交叉验证,检验引入数据的原创度,经过多伦筛选修正,最终抽取出100%的原创内容,并获取相应的原创内容发布源,保证了原创内容发布源的准确性。\n[0049] S207,搜索服务器对M个原创内容发布源进行特殊标记之后并提供至客户端。\n[0050] 其中,特殊标记可以是搜索服务器根据原创内容发布源的来源、作者等为原创内容发布源设定的文字标识,在本发明的一个实施例中,搜索服务器还可在M个原创内容发布源对应的搜索结果中进行原创标记,以及在M个原创内容发布源对应的搜索结果中标记作者和发表时间,并且,这M个原创内容发布源具有高的排序优先级,在提供至客户端时,可在搜索结果页面中前排显示。例如,如图7所示,对于用户输入的搜索词“××××”,搜索服务器将原创内容作为第一搜索结果优先显示,并在输入框中和搜索结果中的搜索词“××××”之前自动添加特殊标记“[舒立观察]”,以及为第一个搜索结果中添加原创标记“财新网的原创文章”,并标记出作者和发表时间。\n[0051] 应当理解,在本发明的一个实施例中,步骤S206是可选的。\n[0052] 根据本发明实施例的原创内容的搜索方法,通过对搜索结果进行相似度分析,以获取一定数量的内容相似的搜索结果,进而从中抽取原创内容发布源,能够更准确的获取原创内容发布源,保证原创内容判断的准确性,进而为用户提供更优质的原创内容。\n[0053] 图3为根据本发明另一个实施例的原创内容的搜索方法的流程图。\n[0054] 如图3所示,根据本发明实施例的原创内容的搜索方法包括以下步骤。\n[0055] S301,搜索服务器接收客户端发送的搜索词。\n[0056] S302,搜索服务器根据搜索词获得N个搜索结果,N为大于1的正整数。\n[0057] S303,搜索服务器对N个搜索结果进行文本相似度分析。\n[0058] 具体地,可通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N个搜索结果进行分组。\n[0059] S304,获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜索数量Q是否大于预设数量。\n[0060] 具体地,对于主题内容一致的搜索结果组,也就是相似度满足预设阈值的搜索结果组,获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q是否大于预设数量。\n[0061] S305,如果判断大于预设数量,则搜索服务器从Q个搜索结果中抽取M个原创内容发布源中的一个,其中,M为正整数且小于N。\n[0062] 其中,原创内容发布源可以是具有原创内容的搜索结果的URL,具体地,如果有M组的搜索结果的数量Q大于预设数量,则可在这M组中每组分别抽取一个远程内容发布源。\n[0063] 例如,可设定预设数量为10,对于搜索到的40个搜索结果,文本相似度满足预设阈值的搜索结果有A、B、C三组,搜索结果数量分别8、12、14,则可在B组合C组中分别抽取一个原创内容发布源。\n[0064] S306,根据权威网站获取的原创数据对M个原创内容发布源进行修正。\n[0065] 在本发明的一个实施例中,可通过权威网站引入高质量的原创数据,辅以机器识别交叉验证,检验引入数据的原创度,经过多伦筛选修正,最终抽取出100%的原创内容,并获取相应的原创内容发布源,保证了原创内容发布源的准确性。\n[0066] S307,搜索服务器对M个原创内容发布源进行特殊标记之后并提供至客户端。\n[0067] 其中,特殊标记可以是搜索服务器根据原创内容发布源的来源、作者等为原创内容发布源设定的文字标识,在本发明的一个实施例中,搜索服务器还可在M个原创内容发布源对应的搜索结果中进行原创标记,以及在M个原创内容发布源对应的搜索结果中标记作者和发表时间,并且,这M个原创内容发布源具有高的排序优先级,在提供至客户端时,可在搜索结果页面中前排显示。例如,如图7所示,对于用户输入的搜索词“××××”,搜索服务器将原创内容作为第一搜索结果优先显示,并在输入框中和搜索结果中的搜索词“××××”之前自动添加特殊标记“[舒立观察]”,以及为第一个搜索结果中添加原创标记“财新网的原创文章”,并标记出作者和发表时间。\n[0068] S308,搜索服务器分别从M个原创内容发布源中获取作者名称。\n[0069] 具体地,搜索服务器可根据每个原创内容发布源中标记的作者分别从M个原创内容发布源中获取每个原创内容发布源的作者名称,以便获取更多原创内容发布源的作者的相关内容。\n[0070] S309,搜索服务器根据作者名称进行检索以获取与作者名称相关的内容并提供至客户端。\n[0071] 举例来说,搜索服务器可根据作者名称进一步检索原创内容发布源的作者的简介、图片、原创文章、社交网络信息、相关新闻等内容,并提供至客户端,以提升原创作者的认知度,进而将更多原创内容推荐给用户,例如,当搜索服务器在关于“××××”的原创内容中获取其作者为“胡舒立”时,如图9所示,可进一步获取“胡舒立”的相关信息:百科名牌、图像、简介、相关原创文章等。\n[0072] 应当理解,在本发明的一个实施例中,步骤S306是可选的。\n[0073] 根据本发明实施例的原创内容的搜索方法,能够进一步展现原创作者的相关信息和其他原创文章,可将原创作者的高质量原创文章推荐给用户,更有利于原创价值的体现。\n[0074] 为了实现上述实例,本发明还提出一种搜索服务器。\n[0075] 一种搜索服务器,包括:接收模块,用于接收客户端发送的搜索词;搜索模块,用于根据搜索词获得N个搜索结果,N为大于1的正整数;分析模块,用于对N个搜索结果进行分析以确定N个搜索结果中的M个原创内容发布源,其中,M为正整数且小于N;以及搜索结果提供模块,用于对M个原创内容发布源进行特殊标记之后并提供至客户端。\n[0076] 图4为根据本发明一个实施例的搜索服务器的结构框图。\n[0077] 如图4所示,根据本发明实施例的搜索服务器包括:接收模块100、搜索模块200、分析模块300和搜索结果提供模块400。\n[0078] 具体地,接收模块100用于接收客户端发送的搜索词。\n[0079] 搜索模块200用于根据搜索词获得N个搜索结果,N为大于1的正整数。\n[0080] 分析模块300用于对N个搜索结果进行分析以确定N个搜索结果中的M个原创内容发布源,其中,M为正整数且小于N。更具体地,分析模块300可按照搜索结果的主题内容进一步对这N个搜索结果进行分组分析,进而可在M组具有不同主题内容的搜索结果中的每组分别确定一个具有原创内容的搜索结果,可将发布时间最早的一个搜索结果作为具有原创内容的搜索结果,并据此确定原创内容发布源,其中,原创内容发布源可以是具有原创内容的搜索结果的URL。\n[0081] 搜索结果提供模块400用于对M个原创内容发布源进行特殊标记之后并提供至客户端。其中,特殊标记可以是搜索服务器根据原创内容发布源的来源、作者等为原创内容发布源设定的文字标识,在本发明的一个实施例中,搜索服务器还可在M个原创内容发布源对应的搜索结果中进行原创标记,以及在M个原创内容发布源对应的搜索结果中标记作者和发表时间,并且,这M个原创内容发布源具有高的排序优先级,在提供至客户端时,可在搜索结果页面中前排显示。例如,如图7所示,对于用户输入的搜索词“××××”,搜索服务器将原创内容作为第一搜索结果优先显示,并在输入框中和搜索结果中的搜索词“××××”之前自动添加特殊标记“[舒立观察]”,以及为第一个搜索结果中添加原创标记“财新网的原创文章”,并标记出作者和发表时间。\n[0082] 根据本发明实施例的搜索服务器,通过分析模块对搜索结果进行分析获取搜索结果中的原创内容发布源,进而对原创内容发布源进行特殊标记后提供至客户端,能够为用户提供高质量的原创内容,并充分体现了原创内容的价值,同时有效的保护了原创内容作者的权益,有利于互联网知识产权保护的发展。\n[0083] 在本发明的一个实施例中,搜索服务器还将发布原创内容的机构的信息以及发布的原创内容提供给客户端进行显示,图8为搜索服务器提供给客户端显示的关于南京日报搜索结果的展示图,由此,能够将原创机构明确展现给用户,并使得用户能够直接浏览原创机构发布的原创内容,既有效保护了原创机构的知识产权,又方便了用户获取原创资源,将原创价值最大化。\n[0084] 图5为根据本发明又一个实施例的搜索服务器的结构框图。\n[0085] 如图5所示,根据本发明实施例的搜索服务器包括:接收模块100、搜索模块200、分析模块300、搜索结果提供模块400、文本相似度分析子模块310、判断子模块320、抽取子模块330和修正子模块340,其中,分析模块300具体包括文本相似度分析子模块310、判断子模块320、抽取子模块330和修正子模块340。\n[0086] 具体地,文本相似度分析子模块310用于对N个搜索结果进行文本相似度分析。更具体地,文本相似度分析子模块310可通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N个搜索结果进行分组。\n[0087] 判断子模块320用于获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜索数量Q是否大于预设数量。更具体地,对于主题内容一致的搜索结果组,也就是相似度满足预设阈值的搜索结果组,判断子模块320可获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q是否大于预设数量。\n[0088] 抽取子模块330用于当判断子模块320判断搜索数量Q大于预设数量时,从Q个搜索结果中抽取M个原创内容发布源,其中,Q为预设数量。更具体地,如果有M组的搜索结果的数量Q大于预设数量,则抽取子模块330可在这M组中每组分别抽取一个远程内容发布源。例如,可设定预设数量为10,对于搜索到的40个搜索结果,文本相似度满足预设阈值的搜索结果有A、B、C三组,搜索结果数量分别8、12、14,则抽取子模块330可在B组合C组中分别抽取一个原创内容发布源。\n[0089] 修正子模块340用于根据权威网站获取的原创数据对M个原创内容发布源进行修正。在本发明的一个实施例中,可通过权威网站引入高质量的原创数据,辅以机器识别交叉验证,检验引入数据的原创度,经过多伦筛选修正,最终抽取出100%的原创内容,并获取相应的原创内容发布源,保证了原创内容发布源的准确性。\n[0090] 应当理解,在本发明的一个实施例中,修正子模块340是可选的。\n[0091] 根据本发明实施例的搜索服务器,通过对搜索结果进行相似度分析,以获取一定数量的内容相似的搜索结果,进而从中抽取原创内容发布源,能够更准确的获取原创内容发布源,保证原创内容判断的准确性,进而为用户提供更优质的原创内容。\n[0092] 图6为根据本发明另一个实施例的搜索服务器的结构框图。\n[0093] 如图6所示,根据本发明实施例的搜索服务器在图5所示的基础上还包括:扩展内容提供模块500。\n[0094] 具体地,扩展内容提供模块500分别从M个原创内容发布源中获取作者名称,并根据作者名称进行检索以获取与作者名称相关的内容并提供至客户端。更具体地,扩展内容提供模块500可根据每个原创内容发布源中标记的作者分别从M个原创内容发布源中获取每个原创内容发布源的作者名称,以便获取更多原创内容发布源的作者的相关内容。举例来说,扩展内容提供模块500可根据作者名称进一步检索原创内容发布源的作者的简介、图片、原创文章、社交网络信息、相关新闻等内容,并提供至客户端,以提升原创作者的认知度,进而将更多原创内容推荐给用户,例如,当搜索服务器在关于“××××”的原创内容中获取其作者为“胡舒立”时,如图9所示,可进一步获取“胡舒立”的相关信息:百科名牌、图像、简介、相关原创文章等。\n[0095] 根据本发明实施例的搜索服务器,能够进一步展现原创作者的相关信息和其他原创文章,可将原创作者的高质量原创文章推荐给用户,更有利于原创价值的体现。\n[0096] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对所述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。\n[0097] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。
法律信息
- 2015-06-24
- 2013-09-04
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310153664.7
申请日: 2013.04.27
- 2013-08-07
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2013-04-03
|
2011-09-27
| | |
2
| |
2011-02-02
|
2009-07-24
| | |
3
| | 暂无 |
2009-12-21
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |