著录项信息
专利名称 | 信息推荐方法及装置 |
申请号 | CN201410803236.9 | 申请日期 | 2014-12-19 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-04-22 | 公开/公告号 | CN104537027A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/9537 | IPC分类号 | G;0;6;F;1;6;/;9;5;3;7;;;G;0;6;Q;5;0;/;1;4查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦三层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 王玉瑶;张琦;徐明泉;秦敏;黄绍建;王岳;王森;张伟 |
代理机构 | 北京品源专利代理有限公司 | 代理人 | 路凯;胡彬 |
摘要
本发明公开了一种信息推荐方法及装置,其中方法包括:获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表;将所述POI列表发送给所述终端,扩展了信息推荐的应用范围。
1.一种信息推荐方法,其特征在于,包括:
获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;
从网页中提取满足挖掘条件的文本文件,其中,所述挖掘条件为所述文本文件中的出发地和目的地之间的距离小于预设值;
采用命名实体识别和多模匹配技术,将所述文本文件中的实体名称与POI词表进行匹配,得到第一POI名称列表;
对所述第一POI名称列表进行去噪处理,得到第二POI名称列表;
根据所述第二POI名称列表得到景点候选集;
根据所述位置信息和行为信息从所述景点候选集中确定预设范围内的兴趣点POI列表,其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围;
将所述POI列表发送给所述终端。
2.根据权利要求1所述的方法,其特征在于,对所述第一POI名称列表进行去噪处理,包括:
当所述第一POI名称列表中包含目的地信息时,滤除所述第一POI名称列表中不属于所述目的地信息给出的目的地的景点;
当所述第一POI名称列表中不包含目的地信息时,通过投票方式滤除不属于目的地的景点;
或者,包括:
利用所述第一POI名称列表中相邻两个POI之间的距离,验证相邻两个POI出现在同一个行程的可行性和合理性;
剔除述第一POI名称列表中可行性和合理性低于门限值的景点。
3.根据权利要求1所述的方法,其特征在于,根据所述第二POI名称列表得到所述景点候选集,包括:
对所述网页中的图片进行识别;
利用所述识别结果对所述第二POI名称列表进行验证和过滤处理,得到所述景点候选集。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述位置信息和行为信息从景点候选集中确定预设范围内的兴趣点POI列表,包括:
获取所述景点候选集中的景点的特征信息;
根据获取的特征信息采用点击率CTR预估模型对所述景点候选集中的景点进行排序,得到候选POI列表;
根据所述位置信息和行为信息,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。
5.根据权利要求4所述的方法,其特征在于,获取所述景点候选集中的景点的特征信息,包括:
获取所述景点候选集中的景点的热度信息、访问时间和热度变化趋势中的至少一个特征。
6.根据权利要求5所述的方法,其特征在于,获取所述景点候选集中的景点的热度信息,包括:
对历史定位数据进行地理位置维度上的聚类,得到聚类结果;
根据POI词表中的经纬度对所述聚类结果进行实体识别;
根据所述实体识别结果得到所述景点候选集中的景点的热度信息。
7.根据权利要求6所述的方法,其特征在于,根据所述实体识别结果得到所述景点候选集中的景点的热度信息,包括:
根据历史搜索信息,获取进行搜索的终端的位置和搜索的关键词;
根据所述进行搜索的终端的位置和搜索的关键词,获得各景点的搜索量;
用所述各景点的搜索量对所述实体识别结果进行补充,得到所述景点候选集中的景点的热度信息。
8.根据权利要求5所述的方法,其特征在于,获取所述景点候选集中的景点的访问时间,包括:
对历史定位数据和历史搜索数据进行时间维度上的聚类,得到各月份的景点热度信息;
根据所述各月份的景点热度信息确定所述景点候选集中的景点的建议访问月份。
9.根据权利要求5所述的方法,其特征在于,获取所述景点候选集中的景点的热度变化趋势,包括:
采用隐马尔卡夫模型预测得到所述景点候选集中的景点的热度变化趋势。
10.一种信息推荐装置,其特征在于,包括:
获取模块,用于获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;
景点候选集确定模块具体用于:从网页中提取满足挖掘条件的文本文件,其中,所述挖掘条件为所述文本文件中的出发地和目的地之间的距离小于预设值;采用命名实体识别和多模匹配技术,将所述文本文件中的实体名称与POI词表进行匹配,得到第一POI名称列表;
对所述第一POI名称列表进行去噪处理,得到第二POI名称列表;根据所述第二POI名称列表得到所述景点候选集;
POI列表确定模块,用于根据所述位置信息和行为信息从景点候选集中确定预设范围内的兴趣点POI列表,其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围;
发送模块,用于将所述POI列表发送给所述终端。
11.根据权利要求10所述的装置,其特征在于,所述景点候选集确定模块具体用于:
当所述第一POI名称列表中包含目的地信息时,滤除所述第一POI名称列表中不属于所述目的地信息给出的目的地的景点;
当所述第一POI名称列表中不包含目的地信息时,通过投票方式滤除不属于目的地的景点;
或者,具体用于:
利用所述第一POI名称列表中相邻两个POI之间的距离,验证相邻两个POI出现在同一个行程的可行性和合理性;
剔除述第一POI名称列表中可行性和合理性低于门限值的景点。
12.根据权利要求10所述的装置,其特征在于,所述景点候选集确定模块具体用于:
对所述网页中的图片进行识别;
利用所述识别结果对所述第二POI名称列表进行验证和过滤处理,得到所述景点候选集。
13.根据权利要求10-12任一项所述的装置,其特征在于,所述POI列表确定模块包括:
获取子模块,用于获取所述景点候选集中的景点的特征信息;
排序子模块,用于根据所述获取子模块获取的特征信息采用点击率CTR预估模型对所述景点候选集中的景点进行排序,得到候选POI列表;
POI列表确定子模块,用于根据所述位置信息和行为信息,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。
14.根据权利要求13所述的装置,其特征在于,所述获取子模块具体用于:
获取所述景点候选集中的景点的热度信息、访问时间和热度变化趋势中的至少一个特征。
15.根据权利要求14所述的装置,其特征在于,所述获取子模块具体用于:
对历史定位数据进行地理位置维度上的聚类,得到聚类结果;
根据POI词表中的经纬度对所述聚类结果进行实体识别;
根据所述实体识别结果得到所述景点候选集中的景点的热度信息。
16.根据权利要求15所述的装置,其特征在于,所述获取子模块具体用于:
根据历史搜索信息,获取进行搜索的终端的位置和搜索的关键词;
根据所述进行搜索的终端的位置和搜索的关键词,获得各景点的搜索量;
用所述各景点的搜索量对所述实体识别结果进行补充,得到所述景点候选集中的景点的热度信息。
17.根据权利要求14所述的装置,其特征在于,所述获取子模块具体用于:
对历史定位数据和历史搜索数据进行时间维度上的聚类,得到各月份的景点热度信息;
根据所述各月份的景点热度信息确定所述景点候选集中的景点的建议访问月份。
18.根据权利要求14所述的装置,其特征在于,所述获取子模块具体用于:
采用隐马尔卡夫模型预测得到所述景点候选集中的景点的热度变化趋势。
信息推荐方法及装置\n技术领域\n[0001] 本发明实施例涉及网络通信技术领域,尤其涉及一种信息推荐方法及装置。\n背景技术\n[0002] 互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问题。\n[0003] 解决信息超载问题一个非常有潜力的办法是信息推荐。信息推荐是根据用户的信息需求、兴趣等,将用户感兴趣的信息和产品等推荐给用户。\n[0004] 但是,目前对于旅游的信息推荐仅限于在用户旅行前为用户推荐信息,如用户提供旅游路线等打包旅游服务,或者有旅游类网站或者应用程序(Application,简称APP)为用户提供相关的行程规划等产品。\n[0005] 然而,在旅游过程中,即使旅行前做过很好的规划,也有很大一部分行程会因为用户实际所处的位置、时间、天气状况、景点本身的一些情况和用户行为而需要进行调整,现有的信息推荐尚无法为此推荐有用的信息,且实时性较差。\n发明内容\n[0006] 本发明实施例提供一种信息推荐方法及装置,以扩展信息推荐的应用范围。\n[0007] 第一方面,本发明实施例提供了一种信息推荐方法,包括:\n[0008] 获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;\n[0009] 根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表,其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围;\n[0010] 将所述POI列表发送给所述终端。\n[0011] 第二方面,本发明实施例还提供了一种信息推荐装置,包括:\n[0012] 获取模块,用于获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;\n[0013] POI列表确定模块,用于根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表,其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围;\n[0014] 发送模块,用于将所述POI列表发送给所述终端。\n[0015] 本发明实施例提供的信息推荐方法及装置,通过获取终端所处的位置信息及包括所述终端的网页访问信息和搜索信息中的至少一种信息的行为信息,根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表;将所述POI列表发送给所述终端,能够根据终端所在的位置自动及时的为用户推荐最近更新的景点,扩展了信息推荐的应用范围,满足了周边游目标用户群的需求。\n附图说明\n[0016] 图1a为本发明实施例一提供的信息推荐方法的流程示意图;\n[0017] 图1b为本发明实施例提供的信息推荐方法中获取景点候选列表的流程示意图;\n[0018] 图2a为本发明实施例二提供的信息推荐方法的流程示意图;\n[0019] 图2b为本发明实施例提供的信息推荐方法中确定景点候选集的示意图;\n[0020] 图2c为本发明实施例二提供的信息推荐方法中涉及的图片识别示意图;\n[0021] 图3为本发明实施例三提供的信息推荐方法的流程示意图;\n[0022] 图4为本发明实施例四提供的信息推荐装置的结构示意图。\n具体实施方式\n[0023] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。\n[0024] 本发明实施例提供的信息推荐方法的执行主体可为信息推荐装置,该信息推荐装置可以是具有通信功能和信息处理功能的电子设备如服务器等,也可以是该电子设备的一个功能模块。该信息推荐装置可以采用硬件或者软件来实现。\n[0025] 实施例一\n[0026] 参见图1a,本实施例提供的信息推荐方法具体包括:操作11-操作13。\n[0027] 操作11中,获取终端所处的位置信息及所述终端的行为信息。\n[0028] 其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息。例如,网页访问信息可以为终端正在访问的网页(例如旅游网、搜房网等),从网页中提取关键字信息。搜索信息可以为用户输入的关键字,例如旅游、租房、酒店、餐馆等等。\n所述终端的行为信息可以是历史行为信息,例如,终端的历史网页访问信息和搜索内容,或者可以通过历史定位数据,获取终端的用户曾经访问的景点信息等等。\n[0029] 例如,可以通过定位装置如全球定位系统(Global Positioning System,简称GPS)获取终端所处的位置信息,通过无线网络如WIFI(Wireless Fidelity,即无线保真)或者有线网络如宽带网络获取终端的行为信息。\n[0030] 操作12中,根据所述位置信息和行为信息确定预设范围内的兴趣点(Point of Interest,简称POI)列表。\n[0031] 其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围。其中,预设值可以由用户设置,例如可以设置为200公里、或者50公里、或者500米。POI列表为根据所述位置信息和行为信息确定的用户感兴趣的点,例如可以为景点列表、餐馆列表、酒店列表、交通方式列表和往返路线列表等等。\n[0032] 假设获取的终端的位置信息为北京,如果获取的终端的行为信息为正在访问旅游网,则可以确定用户正在北京旅游,从而可以根据关键字北京和旅游搜索北京范围内或者周边的旅游景点,形成景点列表;如果获取的终端的行为信息为正在访问租房网,则可以根据关键字北京和租房搜索北京地区范围内或者周边的房源,形成房源列表;如果获取的终端的行为信息为正在搜索酒店信息,则根据关键字北京和酒店搜索北京地区范围内或者周边的酒店,形成酒店列表;如果获取的终端的行为信息为正在搜索餐馆信息,则根据关键字北京和餐馆搜索北京地区范围内或者周边的餐馆,形成餐馆列表,等等。\n[0033] 操作13中,将所述POI列表发送给所述终端。\n[0034] 本实施例提供的信息推荐方法,通过获取终端所处的位置信息及包括所述终端的网页访问信息和搜索信息中的至少一种信息的行为信息,根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表;将所述POI列表发送给所述终端,能够根据终端所在的位置自动及时的为用户推荐最近更新的景点,有效地扩展了信息推荐的应用范围,满足了周边游目标用户群的需求,提高了信息推荐的多样性和灵活性。\n[0035] 例如,当上述行为信息为历史行为信息时,本发明实施例提供的信息推荐方法可以根据对所述终端的用户历史定位、搜索和浏览数据分析用户的历史行为和近期行为,历史行为可用于抽取出用户的偏好,近期行为则可以作为实际推荐过程中的指导准则。如分析历史数据发现某一终端的用户对滑雪运动类的信息有偏好,那么今年进入深冬后或下雪后,本发明实施例提供的信息推荐方法可以将优先把滑雪场类景点推荐给该用户。另一方面,如果某一用户近期搜索户外装备、或在户外类商品店逗留比较多,本发明实施例提供的信息推荐方法可以增加户外类景点的权重,提高户外类商品店的排名,推荐给用户,等等。\n[0036] 示例性的,上述根据所述位置信息和行为信息确定兴趣点列表,包括:\n[0037] 根据所述位置信息和行为信息从景点候选集中确定所述POI列表。\n[0038] 其中,景点候选集可以从用户原创内容(User Generated Content,简称UGC)中提取,或者从旅游网络(例如百度旅游或者百度地图)上获取。\n[0039] 例如,从景点候选集中删除与所述位置信息给出的地理位置无关的或者离所述位置信息给出的地理位置较远的景点,以及删除与行为信息不相关的景点,例如行为信息中包含春游,则删除冬季玩的景点。\n[0040] 示例性的,上述景点候选集的确定,包括:\n[0041] 利用POI词表从原始网页中提取第一POI名称列表;\n[0042] 对所述第一POI名称列表进行去噪处理,得到第二POI名称列表;\n[0043] 根据所述第二POI名称列表得到所述景点候选集。\n[0044] 这里,为了区分本发明实施例中前后出现的包含不同内容的POI名称列表,将在本文中首次出现的POI名称列表称为第一POI名称列,将后续出现的POI名称列称为第二POI名称列,依此类推,后面不再赘述。\n[0045] 其中,POI词表可从旅游网络如百度旅游或者百度地图上或者UGC数据库中提取,包括景点和景点的经纬度。原始网页可以为包含景点信息的网站,例如百度旅游或者百度地图等。\n[0046] 例如,可以将第二POI名称列表里的景点直接作为景点候选集,或者对所述第二POI名称列表进行进一步过滤处理,将处理后的第二POI名称列表里的景点作为景点候选集。\n[0047] 示例性的,上述利用POI词表从原始网页中提取第一POI名称列表,包括:\n[0048] 从所述原始网页中提取满足挖掘条件的文本文件,其中,所述挖掘条件为所述文本文件中的出发地和目的地之间的距离小于所述预设值;\n[0049] 采用命名实体识别和多模匹配技术,将所述文本文件中的实体名称与所述POI词表进行匹配,得到所述第一POI名称列表。\n[0050] 例如,挖掘条件可以为目的地城市周围200公里以内的地点。命名实体可以为景点名称或者城市名称。\n[0051] 可首先提取原始网页中的一篇游记,从中得到文本文件包括出发时间、出发地点、目的地、游玩时间和景点名称等信息,根据这些信息结合挖掘条件判断该篇游记是否适合作为周边游的文本挖掘对象。\n[0052] 然后使用命名实体识别和多模匹配技术将上述符合挖掘条件的文件文本与所述POI词表匹配,将文件文本中提到的命名实体景点抽取出来,得到第一POI名称列表。\n[0053] 示例性的,上述对所述第一POI名称列表进行去噪处理,包括:\n[0054] 当所述第一POI名称列表中包含目的地信息时,滤除所述第一POI名称列表中不属于所述目的地信息给出的目的地的景点;\n[0055] 当所述第一POI名称列表中不包含目的地信息时,通过投票方式滤除不属于目的地的景点。\n[0056] 例如,从游记中挖掘出来的5个景点中有4个是隶属于北戴河的,1个隶属于北京的,则确定用户此行去北戴河的可能性非常大,那么这1个北京的景点可能就属于噪声,则将其滤除。\n[0057] 或者,上述对所述第一POI名称列表进行去噪处理,包括:\n[0058] 利用所述第一POI名称列表中相邻两个POI之间的距离,验证相邻两个POI出现在同一个行程的可行性和合理性;\n[0059] 剔除述第一POI名称列表中可行性和合理性低于门限值的景点。\n[0060] 例如,根据各景点所在的经纬度,计算各景点之间的距离,如果两个景点之间的距离大于预设距离,则确定该两个景点出现在同一个行程的可行性和合理性较小,则剔除该景点。\n[0061] 示例性的,上述根据所述第二POI名称列表得到所述景点候选集,包括:\n[0062] 对所述原始网页中的图片进行识别;\n[0063] 利用所述识别结果对所述第二POI名称列表进行验证和过滤处理,得到所述景点候选集。\n[0064] 例如,还可以根据游记中的图片,对使用相似图片搜索技术对图片进行识别,得到识别结果。根据图片中的文字识别结果和文字版挖掘出来的第二POI名称列表里所包含的景点进行强化验证和噪声过滤,进一步增加了信息抽取的准确度和覆盖度,最终得到景点候选集。例如,文字版挖掘出来的第二POI名称列表里所包含的景点为王府井附近的小教堂,再根据图片识别结果可以得出第二POI名称列表里所包含的小教堂是否与图片识别结果中提到的小教堂是否是同一地方的。如果图片是王府井小教堂,文字版挖掘出来的第二POI名称列表里所包含的也为王府井小教堂,则得到了验证;如果图片是王府井小教堂,文字版挖掘出来的第二POI名称列表里所包含的小教堂不是王府井小教堂,则将第二POI名称列表里所包含的小教堂删除。\n[0065] 示例性的,上述根据所述位置信息和行为信息从景点候选集中确定所述POI列表,包括:\n[0066] 获取所述景点候选集中的景点的特征信息;\n[0067] 根据获取的特征信息采用点击率CTR预估模型对所述景点候选集中的景点进行排序,得到候选POI列表;\n[0068] 根据所述位置信息和行为信息,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。\n[0069] 如图1b所示,根据景点的评论数、评分、景点热度、适宜游玩季节和距离等特征,采用CTR模型对景点候选集中的景点进行排序,得到景点候选列表。\n[0070] 以北京周边游为例,得到的推荐结果(11月份)top20(排名前20)如下:\n[0071] 香山\n[0072] 钓鱼台银杏大道\n[0073] 北海公园\n[0074] 北京动物园\n[0075] 京西古道\n[0076] 大栅栏\n[0077] 古文化街\n[0078] 潘家园\n[0079] 世界公园\n[0080] 798艺术区\n[0081] 后海\n[0082] 世贸天阶\n[0083] 景山公园\n[0084] 五大道\n[0085] 圆明园\n[0086] 意式风情街\n[0087] 什刹海\n[0088] 大观园\n[0089] 北京欢乐谷\n[0090] 该列表随季节变化而变化。\n[0091] 示例性的,上述获取所述景点候选集中的景点的特征信息,包括:\n[0092] 获取所述景点候选集中的景点的热度信息、访问时间和热度变化趋势中的至少一个特征。\n[0093] 其中,热度信息表征了该景点的受欢迎程度,访问时间表征了该景点的适合游玩季节,热度变化趋势反映了该景点的未来受欢迎趋势。\n[0094] 示例性的,上述获取所述景点候选集中的景点的热度信息,包括:\n[0095] 对历史定位数据进行地理位置维度上的聚类,得到聚类结果;\n[0096] 根据POI词表中的经纬度对所述聚类结果进行实体识别;\n[0097] 根据所述实体识别结果得到所述景点候选集中的景点的热度信息。\n[0098] 示例性的,上述根据所述实体识别结果得到所述景点候选集中的景点的热度信息,包括:\n[0099] 根据历史搜索信息,获取进行搜索的终端的位置和搜索的关键词;\n[0100] 根据所述进行搜索的终端的位置和搜索的关键词,获得各景点的搜索量;\n[0101] 用所述各景点的搜索量对所述实体识别结果进行补充,得到所述景点候选集中的景点的热度信息。\n[0102] 示例性,上述获取所述景点候选集中的景点的访问时间,包括:\n[0103] 对历史定位数据和历史搜索数据进行时间维度上的聚类,得到各月份的景点热度信息;\n[0104] 根据所述各月份的景点热度信息确定所述景点候选集中的景点的建议访问月份。\n[0105] 示例性的,上述获取所述景点候选集中的景点的热度变化趋势,包括:\n[0106] 采用隐马尔卡夫模型预测得到所述景点候选集中的景点的热度变化趋势。\n[0107] 实施例二\n[0108] 参见图2a,本实施例提供的信息推荐方法具体包括:操作2a1-操作2a5。\n[0109] 操作2a1中,获取终端所处的位置信息及所述终端的行为信息。\n[0110] 例如,可以通过定位技术或者从终端的归属位置服务器获取终端所处的位置信息,根据终端的行为信息获取的关键字为旅游。\n[0111] 在根据获取的位置信息和行为信息确定POI列表之前,可首先在离线的状态下,确定景点候选集,以作为信息推荐的基础。需要说明的是,景点候选集的确定可定期执行,无需每执行一次信息推荐方法就确定一次景点候选集。\n[0112] 参见图2b,景点候选集的确定包括:操作2b1和操作2b2。\n[0113] 操作2b1中,采用命名实体识别和多模匹配技术,将游记(1,2,…n)中的实体名称与POI词表进行匹配,得到景点名称列表。\n[0114] 从游记中提取满足挖掘条件的文本文件。\n[0115] 其中,游记可以是在离线状态下从原始网页中获取,所述挖掘条件为所述文本文件中的出发地和目的地之间的距离小于所述预设值。\n[0116] 例如,从百度旅游的游记中根据挖掘条件挖掘出的文本文件如下表一所示:\n[0117] 表一\n[0118]\n[0119]\n[0120] 例如,从UGC数据库中提取的POI词表如下,包括景点和景点所在的经纬度:天安门(经度1,纬度1)、塘沽(经度2,纬度2)、王府井(经度3,纬度3)、长城(经度4,纬度4)、跃突泉(经度5,纬度5)、故宫(经度6,纬度6)、鼓楼(经度7,纬度7)、小教堂(经度8,纬度8)、圆明园(经度9,纬度9)、颐和园(经度10,纬度10)、香山(经度11,纬度11)、恭王府(经度12,纬度\n12)、中山公园(经度13,纬度13)、北海公园(经度14,纬度14)。根据上述POI词表采用命名实体识别和多模匹配技术对上述文本文件中的实体名称进行匹配,得到景点名称列表:天安门、塘沽、恭王府、王府井、中山公园、故宫、颐和园、北海公园和圆明园。\n[0121] 操作2b2中,根据已有周边游的景点对景点名称列表进行筛选和过滤,得到景点候选集。\n[0122] 为了避免经过上述景点列表中有很多噪声,可以对所述景点名称列表进行去噪处理。例如,可以采用以下方法:当所述景点名称列表中包含目的地信息时,滤除所述景点名称列表中不属于所述目的地信息给出的目的地的景点;当所述景点名称列表中不包含目的地信息时,通过投票方式滤除不属于目的地的景点;或者,利用所述景点名称列表中相邻两个景点之间的距离,验证相邻两个景点出现在同一个行程的可行性和合理性;剔除述景点名称列表中可行性和合理性低于门限值的景点。\n[0123] 进一步地,可以对游记中的图片进行识别,利用识别结果对经过上述筛选和过滤的景点名称列表进行验证,得到所述景点候选集。\n[0124] 如图2c所示,使用相似图片搜索技术对图片进行识别,得到的文字识别结果为“清晨步行走到王府井商业区,图中经过小教堂”。\n[0125] 假设将图片识别文字与经过上述文本文件筛选和过滤后的景点名称列表里的景点进行比较,得到景点名称列表里包含王府井、小教堂,则进一步验证该经过上述文本文件筛选和过滤后的景点名称列表里的小教堂即为王府井附近的小教堂。\n[0126] 操作2a2中,获取所述景点候选集中的景点的特征信息。\n[0127] 具体地,可以获取所述景点候选集中的景点的热度信息、访问时间和热度变化趋势中的至少一个特征。\n[0128] 例如,当获取的所述景点的特征信息为热度信息时,可以采用如下方法实现:从百度地图中提取用户定位数据(例如包括用户对景点的评论数、点评分数、浏览数、推荐人数等),上述定位数据提供了及时且真实的热度信息,再对上述定位数据进行聚类处理,根据经纬度,对每个聚类结果进行命名实体识别,得到每个命名实体的热度信息。然后从命名实体的热度信息中挑选出所述景点的热度信息。同时,还可以从百度地图中获取用户搜索信息,通过识别用户搜索时所处地理位置和搜索关键词的识别,抽取出所述景点的搜索量,作为景点近期热度信息的补充信息。\n[0129] 例如,当获取的所述景点候选集中的景点的特征信息为访问时间时,可以采用如下方法实现:对从UGC数据库中挖掘的信息(包括历史定位数据、历史搜索数据)在时间维度上进行聚类,得到每个月份景点的热度信息,再通过分析每个景点在不同月份的热度分布,得到它适宜的游玩季节/月份,从中选取出所述景点候选集中的景点的访问时间。\n[0130] 例如,当获取的所述景点候选集中的景点的特征信息为热度变化趋势时,可以采用如下方法实现:在上述挖掘的历史热度信息的基础上,采用隐马尔卡夫模型预测景点的热度变化趋势。\n[0131] 获取的景点的特征信息如下表二所示:\n[0132] 表二\n[0133]\n景点 热度值 访问时间 热度变化趋势\n天安门 99 十一 平稳\n小教堂 95 四季 下滑\n王府井 96 四季 上升\n中山公园 94 春季 平稳\n故宫 99 春季 上升\n[0134] 操作2a3中,根据提取的特征信息采用点击率(Click-Through Rate,CTR)预估模型对所述景点候选集中的景点进行排序,得到候选POI列表。\n[0135] 例如,通过CTR预估模型对所述景点候选集中的景点进行排序,以热度变化趋势为例,对于热度呈增长趋势的景点,表示该景点正在越来越受欢迎的过程中,得到被推荐;而当热度呈降低趋势/达到某一阈值的景点,表示该景点受欢迎程度已达到顶峰或已开始下降,此时它值得推荐的指数就应该有所下降。例如可以通过增加惩罚因子来实现,计算每一个景点的推荐值(可以通过计算用户对该景点的评论、点击率、浏览次数的加权得到),设置推荐峰值为2000,当景点的推荐达值为2200时,则的推荐指数就是负数,意为不建议推荐,得到候选POI列表如下:故宫、天安门、王府井、中山公园、小教堂。\n[0136] 操作2a4中,根据所述位置信息和行为信息,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。\n[0137] 例如,用户目前在西城区,目的是旅游,则将东城的商业区王府井及小教堂删除,得到所述POI列表如下:故宫、天安门、中山公园。\n[0138] 操作2a5中,将所述POI列表发送给所述终端。\n[0139] 例如,将操作2a4中得到的所述POI列表中的景点故宫、天安门、中山公园发送至终端,以供用户参考。\n[0140] 本实施例通过获取终端所处的位置信息及行为信息,根据所述位置信息和行为信息从景点候选集中确定POI列表;将所述POI列表发送给所述终端,能够根据终端所在的位置自动及时的为用户推荐最近更新的景点,扩展了信息推荐的应用范围,满足了周边游目标用户群的需求。\n[0141] 实施例三\n[0142] 参见图3,本实施例提供的信息推荐方法具体包括:操作31-操作35。\n[0143] 操作31中,获取终端所处的位置信息及所述终端的页面访问信息或搜索内容。\n[0144] 本操作具体参见上述实施例的相关描述,这里不再赘述。\n[0145] 操作32中,获取景点候选集中的景点的特征信息。\n[0146] 其中,景点候选集的确定,可以根据结构化游记结合POI词表得到第一POI名称列表;过滤第一POI名称列表中的噪声,得到第二POI名称列表;根据景点与目的地的距离对第二POI名称列表进行第二次过滤;利用已有的周边游景点列表补充二次过滤后的第二POI名称列表;挖掘结构化游记图片中的POI信息对补充后的第二POI名称列表进行验证过滤,最终得到景点候选集。\n[0147] 获取的景点特征信息可以包括景点的热度信息(例如包括景点的游记数、评论数、画册数、想去/去过人数)、适宜游玩季节信息(例如通过统计景点适宜游玩的月份数目,表征该景点是否具有较强的季节特殊性,或者计算与当季月份的相近指数,表征该景点在当季的推荐指数)、热度信息预测走势等。\n[0148] 操作33中,根据获取的特征信息采用点击率CTR预估模型对所述景点候选集中的景点进行排序,得到候选POI列表。\n[0149] 例如,基于上述特征信息利用CTR预估模型对景点候选集的景点进行排序,得到候选POI列表。由于该候选POI列表考虑了景点热度信息、适宜游玩季节信息、热度信息预测走势等多方面的特征信息,具有更真实、及时、以及说服力的优势。\n[0150] 操作34中,根据所述位置信息以及页面访问信息或搜索内容,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。\n[0151] 例如,终端当前的位置在北京,当前访问的页面或搜索内容涉及滑雪,则滤除候选POI列表中不适合滑雪的景点。\n[0152] 或者,可以根据位置信息及历史访问页面内容和搜索内容,实现个性化推荐。例如,百度旅游网内部对每个用户采用唯一标识表示,通过分析每个用户的历史定位数据、搜索数据、浏览数据等信息,可得到该用户的偏好信息;再结合该用户近期的行为信息,判断用户近期的偏好变化,根据上述信息,计算景点与用户偏好的相似程度,在已排序的所述POI列表基础上,增加相似度特征,过滤掉不符合用户喜好的景点,得到最终的POI列表。\n[0153] 操作35中,将所述POI列表发送给所述终端。\n[0154] 本操作具体参见上述实施例的相关描述,这里不再赘述。\n[0155] 本实施例提供的信息推荐方法,通过获取终端所处的位置信息及访问页面内容和搜索内容,根据所述位置信息和行为信息从景点候选集中确定POI列表;将所述POI列表发送给所述终端,能够根据终端所在的位置自动及时的为用户推荐最近更新的景点,扩展了信息推荐的应用范围,满足了周边游目标用户群的需求。\n[0156] 实施例四\n[0157] 参见图4,本实施例提供的信息推荐装置的具体包括:获取模块41、POI列表确定模块42和发送模块43。\n[0158] 获取模块41用于获取终端所处的位置信息及所述终端的行为信息,其中,所述终端的行为信息包括所述终端的网页访问信息和搜索信息中的至少一种信息;\n[0159] POI列表确定模块42用于根据所述位置信息和行为信息确定预设范围内的兴趣点POI列表,其中,所述预设范围为与所述位置信息给出的地理位置之间的距离小于预设值的地理范围;\n[0160] 发送模块43用于将所述POI列表发送给所述终端。\n[0161] 示例性的,上述POI列表确定模块42具体用于:\n[0162] 根据所述位置信息和行为信息从景点候选集中确定所述POI列表。\n[0163] 示例性的,上述装置还包括:\n[0164] 景点候选集确定模块44,用于利用POI词表从原始网页中提取第一POI名称列表,对所述第一POI名称列表进行去噪处理,得到第二POI名称列表,根据所述第二POI名称列表得到所述景点候选集。\n[0165] 示例性的,上述景点候选集确定模块44具体用于:\n[0166] 从原始网页中提取满足挖掘条件的文本文件,其中,所述挖掘条件为所述文本文件中的出发地和目的地之间的距离小于所述预设值;\n[0167] 采用命名实体识别和多模匹配技术,将所述文本文件中的实体名称与所述POI词表进行匹配,得到所述第一POI名称列表。\n[0168] 示例性的,上述景点候选集确定模块44具体用于:\n[0169] 当所述第一POI名称列表中包含目的地信息时,滤除所述第一POI名称列表中不属于所述目的地信息给出的目的地的景点;\n[0170] 当所述第一POI名称列表中不包含目的地信息时,通过投票方式滤除不属于目的地的景点;\n[0171] 或者,具体用于:\n[0172] 利用所述第一POI名称列表中相邻两个POI之间的距离,验证相邻两个POI出现在同一个行程的可行性和合理性;\n[0173] 剔除述第一POI名称列表中可行性和合理性低于门限值的景点。\n[0174] 示例性的,上述景点候选集确定模块44具体用于:\n[0175] 对所述原始网页中的图片进行识别;\n[0176] 利用所述识别结果对所述第二POI名称列表进行验证和过滤处理,得到所述景点候选集。\n[0177] 示例性的,上述POI列表确定模块42包括:\n[0178] 获取子模块421,用于获取所述景点候选集中的景点的特征信息;\n[0179] 排序子模块422,用于根据所述获取子模块421获取的特征信息采用点击率CTR预估模型对所述景点候选集中的景点进行排序,得到候选POI列表;\n[0180] POI列表确定子模块423,用于根据所述位置信息和行为信息,对所述候选POI列表中的景点进行过滤和排序,得到所述POI列表。\n[0181] 示例性的,上述获取子模块421具体用于:\n[0182] 获取所述景点候选集中的景点的热度信息、访问时间和热度变化趋势中的至少一个特征。\n[0183] 示例性的,上述获取子模块421具体用于:\n[0184] 对历史定位数据进行地理位置维度上的聚类,得到聚类结果;\n[0185] 根据POI词表中的经纬度对所述聚类结果进行实体识别;\n[0186] 根据所述实体识别结果得到所述景点候选集中的景点的热度信息。\n[0187] 示例性的,上述获取子模块421具体用于:\n[0188] 根据历史搜索信息,获取进行搜索的终端的位置和搜索的关键词;\n[0189] 根据所述进行搜索的终端的位置和搜索的关键词,获得各景点的搜索量;\n[0190] 用所述各景点的搜索量对所述实体识别结果进行补充,得到所述景点候选集中的景点的热度信息。\n[0191] 示例性的,上述获取子模块421具体用于:\n[0192] 对历史定位数据和历史搜索数据进行时间维度上的聚类,得到各月份的景点热度信息;\n[0193] 根据所述各月份的景点热度信息确定所述景点候选集中的景点的建议访问月份。\n[0194] 示例性的,上述获取子模块421具体用于:\n[0195] 采用隐马尔卡夫模型预测得到所述景点候选集中的景点的热度变化趋势。\n[0196] 上述信息推荐装置可执行本发明任意实施例所提供的信息推荐方法,具备与信息推荐方法中各操作相对应的功能模块和有益效果。\n[0197] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
法律信息
- 2019-05-10
- 2015-05-13
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410803236.9
申请日: 2014.12.19
- 2015-04-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
2012-12-21
| | |
2
| |
2010-10-20
|
2009-04-17
| | |
3
| |
2012-07-18
|
2012-03-07
| | |
4
| |
2014-09-10
|
2013-09-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |