1.一种电商评论情感分析降噪方法,其特征在于,所述方法电商评论情感分析降噪方法包括以下步骤:
步骤S1、预打标模块的构建;其中,步骤S1包括以下步骤S11:
步骤S11、建立情感词库标签,将情感词匹配到情感标签,增加“无效标签”对应词汇,将标签导出到文本;
步骤S2、人工标注模块的构建;
步骤S3、深度神经网络模型训练模块的构建;
步骤S4、深度神经网络模型标注模块的构建;其中,步骤S4包括以下步骤S41‑S43:
S41、将评论数据分句,每个子句做为输入文本;
S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签;
S43、将子句组合成原句,并保存子句标签;
步骤S5、降噪模块的构建;其中,步骤S5包括以下步骤S51‑S56:
步骤S51、将同一句子中多个重复标签去重,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个;
步骤S52、去掉包含“无效标签”的句子的所有标签,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有“无效标签”时,删除该评论所有标签;
步骤S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评;
步骤S54、统计所有用户评论数大于1的评论,计算用户的差评率,做聚类分析,去除差评率高于阈值的用户数据;
步骤S55、按同品牌,用户差评数统计,循环判断差评数用户占比,当某品牌差评数大于
4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环;
S56、按每条评论的情感值的绝对值进行均值统计,当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环;
步骤S6、情感分析模块的构建。
2.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,步骤S1具体还包括以下步骤:
步骤S12、批量读取评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注,一句评论可有多个标签,按行生成文本;
步骤S2具体包括以下步骤:
S21、将步骤S11和步骤S12的文本导入到人工标注平台;
S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过,标签错误可删除,缺少标签可添加,保存;
S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果;
步骤S3具体包括以下步骤:
S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量;
S32、将转换后的词向量,使用2或3或4或5四种过滤器,分别做卷积与最大池化;
S33、定义损失函数,做全连接层进行softmax回归输出多分类概率;
S34、使用Adam优化算法训练,保存模型;
步骤S6具体包括以下步骤:
S61、按商品做情感统计;
S62、按品牌做情感统计。
3.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为多对一,增加“无效标签”对应灌水评论。
4.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S51中,通过标签去重,设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。
5.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S52中,去掉包含“无效标签”的句子的标签,设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有“无效标签”,其他的情感标签都无效,去掉所有标签。
6.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S53中,设计了统计情感指数的两个方式,标签累计值为该评论的情感值,并按正中负定义好评中评差评。
7.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,
所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数,并删除差评率高于阈值的用户数据。
8.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面依次循环,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。
9.根据权利要求1所述电商评论情感分析降噪方法,其特征在于,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面依次循环,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。
10.一种电商评论情感分析装置,其特征在于,所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;
所述的预打标模块根据领域词典建立标签体系;
所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;
所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;
所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;
所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率的孤类,并将他们从结果中排除掉;其中,所述降噪模块执行如下步骤S1‑S5:
步骤S1、标注结果;
步骤S2、去重复标签;
步骤S3、去无效标签;
步骤S4、聚类去孤类;
步骤S5、聚类将权;
所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。
一种电商评论情感分析降噪的方法和装置\n技术领域\n[0001] 本发明涉及自然语言处理技术领域,具体地说,是一种电商评论情感分析降噪的方法和装置。\n背景技术\n[0002] 情感分析是通过文本所表达的含义和情感信息将文本分为褒扬或贬义的两种或多种类型。目的是为了找出说话者在某些话题上或者针对某个文本两极的观点的态度,这个态度表达了说话者的情感状态。在电商领域,用户购买商品后的评论直接表达了对商品的情感态度,对于帮助商家改善产品,提高用户满意度等有极大帮助。\n[0003] 目前已有很多对于情感分析的解决方案,主要通过情感词,否定词和程度副词,领域词典来构建模型,并通过词性,语法成分分词后生成特征向量,通过模型训练得到情感倾向。该方案遇到的问题是一旦用户恶意评论,灌水,反复强调,夸大问题等情况会放大结果或得到错误的结果,准确率不能保证,不能帮助商家有效鉴别,关注了不必要的问题,最后可能得到错误的决策方向。\n[0004] 中国专利文献CN201310036034.1,申请日20130412,专利名称为:针对产品评论信息的细粒度情感分析系统及方法,公开了针对产品评论信息的细粒度情感分析系统及方法,该系统包括:用户接口,产品评论信息训练样本数据库,情感词典等相关词典加载模块,文本预处理模块,特征抽取模块,特征抽取模块,情感分析模型训练模块,情感倾向性判断模块,反馈模块。\n[0005] 上述专利文献的针对产品评论信息的细粒度情感分析系统及方法,用户可以通过该系统存储和管理各种已标注的产品评论信息训练样本,并对之进行分句、分词、词性标注和句法分析等处理。用户还可以添加自定义情感词典对处理好的本文信息进行特征抽取和向量化,训练情感分析模型,利用情感分析模型对向量化的文本信息进行情感倾向性判断。\n系统将情感分析结果反馈给用户,支持用户对分析结果进行修正和保存。但是,关于一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的技术方案则未进行相应的公开。\n[0006] 综上所述,需要一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的电商评论情感分析降噪的方法和装置。而关于这种商评论情感分析降噪的方法和装置目前还未见报道。\n发明内容\n[0007] 本发明的目的是针对现有技术中的不足,提供一种帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确的电商评论情感分析降噪的方法。\n[0008] 本发明的再一目的是:提供一种电商评论情感分析降噪装置。\n[0009] 为实现上述目的,本发明采取的技术方案是:\n[0010] 一种电商评论情感分析降噪方法,所述方法电商评论情感分析降噪方法包括以下步骤:\n[0011] 步骤S1、预打标模块的构建:\n[0012] 步骤S2、人工标注模块的构建:\n[0013] 步骤S3、深度神经网络模型训练模块的构建:\n[0014] 步骤S4、深度神经网络模型标注模块的构建:\n[0015] 步骤S5、降噪模块的构建:\n[0016] 步骤S6、情感分析模块的构建。\n[0017] 作为一种优选的技术方案,步骤S1具体包括以下步骤:\n[0018] 步骤S11、建立情感词库标签,将情感词匹配到情感标签,增加“无效标签”对应词汇,将标签导出到文本;\n[0019] 步骤S12、批量读取天猫评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注,一句评论可有多个标签,按行生成文本;\n[0020] 步骤S2具体包括以下步骤:\n[0021] S21、将步骤S11和步骤S12的文本导入到人工标注平台;\n[0022] S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过,标签错误可删除,缺少标签可添加,保存;\n[0023] S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果。\n[0024] 步骤S3具体包括以下步骤:\n[0025] S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量;\n[0026] S32、将转换后的词向量,使用2或3或4或5四种过滤器,分别做卷积与最大池化;\n[0027] S33、定义损失函数,做全连接层进行softmax回归输出多分类概率;\n[0028] S34、使用Adam优化算法训练,保存模型;\n[0029] 步骤S4具体包括以下步骤:\n[0030] S41、将评论数据分句,每个子句做为输入文本;\n[0031] S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签;\n[0032] S43、将子句组合成原句,并保存子句标签;\n[0033] 步骤S5具体包括以下步骤:\n[0034] 步骤S51、将同一句子中多个重复标签去重,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个;\n[0035] 步骤S52、去掉包含“无效标签”的句子的所有标签,具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有“无效标签”时,删除该评论所有标签;\n[0036] 步骤S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评;\n[0037] 步骤S54、统计所有用户评论数大于1的评论,计算用户的差评率,做聚类分析,去除差评率高于阈值的用户数据;\n[0038] 步骤S55、按同品牌,用户差评数统计,循环判断差评数用户占比,当某品牌差评数大于4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环,且阈值可调整;\n[0039] S56、按每条评论的情感值的绝对值进行均值统计,当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环,且阈值可调整;\n[0040] 步骤S6具体包括以下步骤:\n[0041] S61、按商品做情感统计;\n[0042] S62、按品牌做情感统计。\n[0043] 作为一种优选的技术方案,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为为多对一,增加“无效标签”对应灌水评论。\n[0044] 作为一种优选的技术方案,所述步骤S51中,通过标签去重,设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。\n[0045] 作为一种优选的技术方案,所述步骤S52中,去掉包含“无效标签”的句子的标签,设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有“无效标签”,其他的情感标签都无效,去掉所有标签。\n[0046] 作为一种优选的技术方案,所述步骤S53中,设计了统计情感指数的两个方式,标签累计值为该评论的情感值,并按正中负定义好评中评差评。\n[0047] 作为一种优选的技术方案,所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数,并删除差评率高的用户数据的方法。\n[0048] 作为一种优选的技术方案,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面依次循环,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。\n[0049] 作为一种优选的技术方案,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面依次循环,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。\n[0050] 为实现上述第二个目的,本发明采取的技术方案是:\n[0051] 一种电商评论情感分析装置,所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;\n[0052] 所述的预打标模块根据领域词典建立标签体系;\n[0053] 所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;\n[0054] 所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;\n[0055] 所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;\n[0056] 所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类,并将他们从结果中排除掉;\n[0057] 所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。\n[0058] 本发明优点在于:\n[0059] 1、能够帮助商家发现并修正恶意评论,灌水,反复强调,夸大问题的评论,消除或者降低这些噪声带来的影响,让情感分析结果更准确。\n[0060] 2、去除了重复情感评论,使评论结果更合理。\n[0061] 2.去除了灌水评论,使商品优缺点更真实。\n[0062] 3.去除了恶意评论,使情感分析聚焦于大众情感。\n[0063] 4.对用户情感调整权重,修正少数用户情感丰富的问题。以上要求为商家在现实中遇到的问题,采用本发明的方法处理,帮助商家了解用户反馈的产品特性,更有效率的改善产品,以及有针对性的设计新产品。\n附图说明\n[0064] 附图1是本发明的一种电商评论情感分析降噪的方法的流程示意图。\n[0065] 附图2本发明的情感分析装置的结构框图。\n[0066] 附图3是降噪模块的流程示意图。\n具体实施方式\n[0067] 下面结合附图对本发明提供的具体实施方式作详细说明。\n[0068] 请参照图1,图1是本发明的一种电商评论情感分析降噪的方法的流程示意图。一种电商评论情感分析降噪的方法,所述方法包括以下步骤:\n[0069] S1、预打标模块的构建:\n[0070] S11、建立情感词库标签,将情感词匹配到情感标签,增加【无效标签】对应词汇复制、粘贴、淘气值等,将标签导出到文本。\n[0071] S12、批量读取天猫评论数据,逐句将评论数据分词,根据情感词库关键字匹配分词结果,匹配到的结果按标签进行机器标注。一句评论可有多个标签,按行生成文本。\n[0072] S2、人工标注模块的构建:\n[0073] S21、将S11和S12的文本导入到人工标注平台。\n[0074] S22、标注平台可展现当前文本打标结果,人工进行校验,如标签没问题,点击保存通过。标签错误可删除,缺少标签可添加,保存。\n[0075] S23、将标注完的结果导出文本,结果类似S12,是人工校验后的结果。\n[0076] S3、深度神经网络模型训练模块的构建:\n[0077] S31、将S23的数据使用卷积神经网络进行训练,使用训练好的词向量,将分词结果转换为词向量。\n[0078] S32、将转换后的词向量,使用2,3,4,5四种过滤器,分别做卷积与最大池化。\n[0079] S33、定义损失函数,做全连接层进行softmax回归输出多分类概率。\n[0080] S34、使用Adam优化算法训练,保存模型。\n[0081] S4、深度神经网络模型标注模块的构建:\n[0082] S41、将评论数据分句,每个子句做为输入文本。\n[0083] S42、读取训练模型,将子句文本转化为标签分类概率,取大于0.5概率的标签。\n[0084] S43、将子句组合成原句,并保存子句标签。\n[0085] S5、降噪模块的构建:\n[0086] S51、将同一句子中多个重复标签去重。具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当含有多个同样的标签时,只取一个。\n[0087] S52、去掉包含【无效标签】的句子的所有标签。具体方法为,同一评论由多个子句组成,标签为每个子句的标签汇总,当这些标签中含有【无效标签】时,删除该评论所有标签。\n[0088] S53、一条评论含有一个或多个标签,按照标签累计值计算情感值之和,例如:8,5,\n0,‑3,‑1等。根据情感值计算好中差评,大于0为好评,等于0为中评,小于0为差评。\n[0089] S54、统计所有用户评论数大于1的评论,计算用户的差评率,(例如A用户有5条评论,其中2条为小于0的差评,差评率为40%),做聚类分析,去除差评率高于阈值的用户数据。\n[0090] S55、按同品牌,用户差评数统计,循环判断差评数用户占比,例如某品牌差评数大于4的用户占比低于阈值百分之一时,则去掉该差评数的用户的评论数据,结束循环。(阈值可调整)\n[0091] S56、按每条评论的情感值的绝对值进行均值统计,循环判断均值1,2,3等,例如当均值大于3的用户占比小于阈值百分之一时,将高于该均值的用户均值设定为3,结束循环。\n(阈值可调整)\n[0092] S6、情感分析模块的构建:\n[0093] S61、按商品做情感统计。\n[0094] S62、按品牌做情感统计。\n[0095] 作为一种优选的方案,所述步骤S11中,将情感词匹配成情感标签,情感词与情感标签的关系为为多对一。增加【无效标签】对应灌水评论。\n[0096] 作为一种优选的方案,所述步骤S51中,通过标签去重。设计了一个方法,将同一评论分成子句打标签,再将每个子句的标签汇总,当含有多个同样的标签时,只取一个。\n[0097] 作为一种优选的方案,所述步骤S52中,去掉包含【无效标签】的句子的标签。设计了鉴别灌水的方法,无论评论中包含了多少个正常的情感,一旦评论中包含有【无效标签】,其他的情感标签都无效,去掉所有标签。\n[0098] 作为一种优选的方案,所述步骤S53中,设计了统计情感指数的两个方式。标签累计值为该评论的情感值,并按正中负定义好评中评差评。\n[0099] 作为一种优选的方案,所述步骤S54中,统计评论数大于1的用户,差评率的计算公式为差评数/总评论数。并删除差评率高的用户数据的方法。\n[0100] 作为一种优选的方案,所述步骤S55中,设计了寻找阈值的方法,从差评数为1开始循环,后面为2,3等,大于该差评数的用户小于阈值百分之一时,删除大于该值的所有用户的数据。\n[0101] 作为一种优选的方案,所述步骤S56中,设计了寻找阈值的方法,使用用户情感值绝对值进行均值统计,从均值为1开始循环,后面为2,3等,大于该均值的用户小于阈值百分之一时,删除大于该均值的所有用户的数据。\n[0102] 请参照图2,图2本发明的情感分析装置的结构框图。\n[0103] 所述的情感分析装置包括预打标模块、人工标注模块、神经网络训练模块、算法标注模块、降噪模块、情感分析模块;\n[0104] 所述的预打标模块根据领域词典建立标签体系;\n[0105] 所述的人工标注模块用于将预打标模块中的文本导入到人工标注平台;\n[0106] 所述的神经网络训练模块使用卷积神经网络做多分类,分类结果做标签去重;\n[0107] 所述的算法标注模块中增加一个“无效标签”对应灌水评论,找到共性;\n[0108] 所述的降噪模块根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类,并将他们从结果中排除掉;\n[0109] 所述的情感分析模块根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内。\n[0110] 请参照图3,图3是降噪模块的流程示意图。所述的降噪模块的处理流程包括以下步骤:\n[0111] 步骤S1、标注结果;\n[0112] 步骤S2、去重复标签;\n[0113] 步骤S3、去无效标签;\n[0114] 步骤S4、聚类去孤类;\n[0115] 步骤S5、聚类将权。\n[0116] 需要说明的是:本发明的实现电商评论情感分析降噪的主体流程如下[0117] 1.根据领域词典建立标签体系,建立标签的目的是去重,领域词典的同义词,比如漂亮,美丽,用户同一评论说多次最后根据标签去重了只会算一次,标准化情感表达。\n[0118] 2.进行算法标注并人工校验,增加一个【无效标签】对应灌水评论,找到共性,比如涉及复制粘贴,淘气值等。\n[0119] 3.使用卷积神经网络做多分类,分类结果做标签去重,解决问题1去重问题。不展示与统计【无效标签】句子的标签,解决问题2灌水问题。\n[0120] 4.根据用户每条评论情感累积值的正中负评做聚类分析,发现部分用户购买商品整体差评率较高的孤类。按同品牌购买次数与差评次数统计,找到孤类,可以将他们从结果中排除掉,可以解决问题3恶意评论的问题。\n[0121] 5.根据用户情感绝对值的平均值做聚类,可以得到部分用户情感绝对值偏高,对他们的情感值进行降权处理,使他们的情感绝对值的平均值映射到大多数人的范围内,可以解决问题4结果夸张的问题。\n[0122] 本发明的一种电商评论情感分析降噪的方法和装置具有以下技术效果:\n[0123] 1.去除了重复情感评论,使评论结果更合理。\n[0124] 2.去除了灌水评论,使商品优缺点更真实。\n[0125] 3.去除了恶意评论,使情感分析聚焦于大众情感。\n[0126] 4.对用户情感调整权重,修正少数用户情感丰富的问题。\n[0127] 以上要求为商家在现实中遇到的问题,采用本发明的方法处理,帮助商家了解用户反馈的产品特性,更有效率的改善产品,以及有针对性的设计新产品。\n[0128] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
法律信息
- 2022-06-24
- 2019-02-22
实质审查的生效
IPC(主分类): G06F 16/35
专利申请号: 201810981948.8
申请日: 2018.08.27
- 2019-01-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |