著录项信息
专利名称 | 短视频场景分类方法、系统、电子设备及存储介质 |
申请号 | CN202110817162.4 | 申请日期 | 2021-07-20 |
法律状态 | 实质审查 | 申报国家 | 中国 |
公开/公告日 | 2021-10-29 | 公开/公告号 | CN113569684A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/00 | IPC分类号 | G;0;6;K;9;/;0;0;;;G;0;6;K;9;/;6;2;;;G;0;6;N;3;/;0;8查看分类表>
|
申请人 | 上海明略人工智能(集团)有限公司 | 申请人地址 | 上海市徐汇区云锦路701号29、30、31、32层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海明略人工智能(集团)有限公司 | 当前权利人 | 上海明略人工智能(集团)有限公司 |
发明人 | 朱彦浩;胡郡郡;唐大闰 |
代理机构 | 青岛清泰联信知识产权代理有限公司 | 代理人 | 李红岩 |
摘要
本发明公开了一种短视频场景分类方法、系统、电子设备及存储介质,短视频场景分类方法包括:短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个视频帧获得具有对应多个视频帧的多个图片信息的图像数据集;场景分类识别步骤:通过一经度量学习后的识别网络对图像数据集中的多个图片信息进行识别分类获得每一图片信息的图像概率;图像概率处理步骤:根据每一图片信息的图像概率计算获得短视频的每一场景类别的场景概率。本发明在基于图像级的场景分类的基础上,使用了度量学习的思想解决了同一类别特征层面的差距过大的问题,保证了最后的分类效果。
1.一种短视频场景分类方法,其特征在于,包括:
短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集;
场景分类识别步骤:通过一经度量学习后的识别网络对所述图像数据集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;
图像概率处理步骤:根据每一所述图片信息的图像概率计算获得所述短视频的每一场景类别的场景概率。
2.如权利要求1所述的短视频场景分类方法,其特征在于,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
3.如权利要求1所述的短视频场景分类方法,其特征在于,所述场景分类识别步骤包括:
样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个样本图片信息的样本图像数据集;
样本图像数据集处理步骤:为所述样本图像数据集的每一所述样本图片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第二图片信息;
图片向量获取步骤:将所述样本图片信息、所述第一图片信息及所述第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二图片向量;
度量学习步骤:对所述样本图片向量、所述第一图片向量及所述第二图片向量使用TripletLoss进行度量学习获得网络学习特征;
图像概率输出步骤:所述识别网络根据所述网络学习特征对多个所述图片信息进行识别分类获得每一所述图片信息的图像概率。
4.如权利要求3所述的短视频场景分类方法,其特征在于,所述图像概率处理步骤包括:根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
5.一种短视频场景分类系统,其特征在于,包括:
短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集;
场景分类识别单元,通过一经度量学习后的识别网络对所述图像数据集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;
图像概率处理单元,根据每一所述图片信息的图像概率计算获得所述短视频的每一场景类别的场景概率。
6.如权利要求5所述的短视频场景分类系统,其特征在于,所述短视频图像处理单元将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
7.如权利要求6所述的短视频场景分类系统,其特征在于,所述场景分类识别单元包括:
样本图像数据集获取模块,对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个样本图片信息的样本图像数据集;
样本图像数据集处理模块,为所述样本图像数据集的每一所述样本图片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第二图片信息;
图片向量获取模块,将所述样本图片信息、所述第一图片信息及所述第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二图片向量;
度量学习模块,对所述样本图片向量、所述第一图片向量及所述第二图片向量使用TripletLoss进行度量学习获得网络学习特征;
图像概率输出模块,所述识别网络根据所述网络学习特征对多个所述图片信息进行识别分类获得每一所述图片信息的图像概率。
8.如权利要求7所述的短视频场景分类系统,其特征在于,所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的短视频场景分类方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的短视频场景分类方法。
短视频场景分类方法、系统、电子设备及存储介质\n技术领域\n[0001] 本发明涉及视频处理技术领域,特别涉及一种结合度量学习的短视频 场景分类方法、系统、电子设备及存储介质。\n背景技术\n[0002] 随着科学技术的飞速发展,通讯技术得到了飞速的发展,目前的通讯 技术已经发展到了第五代通信‑‑‑5G。5G技术的飞速发展带来了互联网信息 传播的新途径‑‑‑短视频。\n短视频已经成为了目前社会生活下传播信息最丰 富,最快捷,最受欢迎的途径。抖音短视频的月活数已经突破了两亿人次。 各种其他的短视频APP也同样有着丰富的人气。如快手,腾讯微视,微信 视频号等也有着非常丰富的月活人数。在这种丰富的月活人数下,各种短 视频平台的数据量急剧上升,如何能够更好的使用丰富的短视频,并提取 出有用的信息,进行数据分析也成为了一个新的技术课题。\n[0003] 与正常的场景分类不同,短视频场景分类主要面临两个问题需要进行 解决:\n[0004] 一是与图像不同,一副图像中只会描述一种场景。如图1中,这幅图 像就只是描述了室内的场景。而对于短视频而言,由于其是一个较长时间 的故事,因此场景会发生切换;\n如图2所示,其场景由室内切换到室外, 因此对于一个短视频内的场景要尽可能的将所有的场景都识别到;\n[0005] 二是与普通的场景识别不同,短视频场景下,周围环境信息的内容较 为稀少,大部分均是人物占据主要区域,如图3,而且同一场景类别下的信 息差异也比较明显,如同样是直播间的场景,但各个图像之间的差异比较 大,在场景信息已经不多的情况下更难以做到对于分类类别的精准,如图4。\n[0006] 基于以上问题现有技术大都采取以下方案:\n[0007] 1、基于视频级的3D卷积场景分类方法\n[0008] 目前,最为广泛C3D是Facebook的一个工作,它主要是把2D Convolution 扩展到\n3D。我们知道2D的卷积操作是将卷积核在输入图像或特征图(feature map)上进行滑窗,得到下一层的特征图。例如,在一个单通道的图像上做卷 积,或在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的 3个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是 一张二维的特征图,也就是说,多通道的信息被完全压缩了。\n而在3D卷积中, 为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。3D卷积的 输出仍是一个三维的特征图。因此通过3D卷积,C3D可以直接处理视频,同 时利用表观特征和时序特征。但这种方法的缺点是:基于视频的方法,只能给 出这个视频的主题场景,一般会忽略掉短视频中出现时长较为短暂的其他场景, 导致其结果不满足要求。\n[0009] 2、基于图像级的抽帧采样场景分类方法\n[0010] 本技术方法是对于整个短视频先进行帧的提取操作,在提取帧的基础 上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络 架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识 别后,对于最终的识别结果进行聚合,这样出现频次较高的场景会有相对 较高的结果,出现频次较低的场景会有相对而言较低的结果,但是会包含 所有出现过的场景。但这种方法的缺点是:但由于图像级的条件下,图像 中的主体被人物所遮挡导致周围环境信息较少再加上类别内图像差异较大, 因此识别的准确率可能不高。\n[0011] 因此亟需开发一种克服上述缺陷的结合度量学习的短视频场景分类方 法、系统、电子设备及存储介质。\n发明内容\n[0012] 针对上述问题,本申请实施例提供了一种结合度量学习的短视频场景 分类方法、系统、电子设备及存储介质,以至少解决在短视频的训练数据 较少的情况下,获得更高的分类性能的问题。\n[0013] 本发明提供一种短视频场景分类方法,其中,包括:\n[0014] 短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;\n[0015] 场景分类识别步骤:通过一经度量学习后的识别网络对所述图像数据 集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;\n[0016] 图像概率处理步骤:根据每一所述图片信息的图像概率计算获得所述 短视频的每一场景类别的场景概率。\n[0017] 上述的短视频场景分类方法,其中,所述短视频图像处理步骤包括: 将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个 所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数 据集。\n[0018] 上述的短视频场景分类方法,其中,所述场景分类识别步骤包括:\n[0019] 样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个 样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧 的多个样本图片信息的样本图像数据集;\n[0020] 样本图像数据集处理步骤:为所述样本图像数据集的每一所述样本图 片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第 二图片信息;\n[0021] 图片向量获取步骤:将所述样本图片信息、所述第一图片信息及所述 第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二 图片向量;\n[0022] 度量学习步骤:对所述样本图片向量、所述第一图片向量及所述第二 图片向量使用TripletLoss进行度量学习获得网络学习特征;\n[0023] 图像概率输出步骤:所述识别网络根据所述网络学习特征对多个所述 图片信息进行识别分类获得每一所述图片信息的图像概率。\n[0024] 上述的短视频场景分类方法,其中,所述图像概率处理步骤包括:根 据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一 场景类别的场景概率。\n[0025] 本发明还提供一种短视频场景分类系统,其中,包括:\n[0026] 短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;\n[0027] 场景分类识别单元,通过一经度量学习后的识别网络对所述图像数据 集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;\n[0028] 图像概率处理单元,根据每一所述图片信息的图像概率计算获得所述 短视频的每一场景类别的场景概率。\n[0029] 上述的短视频场景分类系统,其中,所述短视频图像处理单元将所述 短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视 频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。\n[0030] 上述的短视频场景分类系统,其中,所述场景分类识别单元包括:\n[0031] 样本图像数据集获取模块,对样本短视频图像进行抽帧提取获得多个 样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧 的多个样本图片信息的样本图像数据集;\n[0032] 样本图像数据集处理模块,为所述样本图像数据集的每一所述样本图 片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第 二图片信息;\n[0033] 图片向量获取模块,将所述样本图片信息、所述第一图片信息及所述 第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二 图片向量;\n[0034] 度量学习模块,对所述样本图片向量、所述第一图片向量及所述第二 图片向量使用TripletLoss进行度量学习获得网络学习特征;\n[0035] 图像概率输出模块,所述识别网络根据所述网络学习特征对多个所述 图片信息进行识别分类获得每一所述图片信息的图像概率。\n[0036] 上述的短视频场景分类系统,其中,所述图像概率处理单元根据每一 场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类 别的场景概率。\n[0037] 本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储 器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执 行所述计算机程序时实现如上述中任一项所述的短视频场景分类方法。\n[0038] 本发明还提供一种存储介质,其上存储有计算机程序,其特征在于, 该程序被处理器执行时实现如上述中任一项所述的短视频场景分类方法。\n[0039] 本发明相对于现有技术其有益效果在于:\n[0040] 本发明使用基于图像级的抽帧采样分类方法,这种方法可以在短视频的 训练数据较少的情况下通过抽帧获得大量的图像数据,并能够兼顾到短视 频中出现多个场景的问题,为了提高识别的准确率,本发明结合了度量学 习的策略,在进行分类网络的学习的基础上同样进行类别间特征距离和类 别内特征距离的学习,使得同一类别下所有场景得到的特征距离要比不同 场景下的到的特征的距离要近,在此基础上进行分类,以得到更高的分类 性能,同时基于本发明的深度学习技术也提升了计算机视觉能力。\n[0041] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其 他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获 得。\n附图说明\n[0042] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地, 下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0043] 图1‑图4为图片信息示意图;\n[0044] 图5为本发明的短视频场景分类方法的流程图;\n[0045] 图6为图5中步骤S2的分步骤流程图;\n[0046] 图7为本发明的短视频场景分类系统的结构示意图;\n[0047] 图8为本发明的电子设备的结构示意图;\n[0048] 图9为度量学习示意图。\n具体实施方式\n[0049] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说 明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。\n[0050] 本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发 明的限定。\n另外,在附图及实施方式中所使用相同或类似标号的元件/构件 是用来代表相同或类似部分。\n[0051] 关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等, 并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以 相同技术用语描述的元件或操作。\n[0052] 关于本文中所使用的方向用语,例如:上、下、左、右、前或后等, 仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本 创作。\n[0053] 关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等, 均为开放性的用语,即意指包含但不限于。\n[0054] 关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。\n[0055] 关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的 “多组”包括“两组”及“两组以上”。\n[0056] 关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微 变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言, 此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实 施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员 应当了解,前述提及的数值可依实际需求而调整,并不以此为限。\n[0057] 某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供 本领域技术人员在有关本申请的描述上额外的引导。\n[0058] 短视频场景分类,是获取短视频有效信息的关键方法之一,通过分析 大量短视频发生的地点场景,如室内,餐厅和篮球场等,能够有效的获取 一定的规律信息。对于推荐算法而言可以有效提高短视频的推荐质量,可 以有效的增加广告视频的推送点击率,提高企业的利润。对于创作者而言, 可以更好的把控目前相对火爆的短视频类型,提高视频创作的质量。\n[0059] 度量学习,度量学习是深度学习的一种学习方法,其主要思想是使得 人工神经网络能够学习到不同类别之间的鲁棒的差异。度量学习的主要方 法是通过构建一个三元组。\n在此三元组中,有两张图像同属于一个类别, 另一张图像属于其他的类别。将这三张图像依次输入到人工神经网络中, 每一张图像都会输出一个1*n大小的向量,n大多取256或\n512。对于三张 图像产生的三个向量进行距离上的计算,使得同一类别的图像比不同类别 的图像有更近的距离。因此,人工神经网络就能够学习同一类别内的共同 点和类别之间的差异点,做到更好的分类。\n[0060] 本发明主要是在基于图像级的场景分类的基础上,为解决主体占比太 大导致周围场景信息太少且同一类别之间的差异较大极易造成网络效果低 能的问题,使用了度量学习的思想对每一个训练数据构建了三元组,并使 用了三元组损失函数解决了同一类别特征层面的差距过大的问题,迫使网 络学习到同一类别的图像之间的相关关系,保证了最后的分类效果。\n[0061] 请参照图5‑图6,图5为本发明的短视频场景分类方法的流程图;图6 为图5中步骤S2的分步骤流程图。如图5‑图6所示,本发明的短视频场景 分类方法包括:\n[0062] 短视频图像处理步骤S1:对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;\n[0063] 其中,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提 取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率 对所述视频帧进行抽样保存获得所述图像数据集。\n[0064] 具体地说,在本步骤中将短视频图像进行抽帧提取,首先获取到这个 视频的FPS(帧/秒),即这个视频一秒钟有多少帧,基于FPS对于视频帧 进行抽样保存,每一秒钟的时间长度上保存一帧图像,生成一个针对于这 个短视频的所有的图像数据集。\n[0065] 场景分类识别步骤S2:通过一经度量学习后的识别网络对所述图像数 据集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概 率。\n[0066] 其中,所述场景分类识别步骤S2包括:\n[0067] 样本图像数据集获取步骤S21:对样本短视频图像进行抽帧提取获得多 个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频 帧的多个样本图片信息的样本图像数据集;\n[0068] 样本图像数据集处理步骤S22:为所述样本图像数据集的每一所述样本 图片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的 第二图片信息;\n[0069] 图片向量获取步骤S23:将所述样本图片信息、所述第一图片信息及所 述第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第 二图片向量;\n[0070] 度量学习步骤S24:对所述样本图片向量、所述第一图片向量及所述第 二图片向量使用TripletLoss进行度量学习获得网络学习特征;\n[0071] 图像概率输出步骤S25:所述识别网络根据所述网络学习特征对多个所 述图片信息进行识别分类获得每一所述图片信息的图像概率。\n[0072] 具体地说,在本步骤,在特征网络的学习上,每一张图片信息在输入 到网络结构之前,都会为其匹配一张同一类别的第一图片信息和一张不同 类别的第二图片信息。将这三张图片信息输入到同一个网络结构中去,得 到三张图片信息对应的特征向量。对这三个特征向量使用TripletLoss进行度 量学习,使得两张属于同一类别的图片信息之间的距离要远远小于两张属 于不同类别的图像之间的距离。在度量学习中目标图片信息成为anchor, 同一类别的另一张第一图片信息成为positive,而不同类别的第二图片信息 称为negative。\n[0073] 如图9所示,图9为度量学习示意图,本阶段的目标就是在经过学习 以后将anchor与positive的距离拉近,将anchor与negative的距离拉远。 在这种条件下,网络所学习出来的特征就能够代表一定的类别信息,而不 会因为同一类别内的图像差异过大的问题导致最后训练结果上的低能。 TripletLoss使用欧式距离做距离单位,其公式可以见式(1)和式(2):\n[0074] (1);\n[0075] (2);L=max(d(a,p)‑d(a,n)+margin,0)\n[0076] 其中,x、y代表向量,dist(X,Y)代表向量间的距离,L是损失函数, a代表目标图片信息anchor,p代表第一图片信息positive,n代表第二图片 信息negative,d(a,p)代表anchor和positive的距离,d(a,n)代表 anchor和negative的距离。\n[0077] 图像的分类识别使用的是经过度量学习后的特征进行识别,对于每一 个anchor图像进行分类,并通过分类的结果和真实的标签之间的差异对于 整个的网络结构进行二次的监督学习。识别网络的训练过程是使用了所有 训练视频的抽帧图像随意打乱后的数据进行训练,为了能够避免训练过程 中由于训练的数据其类别不一致的问题,对于每一个类别的所占比重进行 了统计,在训练的采样过程中,尽量做到均匀采样。\n[0078] 图像概率处理步骤S3:根据每一所述图片信息的图像概率计算获得所 述短视频的每一场景类别的场景概率。\n[0079] 其中,所述图像概率处理步骤S3包括:根据每一场景类别的所有的所 述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。\n[0080] 具体地说,在本步骤中,对于任一短视频的所有抽帧的图片信息进行 类别的预测后,会对于所有的图像概率进行直接的加和再除以所有图片信 息的个数,这就会使得最后的概率上出现频次最高的内容会有最高的概率, 且其概率的大小也能反应各个场景出现的频次。\n[0081] 请参照7,图7为本发明的短视频场景分类系统的结构示意图,如图7 所示,本发明的短视频场景分类系统,其中,包括:\n[0082] 短视频图像处理单元11,对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;\n[0083] 场景分类识别单元12,通过一经度量学习后的识别网络对所述图像数 据集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概 率;\n[0084] 图像概率处理单元13,根据每一所述图片信息的图像概率计算获得所 述短视频的每一场景类别的场景概率。\n[0085] 进一步地,所述短视频图像处理单元11将所述短视频图像进行抽帧提 取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率 对所述视频帧进行抽样保存获得所述图像数据集。\n[0086] 再进一步地,所述场景分类识别单元12包括:\n[0087] 样本图像数据集获取模块121,对样本短视频图像进行抽帧提取获得多 个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频 帧的多个样本图片信息的样本图像数据集;\n[0088] 样本图像数据集处理模块122,为所述样本图像数据集的每一所述样本 图片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的 第二图片信息;\n[0089] 图片向量获取模块123,将所述样本图片信息、所述第一图片信息及所 述第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第 二图片向量;\n[0090] 度量学习模块124,对所述样本图片向量、所述第一图片向量及所述第 二图片向量使用TripletLoss进行度量学习获得网络学习特征;\n[0091] 图像概率输出模块125,所述识别网络根据所述网络学习特征对多个所 述图片信息进行识别分类获得每一所述图片信息的图像概率。\n[0092] 更进一步地,所述图像概率处理单元13根据每一场景类别的所有的所 述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。\n[0093] 请参照图8,图8为本发明的电子设备的结构示意图。如图8所示,本 实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理 器81以及存储有计算机程序指令的存储器82。\n[0094] 具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成 电路(Application Specific Integrated Circuit,简称为ASIC),或者 可以被配置成实施本申请实施例的一个或多个集成电路。\n[0095] 其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说 而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、 软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光 盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,简称为USB) 驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可 包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可 在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性 (Non‑Volatile)存储器。\n在特定实施例中,存储器82包括只读存储器 (Read‑Only Memory,简称为ROM)和随机存取存储器(Random Access Memory, 简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read‑Only Memory,简称为PROM)、可擦除PROM(Erasable Programmable Read‑Only Memory,简称为EPROM)、电可擦除PROM (Electrically Erasable Programmable Read‑Only Memory,简称为 EEPROM)、电可改写ROM(Electrically Alterable Read‑Only Memory, 简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合 适的情况下,该RAM可以是静态随机存取存储器(Static Random‑Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储 器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、 扩展数据输出动态随机存取存储器(Extended Date Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random‑Access Memory,简称SDRAM)等。\n[0096] 存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据 文件,以及处理器81所执行的可能的计算机程序指令。\n[0097] 处理器81通过读取并执行存储器82中存储的计算机程序指令,以实 现上述实施例中的任意一种短视频场景分类方法。\n[0098] 在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中, 如图8所示,处理器81、存储器82、通信接口83通过总线80连接并完成 相互间的通信。\n[0099] 通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备 之间的通信。\n通信端口83还可以实现与其他部件例如:外接设备、图像/ 数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数 据通信。\n[0100] 总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。 总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线 (Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、 局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接 口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工 业标准架构(Extended Industry Standard Architecture,简称为EISA) 总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport, 简称为HT)互连、工业标准架构(Industry Standard Architecture,简 称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count, 简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture, 简称为MCA)总线、外围组件互连(Peripheral Component Interconnect, 简称为PCI)总线、PCI‑Express(PCI‑X)总线、串行高级技术附件(Serial Advanced Technology Attachment,简称为SATA)总线、视频电子标准协 会局部(Video Electronics Standards Association Local Bus,简称为 VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的 情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了 特定的总线,但本申请考虑任何合适的总线或互连。\n[0101] 另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机 可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种短视频场 景分类方法。\n[0102] 综上所述,本发明在基于图像级的场景分类的基础上,使用了度量学 习的思想对每一个训练数据构建了三元组,并使用了三元组损失函数解决 了同一类别特征层面的差距过大的问题,迫使网络学习到同一类别的图像 之间的相关关系,保证了最后的分类效果。\n[0103] 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
法律信息
- 2021-11-16
实质审查的生效
IPC(主分类): G06K 9/00
专利申请号: 202110817162.4
申请日: 2021.07.20
- 2021-10-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |