视频摘要,就是以自动或者半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取有意义的片段,将它们以某种特点的方式重新组合成紧凑的、能够充分表现视频语义内容的浓缩视频。

一、静态视频摘要:

静态的视频摘要,也称之为视频概要(video summary),是以一系列从原始视频流中抽取出来的静态语义单元来表现视频的内容。静态语义单元是诸如关键帧、标题、幻灯片等可以概括表示视频镜头内容的静态特征信息。目前的静态视频摘要的研究主要是基于关键帧选取方法来展开的。通过将多个关键帧组合成视频摘要,允许用于通过少量的关键帧快速浏览原始视频的内容,并提供快速检索。关键帧的选取主要利用颜色、运动矢量等视觉特征去区分帧间的差异性。但差异性的区分计算依赖阈值的选择,选择过程中计算了较大、实时性较差。基于关键帧的视频摘要结果简单,观看方便。但由于其以静态图像为结果的表达形式,很难准确地表达视频的内在语义,且对“对象”动态特征的描述不够全面,所以仅仅适用于视频的精彩瞬间生成,无法适应需要进行“对象”特征分析的场合。

静态视频浓缩摘要流程图

静态视频浓缩摘要通过描述原始视频中的每帧图像特征(如,颜色、纹理、视觉显著性等),通过对相邻帧间的特征差异分析,抽取出原始视频的关键帧,对关键帧进行聚类,形成表达不同主题场景的视频片段,最后根据视频片段的信息进行组合,生成一段短的摘要视频。

这种方式的优点是摘要视频的浓缩比较高,摘要生成算法与场景无关,较为成熟。缺点是生成的摘要视频仅仅表示了一小部分的视频内容,丢失了大量的信息,且生成的摘要视频不一定是用户感兴趣的片段。

二、动态视频摘要:

动态视频摘要,又称之为视频浓缩(video synthesis),是一段比原始视频短的多的浓缩结果。动态视频摘要可以分为精彩剪辑视频、专题浓缩视频、一般浓缩视频三种。精彩剪辑视频主要用于电影电视行业,是由原始视频中的精彩瞬间组成,专题浓缩视频主要应用于医学、金融等特定领域,利用特定专业知识对原始视频进行分析后浓缩得到的表现该领域特定内容的浓缩视频。相对而言,一般视频浓缩采用通用浓缩方法面向较为普通视频,用户可以通过播放这些相对精炼的摘要视频来了解整个视频的内容。

动态视频浓缩摘要流程图

动态视频浓缩在得到视频帧之后,先对当前场景建立背景模型,然后快速根据视频照耀处理的特殊性,将原始视频分为静态视频段、目标密集视频段、摘要基本段,同时为每个摘要基本段落生成其最佳背景模型。接着,基于背景建模,对运动目标进行检测、跟踪,提取其运动轨迹,通过运动轨迹表示该目标对象。然后对时空异步的多目标轨迹进行重新组合,去除视频的空间冗余,在重组的过程中应该考虑避免伪碰撞、保护原始相关性等原则,使重组的轨迹不丢失隐形信息。最后需要对重组后的轨迹及背景模型进行融合,这里主要解决的是背景图像的最优选择及多目标轨迹与背景的无痕融合问题。

发表评论