解析视频监控系统图像处理关键技术

2022-02-07 22:20:11|

来源：网络作者：

视频监控就是通过摄像机观测被监视场景中的运动目标，查看、分析、描述、记录其行为，以满足安全防范、远程管理和实时交流的需要。视频监控系统是多媒体、计算机网络和人工智能等技术的综合运用，在视频监控系统中进行图像处理，目的是提高图像视感质量，适应传输网络状况，提取图像的特征或信息，其核心问题是实现以更小的传输带宽承载更高质量的视频，减少运算资源消耗，实现对视频内容的主动感知，对海量视频数据的快速查找、精确定位和灵活呈现，涉及的主要技术包括：视频编解码、视频传输与存储、移动视频技术、视频分析、视频检索等，以下将进行简要介绍。

视频编解码

目前提高视频编码效率的方法可分为两大类：一是在传统的编码框架内继续提高各模块的编码效率，这一类的编码技术有变块大小预测、自适应块变换、自适应插值滤波等技术;二是结合人类视觉特性的新型编码框架研究，这一类的编码技术包括基于HVS评价标准的混合视频编码、基于纹理分析/合成的编码、基于图像修复的图像/视频编码等。

视频编码关键技术

变块大小预测

宏块是视频编码的基本单位。H.264编码算法中定义了七种大小可变的块尺寸模式，同时利用率失真策略对这七种模式进行遍历，这就使编码器可以根据图像中运动情况灵活地选择块的大小，提高运动预测精度。

自适应块变换

H.264标准制定的初期曾有自适应块变换的提案，目前的应用中自适应块变换与信号特征的结合更为紧密，如变换块大小与运动划分大小的结合，更多的变换大小选择，以及结合图像纹理特征的方向变换等技术。

自适应插值滤波

部分像素预测是提高预测编码效率的重要工具，其中插值滤波系数起着关键作用。根据图像信号的特征，自适应选择插值滤波系数使得预测误差能量最小化，能够大大提高编码效率，这种方法在高分辨率编码中优势明显。

新型编码技术的方法

基于HVS评价标准的混合视频编码

由于人眼对图像每个区域的敏感度是不同的，可以通过探索HVS的掩蔽特性来建立感知误差的阈值，以区分人们能够感知到的和不能感知到的信号，进而去除视觉心理冗余。

基于纹理分析/合成的编码

基于纹理分析与合成的编码主要是将视频场景分为纹理区域和非纹理区域两部分，并通过一个纹理分析与合成器把主观不重要的纹理区域分割并重构出来，在编码端，将原始序列某些区域的纹理，仅编码其余区域以及用于合成去除纹理区域的参数;在解码端，去除的纹理区域通过码流中参数进行重构。

基于图像修复的图像/视频编码

对于失真不易觉察到的块或区域不采用图像修复的方法进行修复，要方法是根据偏微分方程计算出等照度线传播方向，使信息从待修复图像块的边缘向内部扩散，完成整个缺失块的填充。

分布式编码

在分布式视频编码技术中，视频帧分为Wyner-Ziv帧和Key帧。Wyner-Ziv帧独立进行Wyner-Ziv编码，生成的码流传输到解码端，解码器利用生成的边信息来进行解码，信号之间的相关性由解码器来消除，Key帧采样传统视频编码中的帧内编码(如H.264的帧内编码)，解码端通过Key帧和边信息重建视频序列。相对于传统编码技术，分布式视频编码主要有以下特点：低复杂度的编码、高复杂度的解码，对于容易产生误码的通信网络具有较好的鲁棒性，具有较高的压缩效率，易形成分级编码的码流，适合传感器网络、分布式监控等应用场景。

视频编解码标准化

在标准化方面，MPEG工作组和VCEG工作组自联合制定H.264标准后，又陆续完成了面向可伸缩网络传输应用的H.264 SVC标准扩展，以及面向多视应用的H.264 MVC标准扩展，预计在明后年将推出H.265(即H.264 HVC)的编码标准，该标准主要依赖小波的聚能性能和分解级数进行视频压缩，在压缩效率、鲁棒性和错误恢复能力、实时时延和复杂度等方面将会有较大改进。在国内，AVS工作组自2002年成立至今，已经成功完成第一代AVS视音频编码标准制定工作，而面向高清、超高清、三维视频的AVS2标准制定工作已经展开。

视频流传输与存储

由于目前的因特网在带宽、延迟抖动和丢包率等方面的不可预知性，在大规模网络视频监控系统中，需要采用相关技术，提高流媒体服务质量，目前采用的技术主要包括：音视频流播出质量服务、视频流的转发与存储、渐进式音视频流传输等。

音视频流播出质量服务

包括各个层次上的网络服务控制(QOS)，如错误隐藏、跳帧处理和容错编码等。其中客户端的差错隐藏是比较常用的技术手段，该技术利用图像序列的连续性恢复出受损块的运动矢量，在没有运动信息时利用受损块周围的相同信息来推测受损块的内容。

视频流的转发与存储

与数值、字符等数据不同，视音频数据是非格式数据，并且数据量相对庞大，对存储服务器和转发服务器的性能有较高要求，因此服务器不仅需要有海量的多模态数据存储能力，还需要有快速的数据吞吐量、实时的响应时间;对于存储设备，主要技术包括有磁盘调度策略、数据条块化、分级存储和磁盘容错等。

渐进式音视频流传输

这种传输方式首先接收并显示低分辨率的音视频数据，然后再进一步接收更精细的数据，来提高音视频的现实质量，这样可以用来平衡等待时间与观看质量之间的矛盾，该技术的关键问题是对音视频对象的渐进式表达。

移动视频技术

随着移动互联网的发展，移动终端已经成为信息获取和交互主要工具，成为视频监控系统中的重要终端。目前移动视频监控系统应用中的核心问题是如何在较低的带宽和较小的显示屏幕限制下，更方便地获取视频监控信息，其技术主要包括以下几个方面：

面向小屏幕应用的媒体内容适配显示

由于移动终端的屏幕有限，而音视频内容在移动环境下往往不能被充分显示，需要采用自适应浏览技术，对于静态内容的显示可根据前期关注分析的结果，按重要程度依次显示或进行放大缩小处理;对于动态音视频内容的播放，可以采用最优化损失、曲线拟合等方法减少视频画面抖动。

面向移动音视频访问的人机交互界面

由于移动终端显示屏幕大小的限制，往往不能像正常的屏幕那样显示检索或推荐得到的多个媒体内容，这样就需要研究移动环境下的媒体可视化技术，在有限空间范围内尽可能多的表示媒体内容，同时还能增强用户的浏览观感。

面向移动应用的视频转码

由于移动终端的显示能力和计算能力各不相同，支持的视频质量也各不相同，需要采用面向移动应用的视频转码和视频传输技术，能根据不同的信道状况和终端显示能力，对视频进行自适应的转码处理。视频转码技术分为码率缩减的转码、分辨率缩减的转码、帧率缩减的转码、针对无线网络的容错转码、不同格式之间的转码等，其主要研究内容包括结合快速模式选择，高效、低复杂度的率失真优化转码框架，以及根据输入视频码流中的各种信息参数进行不同预测模式之间的快速预测和变换。在多模式的视频转码中，还需要根据用户所需要的视频内容和网络资源占用情况，综合考虑动态调整视频流的帧率、空间分辨率以及量化步长，使得用户体验最优化。

视频分析

虽然音视频内容的分析研究已经进行了多年，但许多问题依然只能在较小的范围内应用，目前监控系统中应用的视频分析和理解技术主要包括特征提取、分类方法、多模态融合等。

特征提取

现有的音视频特征可分为两类：整体特征和局部特征，整体特征往往从整个媒体单元中抽取得到，可以较好地描述音视频数据的整体特性，但不能有效描述其细节特点，局部特征从音视频数据的局部中抽取得到，并用于描述其细节特点，局部特征可以对遮挡、光照、视角变换具有更好的鲁棒性。受文本信息检索技术的启发，通过将音视频数据的局部特征量化为视觉单词，从而将媒体数据转化为类文本数据结构，进而采用较为成熟的文本信息处理技术处理音视频数据，这种基于局部特征和视觉单词模型，已经被应用于物体识别、物体检测、视频检索、事件检测等应用中。

分类方法

目前采用的分类方法可分大致为有监督学习、半监督学习和无监督学习三大类，其中，有监督学习方法需要大量的标注数据用于训练分类器以对待处理的数据进行的分类识别，无监督学习方法通过聚类分析等提取出一些可能有用的信息来辅助满足用户的需求，这两种分析方法已经在音视频分析中得到了大量的应用;半监督学习方法，该方法利用数据的内在分布特点，只需要用户标定少量数据以得到更准确的分类模型，在已标注的训练数据不足而未标注的数据却大量存在的情况下效果较好，目前半监督学习算法主要有如自训练法、产生式模型方法、直推式支持向量机及其改进、多视角方法的和基于图的学习方法等。

多模态融合

融合多种模态信息的音视频分析可以根据不同模态特征在分类能力和可靠性的差异采用不同的处理模式，通过合理利用图像/关键帧、声音、文字等多种媒体源特征的互补性，获得更优的分类或检测结果;多模态融合主要可以分为前融合和后融合，多模态特征的前融合即将不同的特征向量合并在一起作为分类器输入，具有应用简单、鲁棒性较强的特点但常不能反映各模态特征受关注程度的全部信息，后融合方法在解决数据的不对称性问题和不同时序层次的判别融合问题方面具有较大优势。视频处理

视频监控中的视频处理技术主要包括视频格式转换和图像增强两大类，视频格式转换包括视频缩放和去隔行技术。

视频格式转换

视频缩放技术

图像缩放的方法主要有几何变换法和离散图像连续表示法两大类。几何变换法的主要原理是将目标图像上的点映射成源图像上的点，然后将目标图像的颜色值取作源图像的颜色值，而当源图像上的点不是格点时，则采用邻近若干格点处的颜色值表示;离散图像连续表示法对原始的数字图像用连续函数进行刻画，再根据图像放缩的倍数要求对该连续表示的图像进行重新采样，最后得到新的离散表示的数字图像。视频缩放算法中，关键是插值参数曲面的构造.常用的插值方法有：邻近点插值，双线性插值，双三次插值方法和三次B样条插值等。在以上方法中，邻近点插值不能保证插值曲面零阶连续，插值后图像会出现块状化现象，图像视觉效果不佳，因而在实际的应用中极少采用;双线性插值只能达到零阶连续，在插值处只能保证灰度值连续，不能保证导数值连续。因此，在某些要求较高的场合仍不能满足要求;B样条插值方法可以达到二阶连续，在插值处可以保证灰度值和直到二阶导数值连续，因而对一些细节丰富的图像应用双三次样条插值可以得到更好的视觉效果，但B样条插值需要求解线性方程组，其计算时间较长，尤其是在放大倍数很大时，尤为明显。

去隔行技术

目前业界采用的去交错方法主要可以分为四类：直接合并去交错、图场内差去交错、动态适应去交错和动态补偿去交错;直接合并去交错法将连续的奇或偶图场直接合并为一帧，此方法计算量小，但会产生梳状流线、边缘闪动等现象，一般用于静态画面的处理;图场内差去交错法在图场内通过算法确定边缘方向，通过在边缘方向上进行插值确定目标图场数值，通常这类方法计算量小可以让物体边缘更锐利，但会产生边缘闪动的现象;动态适应去交错法结合直接合并法和图场内插法，在算法中增加了动态侦测器，通过图场差判断画面某部分是否动态，将动态部分做图场内插，对静态部分做直接合并，此类方法计算量比较大，对于超大范围的运动、移动、转动和缩放会产生放射性条纹;动态补偿去交错法不仅要检测视频图像序列中是否存在运动，还要计算运动的方向和大小，通过计算得到的运动矢量从邻近场的像素点来还原本场内的像素点，此方法能解决运动物体的还原问题，但是计算量较大且运动矢量计算误差将被传输到临近的视频场。

图像增强处理

图像增强方法主要分成两大类：频率域法和空间域法，前者把图像看成一种二维信号，对其进行基于二维傅里叶变换的信号增强，采用低通滤波法，可去掉图像中的噪声，采用高通滤波法，则可增强边缘等图像高频信号;基于空域的算法分为点运算算法和邻域去噪算法，点运算算法即灰度级校正、灰度变换和直方图修正等，目的是使图像成像均匀，或扩大图像动态范围，扩展对比度，邻域增强算法分为图像平滑和锐化两种，平滑一般用于消除图像噪声，常用邻域增强算法有均值滤波、中值滤波，锐化的用于突出物体的边缘轮廓，常用锐化算法有梯度法、算子、高通滤波、掩模匹配法、统计差值法等。

视频检索

目前视频监控中的视频检索技术主要是通过在视频码流中加入特定标签的对视频进行标识，在关系数据库中对标签进行索引实现视频检索;未来的视频检索将采用面向对象的数据库技术，实现基于内容的视频检索。基于内容的视频信息检索通过对非结构化的视频数据进行结构化分析和处理，采用视频分割技术，将连续的视频流划分为具有特定语义的视频片段即镜头，作为检索的基本单元，在此基础上进行代表帧的提取和动态特征的提取，形成描述镜头的特征索引。依据镜头组织和特征索引，采用视频聚类等方法研究镜头之间的关系，把内容相近的镜头组合起来，逐步缩小检索范围，直至查询到所需的视频数据，所以视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。

视频分割有自动和半自动两种方式，其中自动分割的难度大，分割效果随视频的内容复杂度变化很大，半自动分割方式适用于复杂场景下对象的分割，分割的质量较好，但没有实时性，采用的方法主要有帧间差分法、运动矢量场估计法、基于贝叶斯和马尔科夫随机场的分割方法等;代表帧是用于描述镜头的关键图像，常用的选取方法是帧平均法和直方图平均法，抽取代表帧后，视频检索就转变为数据库中类似代表帧的检索，目前常用的查询方式是示例查询，在视频特征库的支持下检索到相似代表帧，用户通过播放观看相关视频片段，选择相似图像进行查询;动态特征是检索时用户所能给出的主要内容，如镜头的运动变化、运动目标的大小变化、视频目标的运动轨迹等，这些动态特征的提取需要通过对视频序列的分析提取分析，视频运动信息的提取需要计算光流图，它是对物体在三维场景中运动在二维图像平面上投影变化的估计，主要采用基于窗口的块匹配算法。

总结

随着物联网和移动互联网技术的迅速发展，传统的IT架构逐渐云端化，计算资源和承载业务将进一步深度整合，在物联网和云计算汇聚的潮流中，视频监控技术将发生彻底的变革：视频监控平台将成为多信息互联、集成、交互的核心系统，视频监控前端设备逐渐进化为具有自主智能的节点，整个监控前端网络将从星型管控向网状感知系统转变，通过RFID、无线传感网、视频监控网络的协作互补，监控系统的感知能力和智能程度将得到极大提升，采集的数据也将从非结构化数据转变为互相关联的结构化数据。在这场变革中，图像处理技术特别是视频编解码技术，视频分析、理解、检索技术是将是未来产业竞争的制高点，值得业内人士持续关注。（

标签：视频监控视频处理视频编解码