本文刊登于《网信军民融合》杂志年9月刊
一、为什么反恐维稳需要“慧眼”与“智脑”
我国反恐任务非常艰巨。年以来,新疆每年打掉的危安现行组织团伙案均在百起以上。仅年新疆暴恐案件立案就有余起。年鄯善县鲁克沁镇“6·26”暴恐案件发生后的2个月间,新疆公安机关查处涉及传播涉稳谣言类违法犯罪人员人,传播“圣战”等宗教极端思想人员人。
社会治安治理需要长期监测与联网联防。从中国社会科学院年全国人民法院新收金融犯罪、传销活动犯罪案件数量及其变化比例表(表1)可以看出,侵犯财产犯罪特点突出,盗窃、诈骗、抢劫、抢夺等常发性侵财犯罪呈现出地域性、职业性、流窜性强的特点。交通的便利促进了跨区域流窜犯罪的多发,流窜犯罪案件高达50%以上,发达地区高达80%以上。长期监测、预警、防范,常态化预防工作机制依然任重道远。
表1年全国人民法院新收金融犯罪、传销活动犯罪案件数量及其变化比例
国家战略对公共安全视频监控提出新要求。年12月,国家发展改革委、综治办、公安部、财政部、科技部、工信部、人力资源部、住建部、交通部等9部委联合印发《关于加强公共安全视频监控建设联网应用工作的若干意见》指出,到年,基本实现“全域覆盖、全网共享、全时可用、全程可控”的公共安全视频监控建设联网应用。逐步建立国家级和省级公共安全视频图像数据处理分析中心,深化视频图像信息预测预警、实时监控、轨迹追踪、快速检索等应用。
因此,无论是反恐维稳还是社会治安治理,都需要构筑以大规模视频监控系统为基础的“慧眼”与“智脑”。
二、现有视频监控系统存在的问题
当前,视频监控主要分为“事前防控”和“事后破案”两种应用模式。“事前防控”需要在线分析大量实时视频数据;“事后破案”则是离线分析,需要短时间内处理海量往期视频。现在的视频系统,大多数时候是假定式的破案,事前的防控要靠人来看,目前的计算机系统还满足不了事前防控的要求,例如陕西某市一个区的指挥中心,接入余路摄像头,安排了75名全职监控员,进行三班倒。更重要的是,现在的监控系统从设计的时候就是为了存储而做的,而不是为了实时监控,人可以实时监控,让计算机代替人完成全部的自动识别还做不到。因此,可以说现有监控系统还不够智能,是“有眼(摄像头)无珠(脑)”,缺少识别和搜索或质量很差,媒体大数据处理存在难存储、难检索和难识别三大挑战。
(一)难存储(压缩问题)
图1视频压缩率增长率与视频数据量的增长率关系
视频压缩率的增长率远低于监控视频数据量的增长率,数据量与压缩率之间存在巨大的鸿沟,如图1所示。为了使存储的成本可控,视频压缩得非常厉害。然而,即便压缩率很高,也不能长期存储,最长存储三个月,经常是存储一个月,甚至只存储一个星期。数据量非常大,存储非常难,现在的技术满足不了需求的增长,怎么解决呢?要么就是增加成本,扩大存储量,要么就是压缩到能接受的程度,这样付出的代价就是识别比较困难。技术上编码压缩率是每十年才能提升一倍,即十年进步一代,远远满足不了现在存储量每年增加一倍的指数级增长要求。
(二)难检索(模式识别问题)
图2图像和视频数据量的指数级增长模式
图像和视频数据量的指数级增长对模式识别提出巨大挑战,如图2所示。带来的问题就是因为压缩率太高了,很多用于识别的特征被过滤了,所以很难识别,计算机对高度压缩后的视频进行识别几乎是不可行的。
(三)难识别(对象再标识问题)
多个摄像头构造起来的摄像机网络,由于摄像头是不同阶段的产品,所以它们的物理参数、光学参数都是不一样的,这就造成了尽管是同一个目标,但是不同摄像机拍出来的图像也可能完全不同。所形成的数据集经常包含一系列视觉表观相似的对象,这给分析识别技术上带来很大的难题,即从跨摄像机的大规模数据集中标识特定对象非常困难。
三、本质上是传统视觉感知系统的固有问题
传统视觉感知系统是长期自然形成的1-1模式监控技术架构:即一个摄像机一个功能的模式,如图3所示,有的摄像头负责抓拍人脸,有的摄像头负责车牌识别,实质上是单摄像机单流、单用途。1-1模式前端设备的任务是视频采集、压缩和传输,后端服务器的任务是处理和分析,包括视频解压缩、人工校验、对象检测、模式识别、事件分析等等。这样的模式,设备的安装调试比较简单,但带来的问题是摄像头拍下对象的时间戳和其位置的同步给后面云端系统带来很大的困扰,很多时候由于时间戳对不准,信息之间就没有办法进行关联和融合使用。所以现在的系统性能比较低,提升困难,效率不高。
图3传统的视觉感知系统
进一步分析传统1-1模式视觉感知系统存在的问题,一是压缩-解压缩和分析过程造成的长延迟。二是对象检测、模式识别和场景理解的低准确性。现有视频质量评估程序可用于度量视频压缩工具的性能,然而,它是基于人眼对失真的敏感性,因此对机器(计算机)视频处理过程使用相同的质量评估存在一定问题,压缩将降低视频分析识别的准确性。三是低利用率。目前的监控系统是为存储数据再由人工离线检查而设计,大部分数据在其生存期内始终没有用。
我们可以做一个简单的实验。使用最新AVS2编码器获得具有不同量化参数(QP)的重构视频,提取视频帧并测试不同任务的性能,如特征分析、人脸识别,使用手工特征或深度特征进行行人再标识,而如果编码参数QP过大,将导致识别率降低。在分辨率为*、帧率为50P的测试条件下,QP值与码流对照表如表2所示。
表2编码参数QP与码流对应表
图4QP值变化对应图像质量对比
QP值的选取需要根据对视频质量的要求而定。QP值过大会导致大量用于识别的特征被过滤掉,从图4中可以看出,当QP为52时,图像的失真就已经很严重了。多个实验表明,对于视频编码,不管使用什么特征,人脸检测、图像检索、行人再识别等所有任务的性能都对QP变化敏感,QP为38是一个临界值,当QP大于38时,识别的效果就会急剧下降,后面的图像就不能做很好的识别。
四、如何实现反恐维稳的“慧眼智脑”——数字视网膜
面对这样的现状,现在的很多系统都寄希望于构建一个理想的云,将大规模视频汇聚到云计算中心进行图像视频分析、识别,并面向反恐维稳需要构建业务系统。这种技术方案的优点是可以较好利用现有大规模摄像头,然而,现有系统只解决了如何存储的问题,对于如何识别和搜索没有提供必要的技术支持。
图5“慧眼智脑”复合模式
应对上述三大挑战,仅仅构建智能的云端图像视频数据处理中心解决不了所有的问题,需要能在一个摄像头中满足所有用途的复合模式,像人眼一样——“慧眼智脑”,如图5所示。“慧眼”是要打造城市/区域的视觉感知网络,不仅是能看的复眼,更是能感知的神经末梢;“智脑”则是成千上万“慧眼”联结而成,构建一个公共安全视频图像数据处理分析中心,开展图像视频大数据分析、挖掘,支持跨区域长期监测与预警。
(一)什么是数字视网膜?
数字视网膜就是参照人的眼睛来设计系统。人通过一双眼睛看到所有图像再经过大脑处理,相当于把所有的特征编码送到大脑进行识别,人类视网膜同时具有影像重构与特征提取功能,数字视网膜就是模拟人的视觉系统功能。数字视网膜要同时考虑精细编码和特征提取问题,其核心由视频编码和特征编码构成,视频编码是为了存储和离线观看,而特征编码则是为了模式识别和场景理解。
(二)数字视网膜有哪些核心技术?
1.基于背景模型的场景视频编码
现有监控摄像头的编码采用通用的编码技术标准。针对广播电视视频,采用混合编码框架,压缩比每十年翻一番。目前最新的第三代标准是H./AVS2,压缩比达:1。
我们制定了专门针对监控视频的编码标准,即AVS2场景编码标准。从消除背景冗余入手,提出基于背景模型的场景视频编码框架,针对固定场景监控视频,压缩比达:1,如图6。
图6视频编码标准
该成果已经颁布为AVS2国家标准/IEEE国际标准,实现了编码效率翻番。与现行国际标准H.High相比,编码效率提升一倍,增强最新国际标准H./HEVC,编码效率再提升约一倍。
2.视频特征的紧凑表达
视觉特征表征是图像视频分析处理的基础。目前采用的面向视觉搜索的紧凑视觉特征描述子国际标准——MPEGCDVS(ISO/IEC-13),是国内科学家为主建立的国际标准,是多媒体领域我国主导的首项ISO国际标准。
深度学习近年来在图像分类、语音识别等领域取得巨大成功。深度特征的帧间编码框架分为两个方面,一是根据内容设计不同特征编码模式,如下:
Feature:较大的场景变化,需独立编码;
P-Feature:一定程度的场景变化,需编码残差;
S-Feature:较小的场景变化,可用前一帧特征表示。
二是建立特征码率-检索准确率间优化模型。
3.视频编码与特征编码的联合优化
传统的视频和现在的特征编码放在一起,根据码流的大小,应用联合优化函数来计算如何分配视频编码和特征编码,做到视频编码能高效地传输和恢复,损失图像纹理信息的局部特征描述能满足识别要求。
联合优化包括联合R-D和R-A优化,即面向视频编码RDO和面向特征编码RAO优化,其过程如图7。
图7联合优化框架
图8编码性能示例
联合优化框架能在维持检索性能的情况下显著降低视频内容和特征码率,示例如图8。
(三)如何进行硬件实现?
硬件实现最理想的方案是换装带有多功能的摄像头,但显然短期内不会达到这个目标,所以硬件实现可采取监控SOC+FPGA的近期方案和远期的芯片方案。
近期监控SOC+FPGA方案采用已有的智能监控SOC,例如,支持简单CNN模型,FPGA支持多对象的检测、快速跟踪、特征提取,支持特征的压缩编码,如图9。
图9近期硬件实现方案
图10远期芯片方案
远期的芯片方案中,一个完整的多功能芯片支持ISP采用通用图像处理器,AVS2编码器支持AVS2的视频编码,特征提取器支持对象检测及特征提取,复合器支持特征汇聚压缩及双流同步封装,外设包括通用的USB、以太网、HDMI等,如图10。
(四)系统部署
根据上述硬件实现方案,系统部署也采用相应的现有视频监控系统部署模式和数字视网膜系统部署模式。最终要实现的数字视网膜部署,其特点是:
高性能:特征提取直接可在未压缩视频帧上提取,避免视频压缩使得特征受损,从而影响分析识别性能;
高效:云端系统直接在解码后特征上进行分析,避免云端在大规模图像视频数据上进行特征提取(计算密集);
可伸缩:不依赖图像视频进行分析识别,可根据需要按需调取图像视频流,避免传输延迟。
数字视网膜部署是可软件定义的,软件定义的数字视网膜网络实现特征学习模型和摄像机参数实时地从云中心更新,例如,将基础深度学习模型从GoogLeNet升级到Inception-ResNet-v2。
当数字视网膜摄像机未大规模普及时,全国数千万监控摄像头不可能短时替换,可采用基于智能边缘节点的解决方案,即利用部署在派出所、区县公安局等本地机房的设备形成智能边缘节点,实现高清视频转码存储、特征提取、简单分析识别,通过视频专网上传至云端视频图像数据处理分析中心,但前提是视频压缩率不能太高,要保证2.4M码率的图像品质。
因此,我们有实时/离线的实施方案,前提是现有监控摄像头的输出视频质量高(即QP38),视频可按需调取,满足某些对象与行为精准分析识别需求。针对实时监控应用实时实施方案,该方案在本地服务器增加特征实时提取与编码硬件,云端增加特征汇聚、实时特征解码器硬件;针对已存储的监控视频应用离线处理方案,该方案在本地服务器增加特征实时提取与编码软件,离线进行处理,云端增加特征汇聚、实时特征解码器软件。云端系统构建可直接基于特征码流、在特征码流上深度分析和前端简单识别+云端大数据搜索等模式。
作者简介
高文,中国工程院院士,北京大学教授,博士生导师,第十届全国政协委员,中国计算机学会理事长,第七届国家自然科学基金会副主任,国家智能计算机专题专家组组长。现任北京大学信息与工程科学部主任,数字视频编解码技术国家工程实验室主任,中国图象图形学会副理事长,中国软件行业协会副理事长,兼任中国网通集团宽带业务应用国家工程实验室首席科学家。主要研究领域为人工智能应用和多媒体技术,计算机视觉、模式识别与图像处理,手语识别与合成,人脸识别等。
预览时标签不可点