详解实时互动中VQA视觉质量评估的技术原理
在实时互动场景中,视频画质是影响观众体验的关键指标,但如何实时评价视频的画质一直是个行业难题,需要将未知的视频画质用户主观体验变成可知。其中声网在探索符合实时互动领域的视频画质评价方法上取得了一定的成果,在2022年正式推出了业内首个可运行于移动设备端的视频画质主观体验MOS分评估模型。利用先进的深度学习算法,实现对实时互动场景中视频画质主观体验MOS分的无参考评价。我们把这一评价体系称为声网VQA(Video Quality Assessment),接下来将以声网VQA为例,解析下VQA背后的技术原理。
声网VQA是一套 “评价主观视频质量体验” 的客观指标,在声网VQA推出前,业界对于视频质量的评估已经有两种方法。第一种是客观的视频质量评估,这种方法主要应用在流媒体播放的场景中,并根据原始参考视频提供信息的多少来进行质量评价。第二种是主观的视频质量评估,传统的方法主要依赖人工观看视频并打分,虽然能一定程度上直观反映观众对视频质量的感受,但这种仍存在耗时费力、成本较高、主观观感存在偏差等问题。
以上两种传统的视频质量评估方法都难以适用于实时互动的场景,为了解决以上问题,声网构建了大规模的视频画质主观评估数据库,并在此基础上训练了业内首个可直接在移动端运行的VQA模型。它利用深度学习算法实现对实时互动场景接收端视频画质主观体验MOS分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大提高视频画质评估效率,使实时的视频质量评估成为可能。
简单来说就是声网建立了一个视频画质主观评分的数据库,再通过深度学习算法建立了一个算法模型,并基于大量视频对应MOS分的信息进行训练,最终运用到实时互动的场景中,实现视频画质主观MOS分的精准模拟。
这其中的难点如下。
1) 如何收集数据集,即如何量化人对视频质量的主观评价。
2) 如何建立模型,使该模型能够运行在任何接收端,实时评估接收端画质。
声网首先建立了一个画质主观评估数据库,并参照ITU(国际电信联盟标准)搭建了一套打分系统,用于收集评分员的主观打分,然后进行数据清洗,最后得到视频的主观体验MOS分。
为了保证数据集的专业、严谨与可靠,声网首先在视频素材整理阶段,做到视频内容本身的来源丰富,避免评分员打分时的视觉疲劳。同时,在画质区间上尽量分布均衡,避免在有些画质区间的视频素材过多,有些画质区间的视频又过少,这样对后续打分的均值会有影响。
其次,为了更符合实时互动场景,声网数据集的设计非常严谨,覆盖了多样化的场景视频损伤失真类型,包括暗光多噪点、运动模糊、花屏、块效应、运动模糊(摄像头抖动)、色调、饱和度、亮点和噪声等。打分指标也设置了1~5分,以0.5分为一个画质区间,每个区间精确0.1,颗粒度更细并对应了详细的标准。
最后,在数据清洗阶段,声网依照ITU标准成立≥15人的评分员组。先计算每个评分员和总体均值的相关性,剔除相关性较低的评分员后,再对剩余评分员的评价求均值,得出最后的视频主观体验MOS分。虽然不同的评分员对于“好”和“坏”的绝对区间定义,或者是对画质损伤的敏感程度都不尽相同,但是对“较好”和“较差”的判断还是趋同的。
收集完数据,接下来需要基于数据库通过深度学习算法来建立视频主观体验MOS分评估模型,使该模型能够取代人工评分。由于在实时互动场景下,接收端无法获取无损的视频参考源,因此声网的方案是将客观(非主观)的VQA定义为接收端解码分辨率上的无参考评价工具,用深度学习的方法监控解码后的视频质量。
未来,VQA还有很长的路要走,例如用于模型训练的VQA数据集,多由时长为4~10s不等的视频片段组成,而实际通话中需考虑近因效应,仅通过对视频片段线性追踪、打点上报的方式,或许无法准确拟合用户整体的主观感受。下一步还可以计划综合考虑清晰度、流畅度、互动延时、音画同步等,形成时变的体验质量评价方法。