实时互动系列标准及工具扩展

实时互动音视频通用标准：形成通用实时音视频通信能力和用户体验测评框架、覆盖音视频体验、主客观测评、网络适应能力、结合实际应用，建立多重网络模拟场景贴合用户体验，覆盖端到端体验的评价，引入声网自研语音、视频质量算法。

声网视频体验质量测评标准

适用于利用声网SDK开发并通过声网视频认证标准要求的软件应用程序

规定了实时互动软件应用程序的技术要求和测试方法，以评估实时互动软件对视频体验的影响，并帮助开发者全面深入地了解应用程序的视频性能，特别是实时互动中视频信号的处理能力。

声网音频体验质量测评标准

适用于通过声网软件应用音频体验标准的软件应用程序，通过电接口进行测试并获得测试结果。

规定了内置声网SDK的应用程序音频体验质量的测试方法和技术要求，帮助开发者全面深入地了解应用程序的音频性能，特别是实时音频通信的音频信号处理发能力。

视频终端硬件性能

适用于符合声网视频认证标准要求以及申请声网认证的硬件设备。

规定了内置声网SDK的应用程序的硬件设备在各种不同互动场景下视频体验的技术要求和测试方法，使制造商和算法提供商能够实现高性能的端到端视频质量。

音频终端硬件性能

适用于符合声网音频认证标准要求以及申请声网认证的硬件终端设备，可用于内置声网SDK的成品软件性能评估验证，需要在不同典型设备和常用的操作系统下进行验证。

规定了内置声网SDK的应用程序的硬件终端设备在各种不同互动场景下声学音频性能的技术要求和测试方法。

通用标准体系的特点和适用范围

实时互动场景标准聚焦在成熟的视频会议和可视门禁的创新场景上，这两个场景标准也得到了声网生态伙伴的大力支持

视频会议

视频会议是大家耳熟能详也是使用非常高频的实时互动应用场景之一。在企业数字化转型的大背景下，协同办公平台成为B端流量的超级入口，而视频会议作为降本增效的重要工具是其中最不可缺少的组成部分。但同时，会议场景也是实时互动应用里面最具技术挑战的场景，如部署环境和端的多样性、声/光学/网络环境的复杂性、多人并发、屏幕共享协作等。声网是实时互动行业的开创者和领导者，作为数字化音视频底座支撑大量行业头部客户自己研发了专属的会议应用。在此过程中积累沉淀了会议的体验质量测评标准，希望可以借此次标准的发布推动和指导会议体验服务更加规范完善，为客户从定义体验指标到测试体验指标提供参考依据。

本标准内容主要包括测试项、测试方法和测试结果三部分，围绕部署方式、端侧平台兼容性、高并发、音频/视频/屏幕共享的功能和抗弱网体验等测试项展开测试。

可视门禁场景

可视门禁（智能门铃、门锁等）是IoT行业最为普遍的智能硬件，然而一直以来绝大部分品牌厂商将重点放在功能的完善上，对于用户体验，特别是音频和视频相关的体验还没有关注，也没有定义的经验。声网IoT用户体验质量标准将声网在音视频领域的长期积累落地到IoT行业，提高了门铃、门锁标准的完整性。同时该标准还适用于社区楼宇对讲系统，包含硬件主动呼叫和手机端主动查看两个场景，多维度定义用户关心的体验指标。门铃门锁体验标准的建立有助于推进IoT行业的体验规范，帮助品牌厂商从定义体验指标到测试体验指标提供参考依据。

本标准涵盖了场景定义、测试项和测试方法三个部分，包含了弱网环境设置、首帧出图时间、断连重连速度、音频、画质等多个方面。

实时互动工具扩展

VQA2.0 基于深度学习的方法，预测人对给定视频的质量评分（MOS，mean opinion score）。VQA属于深度学习回归任务，在模型训练阶段，每条视频的MOS分标定均由25人的opinion产生（ITU标准规定大于15人）。

在模型预测阶段：

	详情
输入	视频文件（支持.mp4/.mov/.avi/.yuv等格式）
输出	质量得分，范围在[1,5]区间内，精确到0.1

操作说明 https://agoramedialab.com/videoTools
同时支持：上传单个文件/上传文件夹两种方式，报告可批量下载
分值解读：
1-5分代表主观体验如下：

分数	体验	量化
5	Excellent	体验很好
4	Good	可感知，但不影响（体验）
3	Fair	轻微的影响
2	Poor	有影响
1	Bad	非常影响

1）单条视频的主观匹配度
由于视频质量感知存在主观性，作为训练标签的MOS或可与您的个人感知存在一定差异，因此建议将VQA±0.3作为预测区间。如您个人给出的评价不在此区间内，欢迎上报问题。
2）一组视频序列的排序一致性
VQA或许在存在细微差别的相同视频内容序列之间，不能取得和主观评价完全一致的排序。如遇此类场景，欢迎上报问题。

场景限制：
受所收集数据内容的限制，目前VQA支持/不支持的范围如下表所示：

类目	区别说明	支持	暂未支持
解码分辨率	区别于渲染分辨率（有缩放拉伸），不同的设备/播放窗口大小会造成主观评分的显著差异	仅支持评估固定以原始尺寸播放的视频，该解码分辨率由ipad（或与其ppi近似的一类设备）定义	暂不支持手机/TV端暂不支持缩放
空间维度	主要评估编解码和传输过程带来的损伤。	主播场景下的画质清晰度	不支持CG内容，例如：１、会议或教学场景中的PPT内容。２、游戏录屏。３、录屏内容中，只有局部区域是待评价的视频内容。
时间维度	/	建议单个视频时长为4-8ｓ	如视频过长应采取分段打点。暂不支持评估时域（卡顿、丢帧等）损伤。

声网参与标准：

国标《信息安全技术—网络音视频服务数据安全要求》
团标《智能可穿戴设备安全儿童电话手表安全技术要求和测试评估方法》
团标《软件开发包（SDK）个人信息处理规范》
团标《电信和互联网个人信息保护能力审计规范》
团标《智能手表用户权益保护测评规范》
团标《智能电视用户权益保护测评规范》
团标《应用分发平台APP审核规范》
团标《电信和互联网个人信息保护保障能力评估规范》
团标《移动应用分发平台个人信息保护保障能力评估规范》
团标《移动应用分发平台 APP个人信息保护自动化检测实施指南》
团标《移动应用安全平行切面技术指南》
团标《移动应用程序（APP）服务感知提升测评规范》
团标《小程序个人信息保护规范第1部分：申请授权行为》