视频编码标准、优化和画质评估

2021年11月22日 阅读数:9
这篇文章主要向大家介绍视频编码标准、优化和画质评估,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

点击上方“LiveVideoStack”关注咱们算法

对于下一代编解码技术H.266/VVC标准,相比前一代H.265/HEVC标准,能够在主观质量不变的状况下节省约50%的码率。H.266/VVC标准以后是否还会有新的标准,若是有,可能涌现出哪些新技术?此外,在有限的码率下,如何设计高效的视频编码压缩方案,为用户提供最佳的视频画质体验。本次LiveVideoStackCon 2021北京站咱们邀请到了火山引擎资深研究员——刘明和火山引擎资深研究员——罗亚,两位老师分别为你们详细介绍视频编码标准中的新技术,以及对下一代标准的探索;火山引擎视频云在视频的自适应编码优化和画质评估方面的探索与实践,探讨如何高效地优化不一样内容视频的编码,在保证画质的前提下,尽量的节约视频码率。数据库


文 | 刘明,罗亚微信

整理 | LiveVideoStack网络


视频编码技术现状和展望app



你们好,我是来自火山引擎多媒体实验室的刘明,本次分享的题目是视频编码技术现状与展望。


所在的团队主要负责新技术的研发,包括参与H.266/VVC标准的制定,同时承担公司编解码器内核的研发。本次分享主要分为两个方面:H.266/VVC标准和传统编码方法外的探索。

1. H.266/VVC标准框架





第一部分主要介绍H.266标准与前一代的区别、特色;字节跳动在标准制定过程当中的贡献;字节自研的编码器。

1.1 H.266/VVC标准简介


H.266编码器与前一代H.265标准相比,你们最关心以及最重要的是压缩性能的提高,在主观质量至关的状况下,能够节省50%码率,比较大地节省了带宽成本。在它基础版本中增长了多个功能:屏幕视频编码、自适应分辨率、全景视频编码。


首先是屏幕视频编码,它不是一个新的技术。在H.265中已经对屏幕视频编码进行研究,但没有放在H.265的基础档次中,解码器角度对其支持不太友好。在H.266中,直接将屏幕视频编码相关技术放在基础档中,其中最重要的是intra block copy技术。上图中举简单例子,在这个屏幕视频中PPT的内容,两部份内容彻底同样,第二个块能够彻底使用第一个块的内容,因此它叫block copy,相似于帧间预测。这个技术能够有效提高屏幕视频编码效率。编码端运用其余技术例如基于哈希的运动搜索,对于屏幕视频编码也有很大帮助。


其次是自适应分辨率,它比较实用。在视频通话中网络可能会不稳定。在H.265标准中遇到网络差可能会损失画质,若是不改变分辨率只能压缩的更狠,损害画质;若是想要改变分辨率每每须要插入帧内编码的帧,其自己很是耗码率,没有特别好的解决办法。H.266中,直接支持自适应分辨率,当网络情况变差时,能够直接从高分辨率切换至低分辨率;若是网络情况转好,能够切回至高分辨率,以较好地适应网络。


最后是全景视频编码,它引入独立子画面编码(Independent subpictures)。上图的例子中每一个红色方格是一个独立的子图像,全景视频编码,观看者在每一个时刻看的是一个视野内,无需整个视频。例如看的是中间的两个子图,这两个子图的编码不依赖其余子图,编码和解码比较独立,便于在视角切换时切换到其余子画面,比较有效的节省带宽,不用像H.265标准须要编码器限制等实现,H.266直接在基础档次中支持。
另外在编码过程当中,H.266引入了Wrap around运动补偿技术,思想比较简单,若是图片左边的参考内容超出图像边界时,能够到图像右边取块。缘由是它是球面图,左侧和右侧的边界相邻,0度和360度,内容连贯,若是左侧参考图像超出图像边界,极可能跑到右侧。这样作运动补偿,效率比较高。

以上是H.266支持的特性,都是面对应用的。

1.2 字节跳动贡献介绍


刚刚介绍了H.266新特性,牵扯到编码性能技术不展开。在H.266制定过程当中,字节跳动从2018年下半年开始团队积极参与,贡献技术涉及不少方面。我罗列了一些。其中前两项技术是字节跳动主导提出的:一是基于历史信息的运动矢量预测技术;二是仿射变换自适应的运动矢量分辨率技术。右图是来自第三方的图,列了第三方的源,显示不一样公司在H.26六、H.265中的贡献,能够看出字节跳动在第三名左右,也是前五名内惟一没有参与过H.265标准制定的公司,取得成绩还能够。

1.3 字节视频编码器


所在团队除了新技术的预研,还承担公司编解码器内核研发,有多个彻底自研的编码器、解码器。咱们参加了去年MSU比赛,在多个指标中成绩不错,不少指标都排在第一位。关于解码器咱们有H.266,8K实时解码Demo,感兴趣能够看一下。

2. 基于深度学习的环内滤波器ide



除了传统标准以外,介绍基于深度学习的探索。H.266标准制定后,不少人会思考,还能不能有下一代标准H.267,如今在JVET社区有预研性质的探讨。一是传统编码,在H.266框架下继续研究新技术,与H.266标准相比有超过13%码率节省。二是基于深度学习的探索,很重要的缘由是视频内容很是复杂,有不少理论分析,大部分都是基于比较简单的几率分布假设去推导的,它能够给咱们定性的甚至是定量的指示,但没办法给到视频压缩的上限。基于深度学习的技术可以给出能够实现的上限。虽然离实际应用较远,但仍是会对传统技术研发有启发。


咱们在JVET社区中提过此提案,目前在此类技术中性能最优。我列出了其压缩性能,若是看三个通道的综合压缩比,自己能够节省16%码率。若是考虑传统编码已经有13%多一点的码率节省,加在一块儿能够达到约25%的节省,因此对视频编码技术继续预研有指导性做用,是否能在短时间内研发出下一代标准还须要你们继续探索。


上图列出了滤波器的结构,能够看到结构比较简洁,中间用了32层的ResBlocks,同时Resblock中引入了注意力机制。


另外一个特色,除了模型以外,咱们也引入了多个网络模型,每一个slice/CTU能够决定是否使用模型,若是使用,能够在模型列表中选择决定用哪一个模型。另外它还区分了高、低时域层帧,不一样的时域层运用不一样的可选模型列表。以上是主要技术的介绍,除了编解码方面,火山引擎在画质提高上也作了不少探索,在多链路上作画质分析。对于低质视频作质量提高、加强和修复,这些技术在多项产品中获得应用,通过海量视频检验,造成了一套智能处理的产品,若是你们感兴趣,能够来咱们的展台申请试用。

以上是个人所有分享。


视频自适应编码优化和画质评估svg



前面刘明主要讲解了编码标准和字节在编解码器方面所作的工做,我主要分享在自适应编码优化和画质评估这两方面作的工做。


首先将从以上四个方面来介绍相关的技术。第一个部分主要介绍基于感知优化的视频处理编码系统,随后具体介绍系统中一些相关的技术。第二个部分会讨论字节的画质评估体系以及自研的画质评估相关算法。

1. 基于感知优化的视频处理编码系统工具



首先是第一个部分 ,基于感知优化的视频处理编码系统。

1.1 端到端视频传输系统



首先想分享一下咱们端到端自研的传输系统。字节音视频技术包括火山引擎提供了对外的视频云服务,相关技术覆盖了从视频生产、管理到消费的整个生命周期。从生产管理到消费都有相关技术进行支持。生产端侧重在于如何帮助用户生成更多优质的内容,提供不少编辑相关工具;服务端对上传的视频进行进一步的画质加强以及高效的压缩,但愿在服务端在画质上有所提高;消费侧基于推荐系统、上下文信息等等进行智能分发,显示上作一些加强。整个过程当中,核心思路是但愿结合视频内容以及上下文的信息进行自适应感知优化,从而使用户的视频体验达到最佳。

1.2 基于感知优化的视频处理编码系统


本次想重点介绍的是服务端的视频处理编码系统,这个系统包含了上图中几个重要模块。

第一个部分是视频分析模块,它主要对视频内容、特征进行一些理解、分类及检测,为后面流程提供信息,作定制化优化。

第二个部分是视频处理系统,主要集成了一些视频的修复、加强算法,好比常见的超分、倍帧、降噪、锐化等等,能够有效提高视频的画质。
第三个部分是视频编码模块,除了以前有介绍的自研编码器之外还实现自适应的算法,可以对视频进行高效的压缩,在保证视频画质的前提下,尽量缩小视频的体积。

另外还有底层的异构计算平台用于支撑这些算法所须要的算力,会有CPU、GPU、FPGA、ASIC等工具。很重要的是在顶层有视频画质评估体系,能够帮助了解视频实际画质,对于在作相关算法设计时有评判标准,如何进行优化,决定算法是否能够上限。

画质评估也有不少用途,例如作一些大盘的画质信息统计以及相关单点诊断工做。

2. 字节自适应编码技术性能



接下来我会具体介绍系统中两个相关的自适应编码技术。

2.1 感兴趣区域(ROI)检测+编码


第一个是ROI编码,其基本原理是用户对显著性区域的视频质量比较敏感,但愿经过检测+编码来提高显著性区域的画质,以提高用户体验。ROI自己已经被普遍的研究和使用,但这强调的是字节有两个核心优点。
第一是ROI的分析模块,字节拥有很是丰富的视频内容,包括PGC以及带有各类特效、滤镜的UGC内容。咱们有资源建立了自研的多场景数据库用于算法训练,同时字节也有很是好的AI算法基础,叠加了自建数据库和有效AI训练。ROI检测达到了很高的准确率同时在性能成本上作了很是多的优化,在CPU上1ms每帧的处理速度,在GPU上3ms每帧处理速度,实现多场景覆盖。

另外一个优点是ROI编码算法集成在自研的高效编码器上,有很好的压缩性能。这个ROI编码技术可以达到很是好的效果,全面应用于字节的视频业务,不只取得带宽成本的收益,用户指标,包括平均观看时长等等也有显著的提高。

上图播放了检测ROI区域的信息视频。

2.2 内容自适应编码


第二个是基于内容的自适应编码技术,核心是但愿根据每一个视频的统计特性,选择最优的编码参数进行编码。这个技术包含两个主要模块:第一个是视频的预测模型,主要经过提取视频的内容特征以及基准线编码中得到了相关码流及画质信息,来预测每一个视频在不一样编码器以及编码配置下的码率和画质;第二个是再经过一套自适应的决策算法,根据视频的预测RD曲线以及上下文信息,选择合适的编码参数,生成最优的视频档位。

2.3 预测模型


上图展现的是预测模型的框架图,这个模型经过特征提取和预编码作视频RD曲线预测。优点有:一低运算复杂度,特征提取预编码是在较低的分辨率上面进行,速度很快,且能够支持多个分辨率、多种编码参数的预测,一入多出,一次提取得到全面结果;二高精度,采用了大量数据训练和屡次的算法优化迭代,作了视频分类,在每一个类别中单独设计模型,比较有效提高了预测模型的准确度。右侧图例就展现了某个视频的预测结果和实际编码结果。

2.4 总结


整体来讲,咱们的自适应编码技术已经造成了一套比较完善的体系,经过特征提取、预处理来进行码率质量预测,根据预测结果作相关决策,启动转码流程,整个过程能够有效的对视频编码进行优化。

算法的好处适用范围较广,能够与编码器升级迭代、业务上下文优化及智能播放策略等有效的叠加,产生比较好的收益。总体的码率和用户指标收益已经在字节的多个业务上得到的验证。它有一些衍生的应用,根据不一样内容的视频,进行定制化优化的核心思想被应用到了不少其余场景,上文提到的是点播服务端的场景,更多的是支持抖音、西瓜转码业务,核也被用到了上传端的合成编码、图像自适应编码以及直播的推流转码优化中,取得比较好效果。

3. 字节画质评估体系



接下来介绍一下字节的画质评估体系。


图表概述了咱们整个评估体系的状况。从能力上来讲,咱们设计了多种画质评估相关算法,能够从多个维度对视频画质进行评测,同时实现了功能比较完善的评测平台作自动化的画质评测数据输出,也创建了线下测评实验室进行各类专家测试并集成了线上统计系统,对大盘数据比较有效的统计。在应用场景上,画质评估来断定转码算法加强算法是否上线标准、算法调优也能够根据评估结果进行,对大盘进行统计、对单个视频进行诊断修复。从测试方法上来讲,咱们支持客观评测、线下专家评测以及用户众测,也有完善的线上AB实验系统。

3.1 字节画质评估算法


介绍一下刚才提到的细节,咱们开发多种画质评估算法,常见的有参和无参,有参的指标集成了业界普遍集成的如PSNR、VMAF等指标。无参自研的算法有VQScore、用于作画质评估。在指标上还支持多维度细指标。上图中,举了一些简单例子:对视频进行美学评估、对噪声进行评测、对色彩进行评测等。另外一个比较重要模块是还有检测分析工具,不只仅纯粹从画质角度,也但愿对内容进行了解,有一些特色类型例如三明治、伪高清的视频的检测等。这是评估算法上作的工做。

3.2 字节画质评测平台

3.2.1 评测实验室/客观评测/监控


评测平台主要展现的是提到过的线下实验室作主观专家评测,同时也有线上客观评测平台作自动客观数据统计,咱们有大盘统计系统,关注线上实时画质状况。

3.2.2 主观评测


另外评测平台比较重要的部分是咱们有完善主观评测平台,支持了在PC端 、安卓、IOS多种平台、多种展现模式,多种打分机制如传统的MOS和对比打分方法并集成自动数据分析的能力,采集结果很快在后台有很是完善数据的统计。

4. 字节自研画质评估算法



最后介绍自研的画质评估算法。

4.1 建立主观标注数据集


画质评估算法,最大的一个痛点就是主观标注数据集,之前的主观标注依托于学校实验会去作线下评测,自己主观实验很是耗时耗力。而在这方面,咱们有多方面的优点,包括丰富的视频内容包括UGC视频上覆盖特效贴纸等,从视频形态上例如上图展现的三明治视频有各类编辑工具产生的特定视频,UGC内容常会有多样化失真内容,例如暗场景失真,经过字节会有比较丰富视频内容。咱们有成熟的主观评估工具以及专业的标注团队支持,建立了多个主观数据集,不只覆盖多场景、多种应用,点播直播场景,能够作多种细指标标注。不只仅是简单打分,还对具体噪声或是伪高清问题进行分析。咱们的数据集里尽量覆盖了各类特性的视频。

4.2 画质评估算法开发VQScore


算法训练上,使用了常见的预训练的特征网络,在公开以及内部的多个数据集上进行联合训练和调优,最后获得较好的效果。算法上也进行屡次迭代,包括针对特定场景进行训练优化,开发出的模型会有通用以及用于特定场景的模型。

4.3 VQScore性能验证


这里展示了算法性能。咱们的算法在公开或内部的数据集上验证过有比较稳定的表现。在一样的公开数据集上与其余算法对比,也得到了最好性能。咱们参加了ICME2021的主观UGC画质评估比赛,其中无参算法画质评估,得到赛道的第一名。

以上就是本次主要分享探讨的主要技术,谢谢。



讲师招募

LiveVideoStackCon 2022 音视频技术大会 上海站,正在面向社会公开招募讲师,不管你所处的公司大小,title高低,老鸟仍是菜鸟,只要你的内容对技术人有帮助,其余都是次要的。欢迎经过 speaker@livevideostack.com 提交我的资料及议题描述,咱们将会在24小时内给予反馈。

喜欢咱们的内容就点个“在看”吧!

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。