编解码再进化:Ali266与下一代视频技术

2021年11月22日 阅读数:5
这篇文章主要向大家介绍编解码再进化:Ali266与下一代视频技术,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

过去的一年见证了人类千载难逢的大事记,也见证了多种视频应用的厚积薄发。而所以所带来的视频数据量的爆发式增加更加加重了对高效编解码这样的底层硬核技术的急迫需求。正是在这样的大环境下,在ITU-T VCEG和ISO/IEC MPEG两大标准组织再次联手推出的最新视频编解码标准VVC定稿不久以后,阿里巴巴的视频团队开始全力投入开展VVC软件编解码的开发工做。本次LiveVideoStackCon2021北京峰会咱们邀请到了阿里巴巴研究员,阿里云智能云视频标准与实现负责人叶琰老师来分享视频业界现状、Ali266自研VVC编解码器的技术演进史和业务展望、以及视频业界所面临的将来机遇和挑战。算法


文 / 叶琰
整理 / LiveVideoStack
 

你们好,我是叶琰,我是阿里云智能视频标准与实现团队负责人。本次分享的话题是编解码再进化:Ali266与下一代视频技术。


本次分享分红四个部分:首先是视频业界现状、而后Ali266自研VVC编解码器的技术演进史和业务展望,最后会从视频业界角度来看所面临的将来机遇和挑战。


01缓存

视频业界现状微信


不夸张的说,过去一年和如今所经历的新冠疫情是人类千载难逢的大事。疫情打断了正常生活节奏和人与人之间习惯的面对面交流模式,改变了很是多游戏规则,同时触发了先进视频视频科技产品的厚积薄发。全世界疫情状况各有不一样,中国属于疫情控制很是好的国家,所以人民平常生活基本照常,可是在疫情较为严重的国家和地区,因为受到疫情影响,人们的生活和工做发生了天翻地覆的变化。

这些变化包括几个方面。首先不管是工做上的交互从线下转到线上,大量使用云会议,拿钉钉的视频会议来说,到今天累计天天用户时长超过了一亿分钟。另外,受疫情影响比较严重的国家和地区过半员工在家办公,在家工做中经过远程协同进行,和以前所习惯的面对面交流有了很大变化。不光是工做,人们的娱乐也从线下转到线上,拿美国来说,在过去一年多电影院关门,虽然从今年夏天开始营业,可是看电影的人寥寥无几。你们的娱乐生活主要依赖于家庭影院,包括明星也从线下转到线上演出,经过线上交互方式与粉丝进行互动。
 

从视频业界的角度来讲,咱们在过去的一年见证了很是重要的里程碑,就是H.266/VVC新一代国际视频标准的定稿。VVC标准是从2018年4月正式开始标准化,通过两年多时间,在2020年夏天达到Final Draft International Standard,也就是初版的定稿。VVC在整个两年多的旅程中,尤为最后半年,受到疫情影响,来自全世界各地近300名的视频专家日夜颠倒的参加经过网会的形式开展技术讨论,终于如期完成H.266/VVC新一代标准制定。


与以前每一代国际视频标准相似,VVC相对于上一代HEVC标准带宽成本减半。上图表示VVC主观性能测试结果,这里展现的是VVC参考平台相比于HEVC参考平台,在相同主观质量的前提下,VVC所能作到的带宽节省。这里面的视频内容分为5类,前两列为UHD和HD,也就是超高清和高清视频,咱们能够看到VVC的VTM参考软件相比于HEVC的HM参考软件能够达到43%到49%的带宽节省。对于HDR和360全景视频这两种更加新颖的视频格式,VVC能够作到更高的带宽节省,分别达到51%到53%。最后一列是针对于低延时应用的测试,也就是使用视频会议上所用的时域预测结构,因为预测结构收到了更多的限制,VVC所能达到的带宽节省稍小,但也达到了37%,至关可观。篇幅有限,这里面只是展现了高度总结的数字,若是读者对中间细节感兴趣,能够去查一下JVET标准委员会T/V/W2020三个会议中主观测试集报告,其中有很是多的细节可供参考。
 
在视频爆发和最新标准VVC定稿的背景下,阿里巴巴开始了Ali266技术开发。首先看一下Ali266技术演进史。


02网络

Ali266技术演进史数据结构



什么是Ali266? 咱们但愿它作到什么? Ali266是咱们对最新标准VVC进行编解码实现,第一点但愿作到高压缩性能,拿到VVC所带来的带宽节省红利; 第二点是高清实时编码速度,相较于HEVC,VVC编码工具更多,保持实时编码速度对于真正商用来讲具备巨大的意义; 第三点是让Ali266具备完整的自成一体的编解码能力,更好打开端到端的生态。 作Ali266是但愿实现上述三个很是有挑战的技术点,作到技术领先性,转换成产品竞争力,并帮助咱们进行业务拓展。



上图展现了众多的VVC编码工具。 我这里把传统的视频编解码框架中的主要功能模块分红几类,包括块划分、帧内预测、帧间预测、残差编码、变化量化、环路滤波、以及其余编码工具。 上面的蓝色圆圈是HEVC的编码工具,下面的紫色圆圈是VVC的编码工具。 咱们能够看到,在相应的功能模块中,HEVC只有三四个相应编码工具,而VVC支持更加丰富的编码工具集,这也是它可以有强大的压缩能力并拿到带宽节省红利的主要缘由。
 

编码工具都具备必定的复杂度,所以每增长一个编码工具都会相应带来复杂度和性能的上升。 上图是JVET标准委员会在VVC标准开发期间跟踪的每一个编码工具带来的复杂度和能提供的编码性能的全面概览图。 这个图中横轴是时间,纵轴是编码性能的上升,不一样颜色点对应于不一样的VVC编码工具。 其中横轴越往右至关于一个编码工具的复杂度越低,纵轴越靠上说明编码工具带来的性能越高。 所以咱们但愿编码工具落在右上角,但其实从图中能够看到,VVC编码工具基本上在右上角一片空白,更多的编码工具可以带来1%、1.5%的性能增益,可是也有小幅的复杂度上升。 这对于作编码器优化提出挑战,由于并不能只要抓住几个主要的编码工具进行优化就能够, 而是要在丰富的编码工具集中 ,针对当前的输入视频可以快速准确选择应该使用的编码工具,这是作H.266编码器的主要优化难点。

上图右边的表展现的是在咱们软编系统对不一样编码工具耗时比进行profile,相应于左边的图,再一次验证40%的编码工具的耗时都很少,只占了2%左右,但都提供性能,因此咱们必须决定如何去选择。另外,92%的编码工具的耗时都不到10%,对整个工程算法上的优化提出挑战。
 

这图里面展现的不光是H.266编码器优化所受到的挑战,而是任何一个实时编码器都会受到的挑战。 由于在视频编码过程当中,都要经历压缩性能上升、编码速度降低的拉锯战,因此咱们要作的是克服这个拉锯战。 若是咱们对比VVC参考平台VTM相比于HEVC参考平台HM,虽然带宽减半,可是VTM的编码速度只有HM编码速度的八分之一,这是对实时编码是不能接受的,因此接下来我主要讲一下Ali266所进行的优化。


咱们主要从两个维度对优化工做进行介绍,首先是编码质量(编码性能)的优化。
 

咱们在编码质量和性能的保持上作了不少工做。因为篇幅有限,我只介绍一个例子,这里我选的是预分析、前处理、和核心编码工具的联合优化例子。预分析选的是场景切换检测,作编码器的同窗都知道每一个商用编码器可以进行精准的场景切换检测很是有必要;前处理选的是MCTF过程,下文会简单介绍一下MCTF是什么;核心编码工具选的是VVC的新编码工具LMCS。


这个是关于MCTF前处理过程的一个简介。 MCTF是motion conmpensated temporal filtering的意思,它是经过逐层运动搜索和运动补偿对输入视频信号进行时域上滤波,经过双边滤波器作时域上的滤波,能够进行有效的进行视频降噪,而且降噪在时域上发生的同时在空域上也起到降噪的效果。 MCTF能够有效提高编码效率,正是由于如此,VTM和VVEnc(VVC的开源编码器)平台上都有支持MCTF这个前处理过程。
 

那么咱们看一下场景切换和MCTF如何进行结合。 上图展现编码器在浅黄低时域层视频帧上进行MCTF,因为MCTF要使用时域上的运动补偿和搜索,每一个浅黄色的帧都有相应的浅灰的帧做为MCTF的参考帧,而浅蓝色的帧与MCTF没有关系。 因为有时域参考的关系,所以遇到场景切换时须要对MCTF进行修改。 咱们能够看到,在正常状况下,第八帧是MCTF帧,它的先后两帧共四帧是MCTF参考帧。 遇到场景切换状况,好比在第十帧遇到场景切换,原本第十帧是MCTF参考帧,可是因为场景切换,第十帧会变成新的I帧,它的时域层相应降低,原来的MCTF滤波帧和MCTF参考帧必须进行调整,也就是浅黄色和浅灰色的帧会有调整。 上下对比能够看见,由于场景切换,第八帧的MCTF参考帧调整为它的前三帧和后一帧,而第十帧变成MCTF滤波帧,其使用的MCTF参考帧为它的后四帧。


看一下场景切换和LMCS如何进行结合。 LMCS是VVC中的新编码工具,须要编码器进行相应的参数计算,经过APS进行传输,这里LM指的是luma mapping,调整亮度信号动态范围,让亮度信号更加充分利用动态范围,好比说8bit是0-255动态范围、10bit是0-1023动态范围。 因为在LM过程当中对亮度信号进行调整,须要进行CS过程,也就是chroma scaling,对同一个块里面的色度信号作相应的调整,来补偿亮度信号调整对色度的影响。

此工具和场景切换如何结合呢?用刚才那个例子,第十帧发现有场景切换,是新I帧,新场景的动态范围可能彻底不同了,所以会在新的I帧上判断是否须要进行LMCS参数更新,并且在相应的GOP预测结构改变后,新的帧会变成新的低时域帧,好比第26帧在GOP16状况下变成低时域帧,那么咱们会对运动是否比较剧烈进行判断,若是运动剧烈,在低时域帧上也须要进行LMCS参数更新。
 


经过这样的优化,场景切换+前处理MCTF+LMCS联合优化可以拿到什么样的性能呢?若是视频至关长,包括一次以上场景切换,若是单独与LMCS一块儿优化,能够达到2%的带宽节省;若是单独与MCTF一块儿优化,能够达到2.1%的带宽节省;若是三个同时进行优化,能够将性能完美叠加,获得4.1%性能增益。多线程


若是一个视频中场景切换至关频繁,达到2次以上,表中能够看出有进一步性能提高,从单独优化分别达到2.1%和2.9%,到三者同时优化拿到5%性能增益。
架构


若是还有更加频繁的场景切换,那么这个联合优化的红利会更多,和LMCS进行结合,能够达到3.6%;若是与MCTF结合,能够达到3.2%;若是三者一块儿联合优化,能够获得6.8%的性能增益。你们作编码器的同窗都知道,6.8%的性能至关可观,而咱们能够经过预分析、前处理和核心编码工具的联合优化的方法拿到。



刚才主要介绍的是编码质量性能的优化,接下来会从第二个很是重要的维度去看怎样进行编码的速度优化。


首先看一个示例。 VVC很是有表明性的新工具是灵活的块划分结构,上图对比VVC和HEVC对同一个场景的划分对比,VVC是左边,HEVC是右边。 在同一场景下,VVC经过更加灵活的块划分能够更加好的对物体轮廓进行描述。 咱们看一下放大图。 拿HEVC来说,因为只支持四分树划分,因此每一块都是正方形的。 VVC容许更加灵活的在水平方向、竖直方向进行二分树(binary tree,BT)或三分树(ternary tree,TT)的划分。 二分树和三分树统称为MTT(mutli-type tree)。 对比左边的放大图和右边放大图,经过长方形划分,VVC对于手指描述更加精准。


虽然VVC用了更多的块划分方法获得更加好的物体轮廓描述,可是给编码器带来的困难是编码器须要尝试更加多的选择,所以怎么样加速MTT划分的决定对提高编码速度很是重要。这里咱们使用了基于梯度的MTT加速概念。若是一个块的纹理变化是在水平方向上比较剧烈,那么在水平方向进行划分的可能性就会下降,竖直划分也是同样的道理。若是拿水平作例子,基于这个观察,对于每一个块进行块划分的具体决策以前先会计算四个方向梯度,包括水平方向梯度、竖直方向梯度、和两个对角线上的梯度。拿水平方向来说,若是我发现水平方向梯度大于另外三个方向梯度,超过必定阈值,就说明当前块在水平方向的纹理变化比较激烈,所以编码器将再也不进行水平的BT和TT的决策,加速编码时间。


咱们能够看到,这个技术的加速效果从绝对帧率、编码器速度衡量来看,能够作到14.8%的提高,这个提速百分比至关可观。 固然,由于跳过了一些块划分的决策会形成性能降低,可是由于性能损失只有0.4%,从总体加速与性能性价比来讲,这个是很是完美的快速算法。


咱们有其余很是多的优化工做,因为篇幅关系不一一多述。我来作一个Ali266编码器小结。如今Ali266支持两大档次:Slow档次,主要适用于离线应用,对标x265 veryslow档次,Ali266 Slow档次的编码速度和x265 veryslow同样,同时相比起x265 veryslow档次能够达到50%的码率节省,也就是带宽减半。同时Ali266还支持对于商业化来讲很是重要的Fast档次,对实时编码速度要求严格的商业应用,能够作到720p30帧每秒实时编码,在VVC编码器速度业界领先,对标的实时应用,与x265 medium档次相比,作到40%码率节省,是很是大的带宽红利。从编码速度来讲,咱们并无停留在720p30,还在继续开发2k和4k、8k超高清视频实时编码能力。另外,在准备这次的分享过程当中,Ali266已经作到了2k,也就是1080p30帧每秒的实时编码能力,增长了咱们挑战超高清实时编码的信心。咱们后续持续推动Ali266的主要目标是继续保持VVC的性能优点,加速VVC商业落地。
并发



讲完编码器,我接下来说一下解码器,由于咱们以前讲到,开发Ali266的主要目标之一是提供完整的VVC编解码能力。 解码器设计目标从商用角度来讲有如下几个,首先是实时解码速度,甚至比实时更快; 其次是须要解码器很是稳定鲁棒; 而后是thin decoding的概念,但愿解码器比较轻。 为了实现这些设计目标,咱们从4个方面进行了优化,其中一个很是重要的维度就是从零开始。 这个是说咱们抛弃了以前全部的开源或者参考平台的架构设计、数据结构设计,从零开始,按照VVC标准文档开始进行彻底全新的数据结构和框架设计,在设计过程当中使用了你们比较熟悉的加速办法,包括多线程加速、汇编优化、内存和缓存效率优化等。 经过这四个维度来提高Ali266解码器的性能。


上图罗列了从四个维度上Ali266解码性能。 从速度来讲咱们比较关注低端机(让VVC有普惠概念),而后在低端机测试上咱们发现Ali266只须要三个线程就能够作到720p的实时解码,因为线程占用率较低,能够有效下降CPU占用率和手机的功耗,对于实际商用是至关有利的指标。 从稳定性的角度来讲,咱们进行了多款苹果手机和安卓手机的测试,覆盖了两大移动端操做系统,而且全面覆盖高中低三档移动端设备来保证稳定性。 从鲁棒性来讲,咱们使用了上万条错误码流来冲击Ali266解码器,保证其在不管是slice之上仍是slice之下的出现错误,都可以有完美的快速错误恢复机制。 最后,正是因为咱们从零开始,才能在thin decoder上给出一个满意的答案,咱们的Ali266解码器包大小不到1MB,并且在解码高清720p的时候,内存使用只须要33MB。

我来作了一个Ali266解码器的小结。从当前性能来讲,Ali266的解码速度、稳定性、鲁棒性、decoder footprint等指标均达到设计目标和商用要求,下一步咱们但愿对VVC进行Main Profile的全方位支持,主要指的是10-bit解码的全面支持。另外,咱们也会全力进行播放器生态的完善化,与Ali266编码器相配合,加速VVC商业落地。
app


031框架

Ali266业务展望


既然以前咱们屡次提到了商业落地,接下来看一下对Ali266的业务展望。


首先来看VVC标准层面两到三年的落地展望。与HEVC和以前的H264同样,VVC是个通用标准,所以能够全面覆盖多种视频应用,包括点播、视频会议、直播、IoT视频监控等已有的视频应用。还有不少新兴视频应用在兴起中,包括全景视频、AR、VR、以及最近很火的元宇宙,这些应用也须要视频编解码的技术底座,所以对于这类新兴应用,VVC标准也有普适性。


那么咱们再来看一下Ali266的应用展望。咱们从阿里集团内开始,这里列了四点:优酷、钉钉视频会议、阿里云视频云、淘宝。在整个如何推动Ali266应用上我我的的看法是会从闭环应用走到开放应用。为何是这样的逻辑?缘由在于闭环业务下端到端可控性更强,在新标准生态还不够完善的时候能够经过闭环方法打通,这里面优酷和钉钉视频会议是比较完美的闭环业务示例。在闭环打磨了Ali266,而且走通从内容到播放的总体链路后,咱们再去应对开放应用会更加ready,更加成熟。咱们开始推动大规模开放应用的时候,VVC会有比较全面的移动端和端上硬解支持,那也将是真正大规模展现VVC标准压缩力的时候。


刚才讲到优酷,这里我与你们介绍一下优酷帧享,就是艺术家与科学家联手打造的超高清视听体验。它依赖了几大很是重要的超高清技术指标,中间包括高帧率,60帧到120帧每秒的高帧率,从空域分辨率角度来讲,4K-8K都在帧享范围内,动态范围来讲帧享彻底支持HDR高动态范围对比度和宽色域。并且,有影必须有音,优酷帧享还包括对3D环绕音效的支持。


另一个优酷很是新颖的应用是优酷自由视角,它主要支持Free ViewPoint Video(FVV),FVV提供给用户很好的Feature,由于它传递的视频格式是全景视频,用户能够本身用手在屏幕上进行滑动选择本身想要观看视角,从不一样角度自由选择本身想看的内容,优酷的自由视角在CBA重大赛事以及《这就是街舞》大型的综艺节目里都有支持。


来看看Ali266可以给优酷带来什么样的价值,如何助力帧享分辨率提高、帧率、动态范围提高。VVC标准带来的带宽红利在HDR视频上超过50%。对于帧享8k120帧HDR超高清体验是有很是好技术支撑。全景视频自由视角方面,因为VVC原生支持360全景视频,可以更好的提高主观质量,帮助优酷在这方面孵化新业务。另外,以前虽然没有提到,可是VVC和HEVC同样,也有Still picture profile,所以能够帮助静态图片节省带宽和存储,所以优酷缩略图、封面图静态的场景也能够完美用到Ali266强大压缩能力。目前咱们团队已经与优酷在进行深度合 做,但愿在不久的未来给你们汇报Ali266落地优酷的结果。
 

04

后VVC时代的机遇和挑战


刚才讲了在过去一年中发生的事情,接下来看一下在后VVC时代视频业界看到的机遇和挑战。


这里分为两部分,技术和应用。从技术角度来讲,每一代标准主要都在追求更高的压缩率,所以VVC并非终点。在对更高压缩率的探索上,包括在传统编解码框架下进行探索以及在AI技术支撑下对视频编解码框架和工具集的探索。从应用的角度来讲,简单看一下新兴应用AR、VR、MR、云游戏、元宇宙这几个新兴应用在后VVC时代提出的机遇和挑战。
 
更高的压缩力:框架之争


技术层面为了追求更高的压缩力,如今到了时间去看一直以来视频编解码标准所使用的框架在下一代是否会继续使用。左边是一直以来几代视频标准以来的手工打造的视频编解码框架,包括不一样的功能模块,块分割、帧内帧间编码、环路滤波等。右边是全新Learning based的框架,彻底经过AI方法学习,对于encoder、decoder经过全神经网络进行实现。


在传统框架下,JVET标准委员会最近设立了ECM(enhanced compression model)的参考平台,用于探索下一代编码技术。当前ECM版本是2.0,这个表中对比了ECM2.0与VTM-11.0的压缩性能,能够看出在亮度信号上ECM2.0已经能够作到14.8%的性能增益,色度信号上有更高的性能,encoder 和decoder复杂度也有必定上升,不过如今主要是推动压缩力,复杂度不是现阶段最关心的维度。ECM基于传统框架,大部分工具是以前开发VVC的时候已经看到过的,通过进一步的算法迭代和打磨,获得14.8%的性能增益。


AI编码的情况分红两部分: 端到端的AI、以及工具集的AI。 刚才的示例图显示,端到端的AI与传统框架彻底不同,采用全新框架。 以今天端到端AI能力来讲,在单张图片的编码性能能够小幅超过VVC,但若是考虑真正视频编码, 也就是把时域维度也考虑进来,端到端AI的性能仍是比较接近HEVC,还有必定进步的空间。另外AI技术还能够用来作工具集AI,在不改变传统框架的前提下,在某些功能模块上开发AI编码工具 ,用以替换或叠加在已有传统编码工具之上,提高性能。 这部分比较多的例子是帧内编码和环内滤波工具。 拿今天来讲以咱们所知,基于多神经网络模型的NNLF环路滤波技术相比VVC,性能增益能够达到10%。


AI视频编码有其本身挑战,分为三个维度。

第一个挑战是计算复杂度,由于如今咱们主要仍是参数量换性能增益的概念,最近看到Google 的paper给出量化的指导,若是一个AI工具能够提供个位数的性能增益,那么但愿这个工具的参数量控制在50K的数量级上。今天不少AI工具的参数量在500k到1兆左右,仍是与目标参数量还有数量级的差别,须要简化。另外,计算复杂度同时也包括须要考虑参数定点化,运算量尤为是乘法运算量这些维度。

第二个挑战是数据交互量,尤为是工具级AI与传统编码器的其它功能模块可能有不少像素级的交互,不管是帧级仍是块级发生,对于编解码吞吐率都是很大的挑战。现现在所看到的性能较好的工具都依赖多神经网络模型,多NN模型须要模型调换,在模型参数量比较大的时候,调换模型所产生的数据交互量也对吞吐率提出挑战。

第三个挑战是移动端解码,你们手机看视频是很广泛的行为,如何在移动端作好解码,我的认为因为上面说到的数据交互量的缘由,经过作解码器+外置NPU的方法不太可行,若是要作合一的解码器就要考虑硬件成本。同一篇Google的 Paper说一个传统解码器的成本至关于实现一个2M参数MobileNet模型的成本。咱们知道MobileNet是比较轻量级的神经网络,若是一个NNLF滤波器须要1M参数的话,就是一半的解码器成本。因此成本上的降低须要更加努力去作到。因此说AI编码主要挑战总结下来就是须要作到更合理的性价比,这方面须要各个公司进行大量研发投入才有可能拿到合理性价比。何时能拿到合理的性价比,发挥AI视频编码的潜力,咱们仍是拭目以待。

最后我想说一个我的看法。AI编码有这样性价比挑战的一个缘由是由于AI技术原本就是Data Driven的,在一个特定场景下的Data Driven更加容易设计,而主要的技术对于通用场景上的挑战必定更大。所以我认为能够去看一下特定场景下的AI编码,可能会更快的提供技术和业务的突破机会。你们最近可能注意到Facebook和英伟达对人脸视频进行端到端AI编码,在这种特定场景下,在超低码率下,AI编码对人脸清晰度恢复相比于传统方法来讲能够有比较大的突破,显示了AI编码的潜力。
 
新兴应用


最后讲三个新兴应用的例子,AR/VR/MR、云游戏、元宇宙。前二者是元宇宙的一部分,因此咱们看一下元宇宙。
 

首先来看一下什么是元宇宙。最近“元宇宙”这个词兴起的时候,我本身不是很清楚究竟是什么意思,因此我去查了一下。这是从纽约时报文章中摘出来的,什么叫Metaverse也就是元宇宙,纽约时报定义为虚拟的体验、环境、财产的混合模态。这里给了五个元宇宙体现的例子,咱们从最上面沿着逆时针方向看一下:若是你喜欢的游戏能够在其中去创建本身的世界,与他人交互,这是元宇宙的体现;若是最近参加过不管是因公(meeting)或因私(party),没有真人出现而是用数字的avatar出现,这也是元宇宙的体现;若是带了头盔或者眼镜去体验AR、VR所赋予的虚拟环境,也是元宇宙的体现;若是你拥有NFT或crypto currency这些虚拟财产,也是元宇宙的体现;最后我以为比较有意思的一点是纽约时报认为绝大多数的社交网络也是元宇宙的体现,由于线上和线下的你不是彻底一致,线上的你可能有必定虚拟的成分在,因此也是元宇宙的体现。

支持元宇宙和各类AR/VR体验从视频技术的角度来看有几大共同点:低延时、高并发、以及个性化。前面这两点与现有应用的要求相相似,好比拿直播来讲,也有低延时高并发的要求;可是第三点要求,就是个性化的要求,是一个彻底不同的全新技术支撑。由于在这些虚拟场景下,每个用户都在追求本身的体验和个性化的选择。从阿里云智能的角度来看,个性化对于云计算提出进一步挑战,更高的要求。咱们今天支持一次直播有成千上万甚至上百万的并发量,一次下发服务不少客户。可是,若是每一个客户都有本身的个性化要求,每次下发只能支持十几或几十有相似要求的客户,那么对云上视频处理能力的质量和吞吐率都提出了更高的要求,要求处理能力有数量级上的提高。因此我认为未来要对于视频处理和deliver作好技术支撑,云上定制化硬件是必然的技术趋势。
 

05

总结



最后咱们对今天的分享作一个总结。首先咱们介绍了Ali266,阿里云自研的VVC编解码器,首先Ali266对VVC这个最新视频标准提供完整的编解码能力,速度能够达到实时高清,目前咱们最快的速度是能够达到1080p30帧编码速度。Ali266压缩性能卓越,在Slow档次上达到50%的带宽节省,在实时Fast档次上达到40%的带宽节省,所以Ali266从质量优先到速度优先能够覆盖不一样业务的需求。同时咱们很是高兴的汇报咱们正在与优酷进行深度合做,但愿经过Ali266技术落地优酷,助力优酷降本增质、赋能新业务技术支撑。

展望将来的话,从技术上来讲,下一代编解码标准仍是须要拿到更好的压缩率,可是如何进行框架的选择咱们还在探索,今天尚未定论。传统框架下的ECM相比VVC能拿到15%的性能增益,但与40%、50%的要求还有距离。AI编码能够给出很好性能潜力,可是从性价比来讲尚未达到要求,须要长足进步。从应用角度来讲,元宇宙会带给你们更加丰富的虚拟体验,也能够支撑不少新的应用的成长。要让元宇宙成为现实的话,在云计算的方面须要尽快实现高质量高吞吐的个性化云计算能力,应对新兴应用所提出的挑战。最后,虽然以前没有提到,可是虚拟世界的体验也须要更加友好、也就是更轻更普惠的AR/VR终端设备早日登场。

本次分享到此结束,很是感谢你们,也特别要感谢主办方LVS给我这个机会作分享,因为疫情的影响,很是遗憾与你们不能进行面对面交流,若是对我这次分享的内容有任何问题或但愿进一步探讨,欢迎你们在评论区留言。



讲师招募

LiveVideoStackCon 2022 音视频技术大会 上海站,正在面向社会公开招募讲师,不管你所处的公司大小,title高低,老鸟仍是菜鸟,只要你的内容对技术人有帮助,其余都是次要的。欢迎经过 speaker@livevideostack.com 提交我的资料及议题描述,咱们将会在24小时内给予反馈。

喜欢咱们的内容就点个“在看”吧!

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。