音视频技术开发周刊 | 220

2021年11月22日 阅读数:3
这篇文章主要向大家介绍音视频技术开发周刊 | 220,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

每周一期,纵览音视频技术领域的干货。算法

新闻投稿:contribute@livevideostack.com。浏览器



拍乐云基于AV1的实时视频系统技术实践

实时视频系统对于时延的要求极高,视频编码器必须知足实时性的要求。新一代视频标准AV1相比主流H.264在Rate-distortation性能的提高上是以复杂度的上升为代价的,当前应用设备的碎片化很是严重、设备的运算能力差别巨大,这些都是新技术落地实时系统面临的挑战。本次分享将围绕拍乐云在设计Pano Venus实时AV1通讯系统时的一些技术实践展开深刻分析与讲解,指望和你们共同探索实时视频技术的将来。安全


自监督、半监督学习在内容安全中的应用性能优化

在深度学习领域中,半监督、自监督算法经过借助无标签数据与无监督训练任务,可有效改善传统有监督算法中“泛化性能不足”、“模型过拟合”、“严重依赖数据标注质量”等问题。在这次LiveVideoStackCon 2021 音视频技术大会 北京站,咱们邀请到了网易易盾资深算法工程师——崔若璇,为咱们介绍了半监督学习领域的发展脉络,并展现半监督、自监督算法在网易易盾内容安全业务上的创新应用。微信


编解码再进化:Ali266与下一代视频技术网络

过去的一年见证了人类千载难逢的大事记,也见证了多种视频应用的厚积薄发。而所以所带来的视频数据量的爆发式增加更加加重了对高效编解码这样的底层硬核技术的急迫需求。正是在这样的大环境下,在ITU-T VCEG和ISO/IEC MPEG两大标准组织再次联手推出的最新视频编解码标准VVC定稿不久以后,阿里巴巴的视频团队开始全力投入开展VVC软件编解码的开发工做。本次LiveVideoStackCon2021北京峰会咱们邀请到了阿里巴巴研究员,阿里云智能云视频标准与实现负责人叶琰老师来分享视频业界现状、Ali266自研VVC编解码器的技术演进史和业务展望、以及视频业界所面临的将来机遇和挑战。架构


冲刺最后一千米——音视频场景下的边缘计算实践app

近年来,边缘计算逐渐从将来风口变成了进行时,而内容分发这个天生与“下沉”密不可分的领域,在边缘计算实践中可谓身先士卒。网心从2014年开始探索边缘传输网络的商业可行性,实现了传统CDN到边缘CDN的技术演进,也见证了边缘CDN从超前概念到行业标配的发展历程。当数据下沉到最后一千米时,在如此复杂的节点和网络环境下构建百万量级的边缘节点网络,同时服务好需求不断深化的音视频业务,是一个不小的挑战。在这次LiveVideoStackCon 2021 音视频技术大会 北京站,咱们邀请到了网心科技首席架构师——曾伟纪,与你们分享一些实践历程和关键问题,以供参考。框架


下一代音视频SDK的方案设计ide

通过五年的努力,腾讯云终端团队不断完善并积累出了一套完整的终端SDK方案体系,包含即时通讯,主播推流,直播播放、点播播放、RTC实时互动、短视频录制,特效编辑等一系列音视频和实时通讯相关的功能特性。在这些功能背后,团队是如何完成了框架设计、组件打磨、数据流转、性能优化的呢?本次LiveVideoStackCon 2021北京站咱们邀请到了腾讯云的常青来从产品能力、架构设计、以及技术原理等多个角度进行剖析分享。



基于神经网络视频编码的通用测试规范

JVET第20次会议为基于神经网络的编码成立了EE1,这个EE专门用于探索深度学习在视频编码方面的潜能。为了规范和统一测试条件,JVET专门制定了相应的通用测试条件(Common Test Conditions ,CTC),最新版CTC为JVET-X2016(公众号后台回复“JVET-X2016”获取)。CTC规定了配置、测试序列、训练序列、参考软件、训练方法、评价指标等。


用于大规模视频流的硬件编码架构

本次演讲将介绍基于硬件的视频编码的进展。目前大规模视频服务和平台被迫下降其运营成本,同时减小碳足迹。演讲将比较 GPU、FPGA 和基于 ASIC 硬件的数据中心视频编码。并介绍 ASIC 可以解锁新视频应用并提升现有解决方案的经济可行性的特定用例。


一问一答,浅谈Penguins AI-Codec

腾讯会议天籁实验室携手腾讯AI Lab,共同打造的Penguins,于2021腾讯技术生态大会上正式面世。Penguins是一款超低码率、高质量AI-Codec,支持多种运行模式,以知足RTC场景下多种应用诉求。其核心技术点在于,紧密结合经典信号处理和最新的深度学习技术,最大化提高带宽利用率。


奈飞TV流媒体的AV1实践

AV1 是由开放媒体联盟(AOMedia)提供的第一个免版税许可的高效视频编解码器,Netflix 做为 AOMedia 的创始成员和 AV1 发展的主要贡献者,但愿将 AV1 流媒体带到 Netflix 用户的 TV 上。为此 Netflix 作出了许多努力,克服了许多问题与挑战,这里简要介绍了四大挑战以及 Netflix 的解决方案。最终 Netflix 实现了用户体验质量的提高,延迟的下降。


航拍 HDR 视频的 VVC 和 AV1 编码

本文来自 SPIE Optical Engineering + Applications, 2021,做者从如下三个角度研究了航拍 HDR 视频:a) 转换为 VVC 或 AV1 格式码流的方便性;b) 转换为 VVC 或 AV1 格式码流的效率;c) 是否存在复杂度或播放上的问题。



软硬一体的算法实践,阿里云如何以算法实现场景“再创新”?

音视频消费的新场景催生了愈来愈多新的技术需求,从当下的直播、点播、RTC,到将来的XR和元宇宙,音视频技术对新场景的支撑愈来愈趋向于综合性,近年来AI算法发展迅猛,可是较好的算法效果每每须要消耗很大的算力资源,这使算法商业化落地面临很是大的挑战。咱们应该如何充分发挥软硬一体的能力?如何有效平衡算法效果和性能?


小波去噪的基本原理及其实现方法(Matlab)

小波去噪方法就是一种创建在小波变换多分辨分析基础上的算法,其基本思想是根据噪声与信号在不一样频带上的小波分解系数具备不一样强度分布的特色,将各频带上的噪声对应的小波系数去除,保留原始信号的小波分解系数,而后对处理后的系数进行小波重构,获得纯净信号。


WebRTC 实现 Android 传屏 demo

目前,WebRTC的应用已经不局限在浏览器与浏览器之间,经过官方提供的SDK,咱们能够很容易的实现本地应用间的音视频传输。在Android平台上,咱们也很是容易的集成WebRTC框架,用很是简洁的代码就能实现强大、可靠的音视频传输功能。



深刻理解 TCP 拥塞控制

随着网络技术的飞速发展,愈来愈多的工做依赖网络完成,基于互联网的实时通讯系统的质量和实时性也很大程度也依赖于网络质量。然而,在Internet的TCP/IP体系结构中,拥塞的发生是其固有的属性。网络拥塞是指用户对网络资源(包括链路带宽、存储空间和处理器处理能力等)的需求超过了固有的处理能力和容量, 相比UDP,TCP自身具备拥塞控制机制,而且须要保障数据可靠传输,这会对基于TCP的音视频实时传输形成必定的困扰。本文将深刻讲解TCP的拥塞控制机制以及如何基于TCP传输来设计一个实时音视频系统。



Python 三维姿态估计+Unity3d 实现 3D 虚拟现实交互游戏

随着人机交互技术飞速发展,人体姿态估计技术愈来愈受到重视。姿态估计做为人体行为识别的重要组成部分,近年来逐渐成为计算机视觉领域的一个重要的研究热点。因为人体结构和姿态的复杂性以及视觉理论的局限性,最初人体姿态估计算法仅从图像或者视频当中预测人体二维骨架节点的坐标位置。2015年马普所提出了由姿态与体型参数驱动的蒙皮多人线性模型,因为该模型具备出色的建模效果与快速的计算效率,许多团队提出了利用该模型进行人体姿态估计的方法。


NeurIPS 2021 | 视觉Transformer和CNN看到的特征是相同的吗?谷歌大脑新做

近年来,Vision Transformer (ViT) 势头强劲。本文将解释论文《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021) 由  Google Brain 发表,并探讨传统CNN 和 Vision Transformer 之间的区别。




基于点线特征的激光雷达单目视觉里程计

本文介绍了一种新颖的使用点和线的激光雷达+单目视觉的里程计方法。与以往的基于lidar+视觉里程计相比,经过在姿态估计中引入点和线特征来利用更多的环境结构信息。提出了一种稳健的点线特征深度提取方法,并将提取的深度值做为点线捆集平差法的先验因子。该方法大大下降了特征的三维模糊度,提升了姿态估计精度。


DROID-SLAM: 单目、双目、RGBD相机的深度视觉SLAM

本文提出了DROID-SLAM, 一个全新的基于深度学习的SLAM系统. DROID-SLAM经过一个深度BA层来循环迭代的更新相机位姿和像素深度值. 实验证实, DROID-SLAM比传统SLAM取得了更高的精度和鲁棒性, 在实验场景中几乎不会失败. 尽管咱们只在单目视频上训练了咱们的网络, 可是在测试阶段,这个网络仍然能够在双目和RGB-D视频上取得很好的表现。


活动推荐


【城市沙龙】LiveVideoStack Meet|成都:蜀主风流



11月20日,LiveVideoStack Meet 成都站 将采用线上直播形式,咱们邀请到了京东、新东方、顺丰和咪咕视频等企业的嘉宾进行干货分享,与你们畅谈成都的音视频环境与发展。也期待疫情事后,有更多零距离的交流。


报名连接:

https://www.huodongxing.com/event/9621015759400


插图源自Pexels

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。