快手双向智能视频编码器BRHVC
达佳互联
原创视频业务
+关注
已关注
已点赞
点赞
转发
已收藏
收藏

视频编码中的低时延模式(Low Delay, LD)采用单向P帧编码,仅参考前一帧进行前向预测编码。该方法延迟较小,更适用于直播场景,可以满足实时交互需求,但压缩效率偏低。双向模式(Random Access, RA)采用双向分层B帧编码,每个B帧可同时参考前后两帧,利用时域上的双向信息,在相同画质下可比低延迟模式节省20+%码率,是点播、存储等高画质场景首选。

目前端到端智能视频编码方法主要针对LD模式进行优化,在RA模式上的研究还不够深入。这是由于RA模式的参考帧顺序有着独特的设计,与LD模式和其他基于深度学习的视频任务存在本质区别,研发难度更大,进而约束了RA模式的性能。为进一步提高双向编码的压缩性能,研究团队基于以下两个任务痛点做出了改进:


1.1 长跨度帧的运动处理

图片

图片

该问题的根源在于RA编码结构(如右图)固有的时间维度放大效应。与LD模式固定1帧的参考跨度不同,RA模式采用分层B帧结构,初始层级的帧间隔随层级指数级增长,最高可达32帧距离。



1.2 不平衡的参考贡献问题

图片

图片

长跨度下两个参考帧的信息价值存在显著差异,如何有效利用参考帧的这一特性是一个关键问题。目前的方法没有显式建模出两个参考帧的重要性权重,即预先认为两帧具有同等的参考价值,这与很多现实情况相悖。以上图为例,在编码当前帧(如上图(b))的“号码牌”时,左边的帧由于遮挡而无法提供有效的参考信息,只有右边的帧有足够的参考价值。为了进一步定量分析这种不平衡的参考贡献问题,研究团队设计了专门实验:


图片

用参考左右两帧的双向模型作为基准,用BD-rate表示相同质量下测试算法码率相对基准码率的增加比例(越小越好)。上图横坐标表示帧跨度,红色柱体表示只输入两个参考帧中较差的帧,绿色柱体表示只输入两个参考帧中较好的帧,灰色表示两者的BD-rate差值。从图中可以看到,在帧跨度较大(即32和16)时,不平衡的参考贡献问题非常严重,这将极大影响后续帧的编码效率。


二、算法设计

图片





整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC

 (Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合

(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,

有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。


图片



2.1 双向运动聚合(BMC

图片

图片



BMC模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2分辨率、1/4分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。


图片



BMC的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提BRHVC用到的BMC模块,下半部分表示基准Baseline模型。可以看到,BMC对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。



2.2 双向上下文融合(BCF

图片
图片



BCF模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。

推荐
来自达佳互联