ICML 2023 | y域码率控制:深度学习时代视频码率控制的新范式

2023-05-29 20:48 801 阅读 ID:1101
将门
将门

我们提出了一种基于梯度下降的码率控制方法,并证明了其与使用准确码率失真依赖模型的 λ 域码率控制的等价性。经验结果表明我们的方法可以将深度学习视频压缩的性能提升15-30%。该论文由清华大学智能产业研究院,商汤科技研究院合作完成,已被ICML 2023接收。

论文链接:

https://arxiv.org/abs/2209.09422

代码链接(已开源):

https://github.com/tongdaxu/Bit-Allocation-Using-Optimization

一、背景:λ 域码率控制

二 、y域码率控制:针对深度学习视频压缩的码率控制新范式

对于深度学习视频压缩方法而言,λ 域码率分配同样适用。(Li et al., 2022b) 将HEVC上的 λ域码率分配迁移到了深度学习方法中并取得了不错的效果。然而,相比传统视频压缩而言,深度学习视频压缩具有端到端可导性。我们有没有办法利用这种可导性,更加直接地解决公式6的码率分配呢?

答案是肯定的。

三 、y 域码率控制:朴素半均摊变分推断的实现

而非使用朴素同时梯度下降求解。

四 、y 域码率控制:基于梯度下降的梯度下降进行的实现

为求解公式20的嵌套梯度下降问题,我们以两个隐变量,一步梯度下降的最简单情况为例:

其中倒数第二步即为关键步骤,我们需要对梯度下降后的结果再次求导,并将梯度反向传播回梯度下降前的值,该方法被称为梯度下降的梯度下降(back-prop through gradient descent) (Samuel & Tappen, 2009; Domke, 2012)。

从两个隐变量,一次梯度下降的例子开始,我们可以递归地多次应用梯度下降的梯度下降。进而,我们可以求解任意多个有向无环图依赖的隐变量,任意多次梯度下降的半均摊变分推断问题,算法如下:

理论上任意长度,任意帧依赖关系的深度视频压缩都可以被有向无环图概括。将该算法直接应用即可达到最优码率分配。

五 、y 域码率控制:复杂度控制

事实上,由于复杂度限制,如上算法仅可用于非常小规模的问题 (5个隐变量,10步梯度下降)。然而,深度学习视频压缩规模较大 (超过20个隐变量,超过1000步梯度下降)。因此,直接应用该算法复杂度过高。我们提出两种简化,第一种是针对时间复杂度的简化。我们考虑近似梯度:

如此一来,我们无需梯度下降的梯度下降即可完成隐变量梯度的估算。进一步地,我们针对空间复杂度简化,只考虑当前帧后的C帧:

如此一来,算法的空间复杂度为常数,可以使得我们的方法适用于任意长的视频。

六、实验结果

我们在HEVC Class BCDE, UVG五个数据集上进行测试。我们选用DVC (Lu et al., 2019) ,DCVC (Li et al., 2021) ,HSTEM (Li et al., 2022a) 等多个深度学习视频压缩基线方法进行测试。在全部基线和数据集上,我们的y域码率控制算法均有非常好的效果:

具体地,在DVC,DCVC之上,使用我们的方法可以取得接近30%的性能收益。在自带部分码率分配的HSTEM上,使用我们的方法也可以取得接近15%的性能收益。更进一步地,经过y 域码率分配后,DVC可以达到接近DCVC的性能,DCVC可以达到HSTEM的性能,实现接近一代的性能提升。

同时,我们在较小的MNIST数据集和两层VAE上测试了我们基于梯度下降的梯度下降方法的性能。密度估计任务上的实验结果表明了我们方法的有效性。

七 、讨论:码率分配与误差传播

深度学习视频压缩中的误差传播常常与码率分配分开讨论,并相互不引用。作者认为 (Sun 2021) 与Google公司的VCT确实是解决了误差传播问题,然而从码率分配到角度看,改解决方案是次优的。

事实上,在传统编码器中,我们会明确的区分两种码率分配算法。一种算法为最小均值算法(minAvg),即我们的优化目标为最小平均R-D cost。该方法较为主流,也是本文讨论的方法。另一种算法为最小方差(minVar)算法,即我们的优化目标为每帧的质量方差尽可能小。该方法应用较少。我们讨论的码率分配是指最小平均的码率分配,误差传播为最小方差的码率分配。往往最小方差与最小均值的最优解不同。从这点来看, (Sun 2021) 与Google公司的VCT从平均R-D性能上讲均有提升空间。且通过最小化误差传播来提升R-D性能的目标是错误的。

八 、结论

本文提出了 y域码率控制,是一种针对深度学习视频压缩的码率控制新范式。我们证明该方法等价于使用精确码率依赖与失真依赖的λ 域码率控制,进而证明了该方法的最优性。实验结果表明,在多个基线算法上,我们的方法有效提高深度视频压缩15-30%的性能。

参考文献

[1] Li, L., Li, B., Li, H., and Chen, C. W. λ-domain optimal bit allocation algorithm for high efficiency video coding. IEEE Trans. Circuits Syst. Video Technol., 28(1):130–142, 2016.


[2] Kim, Y., Wiseman, S., Miller, A., Sontag, D., and Rush, A. Semi-amortized variational autoencoders. In Int. Conf. on Machine Learning, pp. 2678–2687. PMLR, 2018.

[3] Marino, J., Yue, Y., and Mandt, S. Iterative amortized inference. In Int. Conf. on Machine Learning, pp. 3403– 3412. PMLR, 2018.

[4] Domke, J. Generic methods for optimization-based modeling. In Artificial Intelligence and Statistics, pp. 318–326. PMLR, 2012.

[5] Samuel, K. G. and Tappen, M. F. Learning optimized map estimates in continuously-valued mrf models. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 477–484. IEEE, 2009.

[6] Sun, Z., Tan, Z., Sun, X., Zhang, F., Li, D., Qian, Y., and Li, H. Spatiotemporal entropy model is all you need for learned video compression. arXiv preprint arXiv:2104.06083, 2021.

[7] Lu, G., Cai, C., Zhang, X., Chen, L., Ouyang, W., Xu, D., and Gao, Z. Content adaptive and error propagation aware deep video compression. In European Conference on Computer Vision, pp. 456–472. Springer, 2020a.

作者:许通达  

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn