近日,国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2025)官方公布论文收录结果。本届CVPR会议共收到13008份有效投稿,录用2878篇(录用率为22.1%)。CVPR是计算机视觉领域全球顶级学术会议之一。此次我院陈震中教授课题组3篇论文入选CVPR2025。
第1篇论文题为《Continuous Space-Time Video Resampling with Invertible Motion Steganography》。该工作针对现有视频时空重采样中运动信息易丢失、以及时空重采样倍率不灵活等核心挑战,提出可逆运动隐写模块(IMSM) ,将高帧率视频的运动信息以“视觉不可见”方式嵌入低帧率结果中,通过可逆机制实现运动信息的精准恢复。该方法既避免了传统帧丢弃或混合策略引入的模糊伪影,又为后续高保真重建提供了关键信息支撑。此外,团队创新性设计3D隐式调制技术 ,通过连续空间-时间隐函数建模,首次实现任意时空缩放因子(包括非整数倍率)的灵活转换。该技术通过局部隐式调制网络,将下采样特征映射至目标时空分辨率,突破了现有方法仅支持整数倍率转换的限制。在多个常用数据(Vimeo90k、Vid4及SPMCS)上的实验表明,该方法在时空重建质量(PSNR/SSIM)与灵活性上均显著超越现有方案。
该工作第一作者为遥感院2023级博士研究生张圆通。这也是张圆通同学在IEEE TCSVT,ACM TOMM上连续发表多篇期刊论文后的最新成果。
第2篇论文题为《Fitted Neural Lossless Image Compression》。尽管可学习图像无损压缩方法在压缩率上展现出优势,其实用性仍受到较高的解码复杂度制约。目前主流的方法通过训练一个神经网络来表示图像数据集的分布对图像进行压缩。然而包含大量图像的数据集的分布较为复杂,需要复杂的网络结构进行表示,从而导致了较高的解码复杂度。该工作提出了一个具有较高解码效率的基于拟合的图像无损压缩方法FNLIC。FNLIC包含两个拟合阶段,对于每一张图像,FNLIC均过拟合一个隐变量模型表示该图像分布。单张图像的分布比数据集的分布简单很多,因而可以使用更简单的网络结构,从而降低复杂度。此外,考虑到上述方法需要传输网络参数,其压缩性能受到制约,该工作额外在数据集上预训练一个轻量的自回归模型,为过拟合模型提供有益的先验知识。针对过拟合模型和预训练模型的协作问题,该工作提出了独立训练(Independent fitting)和自适应先验变换(Adaptive Prior Transformation)的策略。实验结果表明,FNLIC在自然、遥感、文档、医学图像上均能超越JPEG XL的压缩率。相比与之相当压缩率的可学习图像无损压缩方法,FNLIC具有数十倍的解码推理速度优势和更强的泛化性。
该工作第一作者为遥感院2022级硕士研究生张哲。这是张哲同学继在CVPR2024上发表图像无损压缩论文后在该方向上发表的第2篇CVPR论文,也同样为陈震中教授团队和腾讯多媒体实验室合作成果。
第3篇论文题为《HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion》。视频修复(Video Inpainting)是指通过填补视频中缺失或损坏的区域,以恢复视频完整内容的技术。视频修复有着广泛的应用,包括物体移除、视频补全、自动驾驶等。目前,视频修复的主要难点在于如何为破损区域的内容生成提供引导信息,尤其是在包含多样化的相机运动和物体运动的场景中。本文提出了一种基于单应性配准(Homography Registration)和扩散模型的视频缺失内容生成(Content Generation)方法:HomoGen。HomoGen利用单应性配准,搜索并提取相邻帧中能够用于填补当前帧缺失部分的像素,利用这些像素作为先验信号,引导视频中缺失内容的生成。与基于光流的点对点像素传播方法所引起的局部畸变不同,单应性配准提取的先验信号所含伪影通常表现为区域整体的结构性畸变,能有效维持场景的语义一致性。在多个标准测试集(YouTube-VOS、DAVIS、RORD)上的大量实验表明,HomoGen在定性与定量评估中均超越了现有方案。
该工作第一作者为遥感院2022级硕士研究生丁丁。该工作为其在微软亚洲研究院合作实习期间完成,这也是陈震中教授团队和微软亚洲研究院近期在AIGC方向上合作发表的第2篇CVPR论文。