(通讯员:季顺平)近日,我院季顺平教授团队成果在计算机视觉顶级赛事CVPR2023挑战赛“视频语义全景分割(Wild Challenge VPS Track)”赛道获得冠军,获奖成果第一作者为2020级硕士研究生张韬。CVPR是计算机视觉与模式识别领域顶尖国际盛会,随会议一同发布的CVPR系列挑战赛吸引了全球众多顶尖团队参与。
本次获得冠军的赛道为大规模视频全景分割(Video Panoptic Segmentation,VPS)赛道。设计的算法需要从视频中识别任意像素的语义信息并同时实现目标级追踪。第一个技术点是全景语义分割,与像素级遥感地表覆盖分类任务类似;第二个技术点是视频实例追踪,是图像实例分割与视频目标追踪的结合。
团队通过分析当前现有方法存在的问题,即实例分割与目标追踪(对齐)相互纠缠导致性能不佳的缺点,基于Transformer框架提出了DVIS(Decoupled Video Instance Segmentation)方法,设计了实例分割(Segmenter)、目标追踪(Tacker)和全局精化(Refiner)三个相对独立的流程。通过这种解耦的思想,获得了性能的巨大提升。
团队提出的DVIS,不仅仅获得CVPR的VPS挑战赛冠军,还在多个视频实例分割数据集榜单上占据榜首。特别是在当前最权威且最具挑战性的OVIS(Occluded video instance segmentation)数据集上,牢牢占据第一名的位置超过半年,这在AI技术发展日新月异、视觉大模型层出不穷的今天实属不易。
OVIS结果(codalab.lisn.upsaclay.fr/competitions/4763#results)
目前,论文已经在Arxiv预印版放出(DVIS:Decoupled Video Instance Segmentation Framework),代码也已经在Github开源。