季顺平团队NeurIPS2024多模态大模型研究新进展

作者：季顺平时间：2024-10-08 浏览：

近日，武汉大学遥感信息工程学院季顺平教授团队联合Skywork AI提出首个统一了“通用分割（语义分割、实例分割、全景分割等）、提示驱动的分割（通过点、框、涂鸦等视觉prompt引导兴趣目标的识别和分割）、指令调整（由语言或文本指令训练大模型的理解和推理能力）的多模态大模型OMG-LLaVA。相关论文[1]被NeurIPS2024接收，NeurIPS是机器学习和人工智能领域的国际顶级会议。第一作者是2023级博士研究生张韬。

人工智能的研究热点逐渐从以ChatGPT为代表的语言大模型（Large Language Model, LLM）过渡到更通用的多模态大模型（Large Multimodal Model, LMM），如OpenAI的Gpt-4v、谷歌的Gemini，以及开源的LLaVA。目前，虽然多模态大模型已经具备强大的图像级对话和推理能力，但尚缺乏像素级的精细理解能力。而像素级的图像理解和推理是计算机视觉、遥感等领域的核心内容。团队提出OMG-LLaVA，将像素级视觉理解与推理能力嵌入多模态大模型中，将进一步促进多模态大模型在计算机视觉和遥感中的深入应用。

OMG-LLaVA构建简洁的结构实现多任务的统一。它接受各种灵活的视觉和文本提示。特别地，采用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示与文本对齐后提供给LLM。LLM理解用户指令，输出文本响应和像素级分割结果。

OMG-LLaVA架构

具体地，OMG-LLaVA统一了图像级——如图像内容概括和图像对话，目标级——如图像局部内容概括和基于视觉提示的对话，和像素级——包括语义分割、实例分割等通用分割，描述分割（referring segmentation，根据一段明确的描述去分割目标），推理分割（reasoning segmentation，通过更复杂的推理去理解和分割目标）以及像素级图像对话（grounded conversation generation）等一系列视觉理解和推理任务。为实现这种多层次通用能力，定义了三种令牌（tokens）类型：文本令牌、像素令牌、目标令牌，分别处理文字、密集图像特征、目标特征。然后，将各类不同的任务统一建模为令牌到令牌的生成（token-to-token generation）。最终，将令牌解码为特定任务所要求的语言文字、分割掩膜等等。在性能上，在大量数据集上的实验证实了更加通用的OMG-LLaVA能够匹配甚至超过专门的方法。

[描述分割（referring segmentation）]

[推理分割（reasoning segmentation）]

[像素级图像对话生成（grounded conversation generation）]

[1] arxiv.org/pdf/2406.19389.

上一篇：柯涛、陶鹏杰团队在多模态遥感影像匹配领域取得连续进展

下一篇：胡翔云教授团队在低重叠三维点云自动配准方面取得新进展

学院要闻

学院要闻

季顺平团队NeurIPS2024多模态大模型研究新进展