小程序开发,网站开发,APP开发,公众号开发,商城开发-三明网络
日志样式

对话灵感实验室:Glint-MVT v2.0 赋能VLM视频分析

既然视频本身已经经过压缩处理,为何还要将其解压为图片后再进行分析呢?这种被视为“多此一举”的行业常规做法,难道真的无法被打破吗?

面对这一疑问,灵感实验室推出的新一代视觉基础模型——Glint-MVT v2.0(简称MVT v2.0),勇敢地选择了一条“少有人涉足的道路”:实现图像与视频的统一编码,并直接在压缩域内通过视频编码进行高效分析。这正是MVT v2.0的核心创新所在。

MVT v2.0巧妙地利用了视频编码中自带的运动矢量(Motion Vector)和残差(Residual)信息,生成了一张富含信息量的“热图”。模型能够精准地识别并保留那些包含关键动作或细节变化的图像块(Patch),而将背景等低信息量的部分直接舍弃。

这一策略直接削减了高达90%的冗余Token。

“其实,我们只是充分利用了视频编码的原理,避免了重新引入冗余信息。”灵感实验室的负责人冯子勇如此解释道。然而,这一看似简单的逻辑转变,却带来了显著的性能提升:在全帧率分析条件下,MVT v2.0的推理速度提升了5倍;在任务表现上,当Glint-MVT v2.0被用作VideoLLM的视觉编码器时,其在MVBench、VideoMME、Percepton Test等视频基准测试中均超越了Google的SigLIP2。

Glint-MVT v2.0的任务表现亮点纷呈

然而,这一突破并非一蹴而就。

回溯至几年前,这支专注于底层视觉编码的团队,更像是一群在快车道旁默默耕耘的修路人。

自2023年发布Glint-MVT v1.0以来,灵感实验室便不断在视觉和多模态领域探索技术创新。在v1.0阶段,为了给4亿张无标注图片打上伪标签,他们采用了“标签采样”方法来应对噪声问题;到了v1.1版本,为了突破单标签的限制,他们优化了损失函数,使模型能够“一眼识别多个物体”;再到v1.5版本,通过引入专家模型和OCR技术,他们将模型对局部细节和文字特征的理解能力提升到了新的高度。

Glint-MVT系列论文概览:

1.0版本:Unicom: Universal and Compact Representation Learning for Image Retrieval

1.1版本:Multi-label Cluster Discrimination for Visual Representation Learning

烟台三明网络专注软件开发10年+,具备烟台APP开发、烟台小程序定制、烟台公众号定制、烟台网站建设、烟台商城开发、烟台分销系统开发、烟台康复系统开发,致力烟台互联网+行业的系统定制开发与运营,为企业发展提供助力。