开云体育以及疏导的最终压缩比例的条件下-开云「中国」kaiyun网页版登录入口

这项由清华大学与ModelBest斡旋开展的相关,以预印本神气于2026年5月9日发布于arXiv平台开云体育,编号为arXiv:2605.08985。感意思意思的读者可通过该编号径直检索原始论文。
**一场对于"看图"效用的改革**
手机里的AI助手越来越贤慧了——你拍一张菜单,它帮你翻译;你上传一页公约,它帮你找出谬误条件;你发一张数学题的像片,它帮你一步步推导谜底。这些智商背后,有一类被称为"多模态大语言模子"的时代在肃静因循,它们既能明白翰墨,又能明白图像,是当下AI领域最热点的相关地点之一。
然则,这类模子有一个鲜为东说念主知的烦扰:每当它们处理一张高清大图时,计较机里面要作念的"数学题"会多到令东说念主惊羡。分辨率越高、图片越大,计较量就呈爆炸式增长,速率变慢、耗电量飙升,甚而需要更崇高的硬件因循。相关东说念主员们为此索尽枯肠,试图找到一种既快又好的处理方式。
清华大学的这支团队决定从根子上从头凝视这个问题。他们发现,通盘行业持久以来王人在沿用一种"看起来合理、现实上可以作念得更好"的处理经由。通过两个谬误改变,他们让模子处理高清图片的计较量径直减少了55.8%,同期在多项巨擘测试上的弘扬不仅莫得着落,甚而在某些任务上还略有普及。这个系统被定名为LLaVA-UHD v4。
**一、AI是怎么"看图"的?先搞领会这个问题**
要明白这项相关的冲突,先得搞领会AI处理图片的经由,就像了解一个工场的分娩线一样转折。
现存的多模态AI系统处理图片时,大致经过两个谬误要津。第一个要津是"视觉编码",可以把它明白为图片参预AI大脑后的"预处理"阶段——认真这个职责的是一个叫作念"视觉编码器"(Vision Transformer,简称ViT)的组件,它把图片分红许多小格子(称为"图块"或"token"),然后让每个小格子王人和其他通盘小格子相互"交流",从而明白图片的内容。第二个要津是"语言明白",经过视觉编码器处理后,这些小格子的信息被送入语言大模子,语言模子把视觉信息和翰墨问题联接起来,给出最终的回答。
问题碰巧出在第一个要津。当图片很大、很领会时,被切成的小格子数目就会相配多。而视觉编码器在处理这些格子时,要让每个格子王人和其他通盘格子相互交流——这个过程的计较量,会跟着格子数目的加多呈**闲居级增长**。格子数目翻一倍,计较量就变成原来的四倍;格子数目加多三倍,计较量就变成原来的九倍。这便是"高清图片处理效用瓶颈"的根底所在。
现时业界的主流作念法是在视觉编码器完周至部计较之后,再用一个"压缩器"把宽绰格子合并压缩,减少送入语言模子的信息量。这么作念如实收缩了语言模子的包袱,但视觉编码器里面那海量的计较依然发生了,无法追回。这就好比一家餐厅,厨房依然把一百说念菜全部作念完毕,才意志到其实主顾只需要二十说念——食材和时代王人依然破钞掉,无法救援。
清华团队的中枢洞悉是:**问题要在泉源科罚**。他们从两个地点同期脱手——从头凝视图片送进编码器之前的处理方式,以及在编码器里面更早地完成压缩职责。
**二、一个被业界冷落的直观:切片比合座更好**
当一张高清大图需要被AI处理时,频频有两种计谋。第一种叫"全局编码":把整张图片径直塞进视觉编码器,让它一次性处理通盘内容。第二种叫"切片编码":把大图切成几许个小块,让编码器阔别处理每个小块,再把截止合并。
直观上,全局编码听起来更好——毕竟编码器能看到完竣的图片,通盘区域之间王人能相互"交流",莫得信息耗费。切片编码则像是蒙住了编码器的大部分视线,只让它一次看一小块,似乎会丢失跨区域的合座信息。正因如斯,业界许多当先的多模态模子(包括一些有名交易产物背后的时代决策)王人倾向于使用全局编码。
然则,清华团队通过严格的对比实验发现,这个直观是错的。在使用疏导的视觉编码器、疏导的语言模子、疏导的查验数据量,以及疏导的最终压缩比例的条件下,切片编码在简直通盘测试中王人优于全局编码,有时差距还十分权臣。
相关团队在一系列涵盖数学推理、翰墨识别、图表明白、视觉问答等多种类型的八项巨擘测试上进行了系统相比,阔别测试了4倍压缩和16倍压缩两种竖立,以及400万和800万两种范围的查验数据,想到四种组合。在通盘四种组合中,切片编码的平均得分均高于全局编码,上风幅度从0.5分到1.7分不等。
尤其值得热心的是翰墨识别类任务(OCRBench测试)。在这类任务中,AI需要识别图片中的小字、表格数字、文档内容等细节,对"局部精度"要求极高。切片编码在这类任务上的上风最为杰出,在四种测试竖立均阔别当先3.6到5.5分——这是一个十分权臣的差距。
为了确保这个论断不是未必,团队还用另一个视觉编码器(MoonViT,一个专门针对原始高分辨率图像查验的模子)重叠了实验,截止切片编码依然保抓了约1.5分的平均上风;当他们把切片的分辨率进一步普及(使用更大的切片决策)时,上风进一步扩大到越过2分,况兼莫得出现饱和的迹象。
为什么切片编码反而更好?相关团队给出的讲明注解颇挑升念念。谬误不在于全局信息的"有无",而在于注意力资源的"分派方式"。全局编码时,编码器要同期处理整张大图的通盘内容,一张复短文档图片里,翰墨区域的细节要和图片布景、讳饰元素争夺同等的计较资源。而切片编码时,每个小块内的注意力资源是高度衔接的,编码器能更充分地挖掘每个区域里面的细巧结构——比如密密匝匝的小字、表格中的数字风景、图表的局部标注。这种"局部专注"的特色,恰好契合了高清图片处理中最难也最转折的需求:对细节的精确感知。
**三、压缩器的采取:浮浅的结构时常赢过复杂的结构**
详情了切片编码更优之后,团队还需要回答另一个问题:视觉编码器输出的宽绰格子,在送入语言模子之前,用哪种方式压缩恶果最好?
咫尺业界主要有两类决策。一类叫"重采样器",道理是让一批事前设定好数目的"学习查询"(可以明白为一批"代言东说念主"),通过雷同投票的方式,从宽绰视觉格子中集中信息,把成百上千个格子的内容压缩到几十个"代言东说念主"身上。这种设施在Flamingo、BLIP-2等有名模子中被庸俗使用。另一类叫"MLP压缩器",道理更径直:把相邻的几个格子合并成一个,把它们的特征信息拼在一说念,再经过一个浮浅的神经集中映射,完成压缩。
相关团队在疏导条件下对两者进行了对比。截止是MLP压缩器在通盘测试竖立中王人优于重采样器,在压缩比例较低(4倍压缩)时上风最为较着,当先幅度达到3.3到6.7分。跟着压缩比例增大(16倍压缩)、查验数据范围加多,差距有所收窄,但MLP长期保抓当先。
背后的原因其实并不复杂。MLP压缩器是把相邻的格子径直合并——合并后的每个新格子,仍然对应图片中一个明确的局部区域,空间位置信息被完竣保留。重采样器则是通过学习的方式动态汇注信息,输出的"代言东说念主"不再和图片中的固定位置对应,空间结构被打乱了。对于需要明白图片局部细节和空间关连的视觉任务,这种空间结构的保留至关转折,而重采样器碰巧在这少许上自然处于弱势。
真谛的是,重采样器的参数目频频更大(在低压缩比竖立下尤为较着),但参数多并不可弥补空间信息丢失的短板。由此,团队竖立了以切片编码加MLP压缩器行动基准决策,并脱手攻克简直的中枢困难。
**四、在"活水线最前端"动刀:LLaVA-UHD v4的中枢创新**
切片编码和MLP压缩器组合在一说念,依然是一个十分可以的决策。但有一个根人性的效用问题仍然莫得科罚:无论压缩器多高效,视觉编码器里面的计较量依然莫得减少。编码器照旧要把每张切片的通盘格子走全王人部计较经由之后,压缩器本领介入。
清华团队问了一个浮浅而谬误的问题:**为什么不把压缩的时代点提前到编码器里面呢?**
这个主义看似自然,现实操作却充满风险。视觉编码器频频是在海量图片数据上事前查验好的复杂系统,其里面每一层王人对前一层输出的特征有精确的"渴望"——就像一条精密的活水线,每说念工序王人依赖上一说念工序产出特定例格的半制品。要是贸然在半途插入一个立时运飘零的压缩模块,输出的格子数目一霎减少,特征散播也随之改变,后续各层就会接纳到与预期全王人不符的输入,轻则性能大幅着落,重则通盘系统崩溃。开垦这种毁伤需要宽绰颠倒的查验,况兼不一定能全王人恢规复来的性能水平。
团队筹备了一套精妙的科罚决策,并为它起名叫"参数复用早期压缩器"(intra-ViT early compressor,简称D)。这个压缩器的中枢筹备辞退三条原则:它必须插在编码器里面(而非外部),必须尽可能靠前(以最大化省俭后续层的计较量),以及必须不破损编码器依然学到的特征默示体系。
压缩器D的里面结构由两个技艺组成。第一步叫"窗口注意力":在压缩之前,先让每个格子和它相邻的三个格子(组成一个2×2的小窗口)相互交流、相互和会,让每个格子王人能感知到我方周围的高下文。这一步很转折,因为接下来要把这四个格子合并成一个,在合并之前先让它们充分交流,信息耗费就会小得多。第二步叫"下采样和会":把这个2×2窗口里的四个格子径直合并成一个,通说念维度变为原来的四倍,再经过一个轻量级的神经集中映射回原来的维度,完成压缩。经过这两步,蓝本N个格子变成了N/4个格子,序列长度缩小为原来的四分之一。
然则,如何运飘零这个压缩器,才是科罚"破损原有特征体系"问题的谬误所在。团队接收了一个极其贤慧的计谋:**径直复用压缩器插入位置前一层的预查验权重来运飘零D**。
具体来说,窗口注意力部分的参数径直拷贝自相邻的编码器层,只是把蓝本的全局注意力换成了局部的2×2窗口注意力(注意力机制的权重自己不变)。和会MLP部分的参数则被构形成:模拟"把前一层的前馈集中沉寂哄骗于窗口内每个格子,然后取平均"的操作——这在数学上是可以通过特定的权重矩阵构造已毕的。这么一来,在查验刚脱手的第一步,这个压缩器的行径就依然相配接近于"先走一遍相邻层的计较,再作念平均合并",而不是立时噪声。系统从一个接近合理的起原脱手微调,而不是从一派零散中从头摸索。
团队经过实验详情,将压缩器插入在编码器第6层之后(SigLIP 2编码器共有几许层),是恶果和效用的最优均衡点。插得太早(比如第3层之后)会导致不欣然性的性能崩溃——平均得分从约70分跌落到不及40分,因为编码器前几层刚刚脱手处理图片的原始像素信息,尚未形成有语义道理的特征,此时强行合并等于径直摈弃原始信息。插在第9层或第15层之后则恶果略低于第6层,况兼省俭的计较量也更少(因为越靠后,前边依然走完的层就越多)。第6层恰平正于一个"甘好意思点":编码器依然累积了迷漫的语义特征,格子之间的合并是安全的;尔后续还有宽绰计较层需要走完,将它们的格子数目压缩到四分之一所省俭的计较量极为可不雅。
通盘LLaVA-UHD v4的完竣经由如下:一张高清图片先被切分红缩略图加几许高清切片,阔别送入视觉编码器;编码器走完前6层之后,压缩器D将每张切片的格子数目压缩为四分之一;编码器剩余的层在这个四分之一的格子数目上不竭计较;编码器输出后,MLP压缩器再次将格子数目压缩到原来的四分之一;最终送入语言模子的格子数目是运转格子总额的十六分之一,而视觉编码器里面后续各层的计较量也胁制到了原来的约四分之一。
**五、实验截止:数字语言**
相关团队用五种不同范围的查验数据(从400万到6400万样本)对LLaVA-UHD v4和"仅用编码器后压缩"的基准决策进行了系统相比,评测在八项圭臬测试上张开。
计较量方面的改善相配直不雅。处理一张切片所需的视觉编码计较量,从基准决策的3555G FLOPs胁制到1573G FLOPs(FLOPs是洽商计较量的单元),降幅达55.75%。换句话说,完成通常的视觉编码任务,只需要原来不到一半的计较资源。
性能方面的弘扬通常令东说念主舒坦。在五个查验范围竖立下,LLaVA-UHD v4的平均得分与基准决策的差距长期在±0.8分以内,平均偏差仅为-0.29分——简直可以忽略不计。跟着查验数据从400万扩大到6400万,两个系统王人在抓续向上,LLaVA-UHD v4从67.4分普及到75.6分,基准决策从68.2分普及到76.2分,相互的差距并莫得跟着查验范围扩大而系统性地拉大,讲明这种压缩筹备不会在更大范围查验下变成短板。
具体到各项测试,两个系统互有赢输。LLaVA-UHD v4在数学视觉推理(MathVista)测试上,用6400万数据查验时反而略高于基准决策(76.9对76.3);在中语多模态明白(MMBenchCN)测试上,用6400万数据查验时二者基本抓平(86.5对86.4)。基准决策在某些通用视觉问答测试上略有上风,但差距宽绰很小。
团队还对压缩器的各式筹备变体作念了详备对比。只是使用最浮浅的平均池化设施(径直把四个格子的值取平均合并)插入编码器里面,平均得分会从70.6分降到69.6分;稍复杂一些的立时运飘零MLP压缩器可以回话到69.8分,但依然低于基准决策。只加入参数复用运飘零(不加窗口注意力)能普及到69.9分;只加入窗口注意力(不作念参数复用,立时运飘零MLP)可以普及到70.1分。当两者同期使用时,得分达到70.7分,不仅回到了基准决策的水平,还略略越过了它。相关团队把这个形式神气为"超加法效应":两种机制合在一说念的恶果,越过了各自单独恶果的浮浅叠加。原因在于,窗口注意力让相邻格子在合并前充分交流,而参数复用运飘零让合并后的格子恰平正于后续编码器层所"期待"的特征空间中——两者不可偏废,单独使用任何一个王人不可充分科罚"压缩之后特征不兼容"的问题。
**六、相关的局限与异日地点**
这支相关团队对我方职责的局限也有领会的相识,并在论文中坦诚地列出了几点值得注意的地方。
现时的压缩器对图片通盘区域一视同仁,以固定的比例进行压缩,无论某个区域是密密匝匝的翰墨照旧纯色的布景。更设想的决接应该能凭据内容的复杂进程动态调养——对信息密集的区域保留更多格子,对信息寥落的区域更激进地合并。这种"按需分派"的动态压缩是一个值得探索的地点。
此外,压缩器插入的最好位置(第6层)是专门针对SigLIP 2这个特定的视觉编码器测试得出的论断,换用其他结构不同或层数更多的编码器时,可能需要从头详情这个参数。
切片编码自然在细节感知上弘扬出色,但它自然地把图片切成了几许沉寂处理的块,不同切片之间的空间关连主要靠一张低分辨率的缩略图来"兜底"。对于某些需要跨越大范围区域本领明白的视觉问题,这种方式仍然存在一定的信息耗费。
归根结底,这项相关最转折的孝敬,八成不单是在于LLaVA-UHD v4这个具体系统,而在于它通过严谨的实考据明了两件让业界从头念念考的事情:阿谁被默许为"更好"的全局编码决策,现实上未必比切片编码更优;以及,阿谁被视为"难以逾越"的视觉编码器里面压缩困难,通过参数复用运飘零的玄妙筹备是可以安全科罚的。当处理高清图片所需的计较量可以砍去一半以上,而恶果简直不打扣头,这意味着异日AI助手在手机上实期间析高清像片、在低功耗设备上明白复短文档,王人变得愈加可期。算力不再是拦路虎,细节感知的极限也可以抓续上前鼓舞。
Q&A
Q1:切片编码和全局编码有什么现实区别,为什么切片编码反而更好?
A:全局编码是把整张图片一次性送入视觉编码器处理,通盘区域在合并个注意力空间里相互竞争计较资源。切片编码则把大图分红几许小块阔别处理,编码器在每个小块内能更衔接地挖掘局部细节。实验标明,对于翰墨识别、文档明白等需要细巧感知的任务,这种"局部专注"的方式比全局注意力更灵验,在OCRBench测试中当先差距可达3.6到5.5分。
Q2:LLaVA-UHD v4的参数复用运飘零具体是怎么作念的?
A:在视觉编码器第6层之后插入压缩模块时,该模块的全部参数王人径直从相邻的第6层预查验权重叠制而来,而非立时运飘零。窗口注意力部分径直拷贝第6层的注意力权重,和会MLP部分则被构形成模拟"对窗口内四个格子各跑一交替6层前馈集中然后取平均"的数学等效操作。这么查验一脱手,压缩模块的行径就接近合理气象,不会破损后续编码器层所依赖的特征散播。
Q3:LLaVA-UHD v4减少的55.75%计较量具体体咫尺那处?
A:减少的计较量主要来自视觉编码器里面。压缩模块在编码器第6层之后就把格子数目胁制到四分之一开云体育,编码器后续的通盘层王人只需要处理原来四分之一数目的格子。由于编码器里面的计较量和格子数目的闲居成正比,格子数目变为四分之一后,后续各层的计较量高兴胁制到原来的十六分之一,合座下来视觉编码的想到较量从3555G FLOPs降至1573G FLOPs,降幅为55.75%。
