开云体育以及疏导的最终压缩比例的条件下-开云「中国」kaiyun网页版登录入口

栏目分类

热点资讯

你的位置：开云「中国」kaiyun网页版登录入口 > 资讯 >

开云体育以及疏导的最终压缩比例的条件下-开云「中国」kaiyun网页版登录入口

发布日期：2026-05-22 11:11 点击次数：78

这项由清华大学与ModelBest斡旋开展的相关，以预印本神气于2026年5月9日发布于arXiv平台开云体育，编号为arXiv:2605.08985。感意思意思的读者可通过该编号径直检索原始论文。

**一场对于"看图"效用的改革**

手机里的AI助手越来越贤慧了——你拍一张菜单，它帮你翻译；你上传一页公约，它帮你找出谬误条件；你发一张数学题的像片，它帮你一步步推导谜底。这些智商背后，有一类被称为"多模态大语言模子"的时代在肃静因循，它们既能明白翰墨，又能明白图像，是当下AI领域最热点的相关地点之一。

然则，这类模子有一个鲜为东说念主知的烦扰：每当它们处理一张高清大图时，计较机里面要作念的"数学题"会多到令东说念主惊羡。分辨率越高、图片越大，计较量就呈爆炸式增长，速率变慢、耗电量飙升，甚而需要更崇高的硬件因循。相关东说念主员们为此索尽枯肠，试图找到一种既快又好的处理方式。

清华大学的这支团队决定从根子上从头凝视这个问题。他们发现，通盘行业持久以来王人在沿用一种"看起来合理、现实上可以作念得更好"的处理经由。通过两个谬误改变，他们让模子处理高清图片的计较量径直减少了55.8%，同期在多项巨擘测试上的弘扬不仅莫得着落，甚而在某些任务上还略有普及。这个系统被定名为LLaVA-UHD v4。

**一、AI是怎么"看图"的？先搞领会这个问题**

要明白这项相关的冲突，先得搞领会AI处理图片的经由，就像了解一个工场的分娩线一样转折。

现存的多模态AI系统处理图片时，大致经过两个谬误要津。第一个要津是"视觉编码"，可以把它明白为图片参预AI大脑后的"预处理"阶段——认真这个职责的是一个叫作念"视觉编码器"（Vision Transformer，简称ViT）的组件，它把图片分红许多小格子（称为"图块"或"token"），然后让每个小格子王人和其他通盘小格子相互"交流"，从而明白图片的内容。第二个要津是"语言明白"，经过视觉编码器处理后，这些小格子的信息被送入语言大模子，语言模子把视觉信息和翰墨问题联接起来，给出最终的回答。

问题碰巧出在第一个要津。当图片很大、很领会时，被切成的小格子数目就会相配多。而视觉编码器在处理这些格子时，要让每个格子王人和其他通盘格子相互交流——这个过程的计较量，会跟着格子数目的加多呈**闲居级增长**。格子数目翻一倍，计较量就变成原来的四倍；格子数目加多三倍，计较量就变成原来的九倍。这便是"高清图片处理效用瓶颈"的根底所在。

现时业界的主流作念法是在视觉编码器完周至部计较之后，再用一个"压缩器"把宽绰格子合并压缩，减少送入语言模子的信息量。这么作念如实收缩了语言模子的包袱，但视觉编码器里面那海量的计较依然发生了，无法追回。这就好比一家餐厅，厨房依然把一百说念菜全部作念完毕，才意志到其实主顾只需要二十说念——食材和时代王人依然破钞掉，无法救援。

清华团队的中枢洞悉是：**问题要在泉源科罚**。他们从两个地点同期脱手——从头凝视图片送进编码器之前的处理方式，以及在编码器里面更早地完成压缩职责。

**二、一个被业界冷落的直观：切片比合座更好**

当一张高清大图需要被AI处理时，频频有两种计谋。第一种叫"全局编码"：把整张图片径直塞进视觉编码器，让它一次性处理通盘内容。第二种叫"切片编码"：把大图切成几许个小块，让编码器阔别处理每个小块，再把截止合并。

直观上，全局编码听起来更好——毕竟编码器能看到完竣的图片，通盘区域之间王人能相互"交流"，莫得信息耗费。切片编码则像是蒙住了编码器的大部分视线，只让它一次看一小块，似乎会丢失跨区域的合座信息。正因如斯，业界许多当先的多模态模子（包括一些有名交易产物背后的时代决策）王人倾向于使用全局编码。

然则，清华团队通过严格的对比实验发现，这个直观是错的。在使用疏导的视觉编码器、疏导的语言模子、疏导的查验数据量，以及疏导的最终压缩比例的条件下，切片编码在简直通盘测试中王人优于全局编码，有时差距还十分权臣。

相关团队在一系列涵盖数学推理、翰墨识别、图表明白、视觉问答等多种类型的八项巨擘测试上进行了系统相比，阔别测试了4倍压缩和16倍压缩两种竖立，以及400万和800万两种范围的查验数据，想到四种组合。在通盘四种组合中，切片编码的平均得分均高于全局编码，上风幅度从0.5分到1.7分不等。

尤其值得热心的是翰墨识别类任务（OCRBench测试）。在这类任务中，AI需要识别图片中的小字、表格数字、文档内容等细节，对"局部精度"要求极高。切片编码在这类任务上的上风最为杰出，在四种测试竖立均阔别当先3.6到5.5分——这是一个十分权臣的差距。

为了确保这个论断不是未必，团队还用另一个视觉编码器（MoonViT，一个专门针对原始高分辨率图像查验的模子）重叠了实验，截止切片编码依然保抓了约1.5分的平均上风；当他们把切片的分辨率进一步普及（使用更大的切片决策）时，上风进一步扩大到越过2分，况兼莫得出现饱和的迹象。

为什么切片编码反而更好？相关团队给出的讲明注解颇挑升念念。谬误不在于全局信息的"有无"，而在于注意力资源的"分派方式"。全局编码时，编码器要同期处理整张大图的通盘内容，一张复短文档图片里，翰墨区域的细节要和图片布景、讳饰元素争夺同等的计较资源。而切片编码时，每个小块内的注意力资源是高度衔接的，编码器能更充分地挖掘每个区域里面的细巧结构——比如密密匝匝的小字、表格中的数字风景、图表的局部标注。这种"局部专注"的特色，恰好契合了高清图片处理中最难也最转折的需求：对细节的精确感知。

**三、压缩器的采取：浮浅的结构时常赢过复杂的结构**

详情了切片编码更优之后，团队还需要回答另一个问题：视觉编码器输出的宽绰格子，在送入语言模子之前，用哪种方式压缩恶果最好？

咫尺业界主要有两类决策。一类叫"重采样器"，道理是让一批事前设定好数目的"学习查询"（可以明白为一批"代言东说念主"），通过雷同投票的方式，从宽绰视觉格子中集中信息，把成百上千个格子的内容压缩到几十个"代言东说念主"身上。这种设施在Flamingo、BLIP-2等有名模子中被庸俗使用。另一类叫"MLP压缩器"，道理更径直：把相邻的几个格子合并成一个，把它们的特征信息拼在一说念，再经过一个浮浅的神经集中映射，完成压缩。

相关团队在疏导条件下对两者进行了对比。截止是MLP压缩器在通盘测试竖立中王人优于重采样器，在压缩比例较低（4倍压缩）时上风最为较着，当先幅度达到3.3到6.7分。跟着压缩比例增大（16倍压缩）、查验数据范围加多，差距有所收窄，但MLP长期保抓当先。

背后的原因其实并不复杂。MLP压缩器是把相邻的格子径直合并——合并后的每个新格子，仍然对应图片中一个明确的局部区域，空间位置信息被完竣保留。重采样器则是通过学习的方式动态汇注信息，输出的"代言东说念主"不再和图片中的固定位置对应，空间结构被打乱了。对于需要明白图片局部细节和空间关连的视觉任务，这种空间结构的保留至关转折，而重采样器碰巧在这少许上自然处于弱势。

真谛的是，重采样器的参数目频频更大（在低压缩比竖立下尤为较着），但参数多并不可弥补空间信息丢失的短板。由此，团队竖立了以切片编码加MLP压缩器行动基准决策，并脱手攻克简直的中枢困难。

**四、在"活水线最前端"动刀：LLaVA-UHD v4的中枢创新**

切片编码和MLP压缩器组合在一说念，依然是一个十分可以的决策。但有一个根人性的效用问题仍然莫得科罚：无论压缩器多高效，视觉编码器里面的计较量依然莫得减少。编码器照旧要把每张切片的通盘格子走全王人部计较经由之后，压缩器本领介入。

清华团队问了一个浮浅而谬误的问题：**为什么不把压缩的时代点提前到编码器里面呢？**

这个主义看似自然，现实操作却充满风险。视觉编码器频频是在海量图片数据上事前查验好的复杂系统，其里面每一层王人对前一层输出的特征有精确的"渴望"——就像一条精密的活水线，每说念工序王人依赖上一说念工序产出特定例格的半制品。要是贸然在半途插入一个立时运飘零的压缩模块，输出的格子数目一霎减少，特征散播也随之改变，后续各层就会接纳到与预期全王人不符的输入，轻则性能大幅着落，重则通盘系统崩溃。开垦这种毁伤需要宽绰颠倒的查验，况兼不一定能全王人恢规复来的性能水平。

团队筹备了一套精妙的科罚决策，并为它起名叫"参数复用早期压缩器"（intra-ViT early compressor，简称D）。这个压缩器的中枢筹备辞退三条原则：它必须插在编码器里面（而非外部），必须尽可能靠前（以最大化省俭后续层的计较量），以及必须不破损编码器依然学到的特征默示体系。

压缩器D的里面结构由两个技艺组成。第一步叫"窗口注意力"：在压缩之前，先让每个格子和它相邻的三个格子（组成一个2×2的小窗口）相互交流、相互和会，让每个格子王人能感知到我方周围的高下文。这一步很转折，因为接下来要把这四个格子合并成一个，在合并之前先让它们充分交流，信息耗费就会小得多。第二步叫"下采样和会"：把这个2×2窗口里的四个格子径直合并成一个，通说念维度变为原来的四倍，再经过一个轻量级的神经集中映射回原来的维度，完成压缩。经过这两步，蓝本N个格子变成了N/4个格子，序列长度缩小为原来的四分之一。

然则，如何运飘零这个压缩器，才是科罚"破损原有特征体系"问题的谬误所在。团队接收了一个极其贤慧的计谋：**径直复用压缩器插入位置前一层的预查验权重来运飘零D**。

具体来说，窗口注意力部分的参数径直拷贝自相邻的编码器层，只是把蓝本的全局注意力换成了局部的2×2窗口注意力（注意力机制的权重自己不变）。和会MLP部分的参数则被构形成：模拟"把前一层的前馈集中沉寂哄骗于窗口内每个格子，然后取平均"的操作——这在数学上是可以通过特定的权重矩阵构造已毕的。这么一来，在查验刚脱手的第一步，这个压缩器的行径就依然相配接近于"先走一遍相邻层的计较，再作念平均合并"，而不是立时噪声。系统从一个接近合理的起原脱手微调，而不是从一派零散中从头摸索。

团队经过实验详情，将压缩器插入在编码器第6层之后（SigLIP 2编码器共有几许层），是恶果和效用的最优均衡点。插得太早（比如第3层之后）会导致不欣然性的性能崩溃——平均得分从约70分跌落到不及40分，因为编码器前几层刚刚脱手处理图片的原始像素信息，尚未形成有语义道理的特征，此时强行合并等于径直摈弃原始信息。插在第9层或第15层之后则恶果略低于第6层，况兼省俭的计较量也更少（因为越靠后，前边依然走完的层就越多）。第6层恰平正于一个"甘好意思点"：编码器依然累积了迷漫的语义特征，格子之间的合并是安全的；尔后续还有宽绰计较层需要走完，将它们的格子数目压缩到四分之一所省俭的计较量极为可不雅。

通盘LLaVA-UHD v4的完竣经由如下：一张高清图片先被切分红缩略图加几许高清切片，阔别送入视觉编码器；编码器走完前6层之后，压缩器D将每张切片的格子数目压缩为四分之一；编码器剩余的层在这个四分之一的格子数目上不竭计较；编码器输出后，MLP压缩器再次将格子数目压缩到原来的四分之一；最终送入语言模子的格子数目是运转格子总额的十六分之一，而视觉编码器里面后续各层的计较量也胁制到了原来的约四分之一。

**五、实验截止：数字语言**

相关团队用五种不同范围的查验数据（从400万到6400万样本）对LLaVA-UHD v4和"仅用编码器后压缩"的基准决策进行了系统相比，评测在八项圭臬测试上张开。

计较量方面的改善相配直不雅。处理一张切片所需的视觉编码计较量，从基准决策的3555G FLOPs胁制到1573G FLOPs（FLOPs是洽商计较量的单元），降幅达55.75%。换句话说，完成通常的视觉编码任务，只需要原来不到一半的计较资源。

性能方面的弘扬通常令东说念主舒坦。在五个查验范围竖立下，LLaVA-UHD v4的平均得分与基准决策的差距长期在±0.8分以内，平均偏差仅为-0.29分——简直可以忽略不计。跟着查验数据从400万扩大到6400万，两个系统王人在抓续向上，LLaVA-UHD v4从67.4分普及到75.6分，基准决策从68.2分普及到76.2分，相互的差距并莫得跟着查验范围扩大而系统性地拉大，讲明这种压缩筹备不会在更大范围查验下变成短板。

具体到各项测试，两个系统互有赢输。LLaVA-UHD v4在数学视觉推理（MathVista）测试上，用6400万数据查验时反而略高于基准决策（76.9对76.3）；在中语多模态明白（MMBenchCN）测试上，用6400万数据查验时二者基本抓平（86.5对86.4）。基准决策在某些通用视觉问答测试上略有上风，但差距宽绰很小。

团队还对压缩器的各式筹备变体作念了详备对比。只是使用最浮浅的平均池化设施（径直把四个格子的值取平均合并）插入编码器里面，平均得分会从70.6分降到69.6分；稍复杂一些的立时运飘零MLP压缩器可以回话到69.8分，但依然低于基准决策。只加入参数复用运飘零（不加窗口注意力）能普及到69.9分；只加入窗口注意力（不作念参数复用，立时运飘零MLP）可以普及到70.1分。当两者同期使用时，得分达到70.7分，不仅回到了基准决策的水平，还略略越过了它。相关团队把这个形式神气为"超加法效应"：两种机制合在一说念的恶果，越过了各自单独恶果的浮浅叠加。原因在于，窗口注意力让相邻格子在合并前充分交流，而参数复用运飘零让合并后的格子恰平正于后续编码器层所"期待"的特征空间中——两者不可偏废，单独使用任何一个王人不可充分科罚"压缩之后特征不兼容"的问题。

**六、相关的局限与异日地点**

这支相关团队对我方职责的局限也有领会的相识，并在论文中坦诚地列出了几点值得注意的地方。

现时的压缩器对图片通盘区域一视同仁，以固定的比例进行压缩，无论某个区域是密密匝匝的翰墨照旧纯色的布景。更设想的决接应该能凭据内容的复杂进程动态调养——对信息密集的区域保留更多格子，对信息寥落的区域更激进地合并。这种"按需分派"的动态压缩是一个值得探索的地点。

此外，压缩器插入的最好位置（第6层）是专门针对SigLIP 2这个特定的视觉编码器测试得出的论断，换用其他结构不同或层数更多的编码器时，可能需要从头详情这个参数。

切片编码自然在细节感知上弘扬出色，但它自然地把图片切成了几许沉寂处理的块，不同切片之间的空间关连主要靠一张低分辨率的缩略图来"兜底"。对于某些需要跨越大范围区域本领明白的视觉问题，这种方式仍然存在一定的信息耗费。

归根结底，这项相关最转折的孝敬，八成不单是在于LLaVA-UHD v4这个具体系统，而在于它通过严谨的实考据明了两件让业界从头念念考的事情：阿谁被默许为"更好"的全局编码决策，现实上未必比切片编码更优；以及，阿谁被视为"难以逾越"的视觉编码器里面压缩困难，通过参数复用运飘零的玄妙筹备是可以安全科罚的。当处理高清图片所需的计较量可以砍去一半以上，而恶果简直不打扣头，这意味着异日AI助手在手机上实期间析高清像片、在低功耗设备上明白复短文档，王人变得愈加可期。算力不再是拦路虎，细节感知的极限也可以抓续上前鼓舞。

Q&A

Q1：切片编码和全局编码有什么现实区别，为什么切片编码反而更好？

A：全局编码是把整张图片一次性送入视觉编码器处理，通盘区域在合并个注意力空间里相互竞争计较资源。切片编码则把大图分红几许小块阔别处理，编码器在每个小块内能更衔接地挖掘局部细节。实验标明，对于翰墨识别、文档明白等需要细巧感知的任务，这种"局部专注"的方式比全局注意力更灵验，在OCRBench测试中当先差距可达3.6到5.5分。

Q2：LLaVA-UHD v4的参数复用运飘零具体是怎么作念的？

A：在视觉编码器第6层之后插入压缩模块时，该模块的全部参数王人径直从相邻的第6层预查验权重叠制而来，而非立时运飘零。窗口注意力部分径直拷贝第6层的注意力权重，和会MLP部分则被构形成模拟"对窗口内四个格子各跑一交替6层前馈集中然后取平均"的数学等效操作。这么查验一脱手，压缩模块的行径就接近合理气象，不会破损后续编码器层所依赖的特征散播。

Q3：LLaVA-UHD v4减少的55.75%计较量具体体咫尺那处？

A：减少的计较量主要来自视觉编码器里面。压缩模块在编码器第6层之后就把格子数目胁制到四分之一开云体育，编码器后续的通盘层王人只需要处理原来四分之一数目的格子。由于编码器里面的计较量和格子数目的闲居成正比，格子数目变为四分之一后，后续各层的计较量高兴胁制到原来的十六分之一，合座下来视觉编码的想到较量从3555G FLOPs降至1573G FLOPs，降幅为55.75%。

友情链接：