
2026 年,大厂们不再比谁的 GPU 多,而是比谁的算法智谋。
作家丨陈淑瑜
裁剪丨岑 峰
个在 2026 年越来越难以狡饰的问题是:如若 H100 断供、电费账单直线飙升、磨真金不怕火次大模子的老本足以买下创业公司,大模子的故事还讲得下去吗?
也许顶学术会议的论文能给大个新的启发。
本年的 CVPR 收到了四千余篇投稿,其中个明晰的信号正在袒露:大厂不再比拼 GPU 数目,而是较量如何把 GPU 用得好。算力顽固之下,算法正在成为新的护城河。
在论文的汪洋中,字节跳跃 Seed 团队是脱手密集的玩之。
AI 科技指摘聚焦四篇来自字节跳跃的论文—— TEMF、Beyond Token Eviction、Mixture-of-Depths Attention 和 GenieDrive。它们完全围绕个中枢命题伸开:当算力不再不祥 " " 惩处,算法如何接棒?
这四篇论文覆盖了条齐备的链条:从生成模子的采样步数压缩,到理过程的显存瘦身,再到谨防力计较资源的动态分拨,终延长到端侧部署的物理感知。它们不是孤单的翻新,而是 Seed 团队围绕 " 算力降本 " 这命题出的组拳。
01
采样放慢:步生成的圭臬跨越
地址:大城县广安工业区大模子的理老本,很猛进度上藏在采样步数里。
以 Stable Diffusion 为代表的多步迭代生成,个看似简单的 512 × 512 图像,背后可能是 50 到 100 次神经网罗前向传播。磨真金不怕火时模子学到的是"每步该若何加噪",但理时模子需要作念的是"每步该若何去噪",这两个过程不合称,磨真金不怕火所在与理所在之间存在说念看不见的罅隙。
传统 MeanFlow 的圭臬差距问题正源于此:步生成的质地恒久法与多步采样竞争,而多步采样意味着成倍加多的算力破钞。
字节跳跃 Seed 团队提交的 TEMF(Temporal Equilibrium MeanFlow)恰是对这逆境的径直恢复。
TEMF 的中枢想象是让模子在磨真金不怕火阶段就同期学习"从数据到噪声"和"从噪声到数据"的双向变换,而非像传统归化流那样只学习单向映射。
双向建模的果立竿见影,模子在磨真金不怕火时就郑重了反向采样的旅途,理时不再需要依赖多步迭代来逐步简略,不错径直从噪声动身、在单次前向传播中完成统统这个词生成过程。
这种从百次计较到次计较的跨越屯昌储罐保温厂家,在现实部署中带来的老本削减是数目的。
论文地址:
https://cvpr.thecvf.com/virtual/2026/poster/39823
专门旨道理的是,这说念罅隙的修补并非唯有种解法。同期 Meta 发表的 Improved Mean Flows 从道理层面分析了快转发声模子磨真金不怕火与理不合称的根源,并冷落了我方的更始框架。(Improved Mean Flows 的论文解读可阅读:何恺明团队论文全景扫描:场对于「生成范式」的多角度打破 | CVPR 2026)
论文地址: https://arxiv.org/abs/2512.02012
两支立团队在竟然同期间节点作念出了相同的技能判断—— 步生成不是天夜谭,重要在于弥磨真金不怕火与理之间的结构罅隙。这不是巧,这是行业共鸣正在酿成的信号。
02
显存瘦身:KV Cache 的压缩
如若说 TEMF 惩处的是计较次数的问题,那么另篇字节跳跃 Seed 团队的责任 Beyond Token Eviction,则直指理过程中另个掩饰的老本中心:显存占用。
厚实 KV Cache 的机制,是厚实大模子理老本的重要切口。
当大言语模子处理段文本时,它需要记着此前统统词元的信息才气生成下个词元。每个经过谨防力计较的词元,齐会在显存中留住组对应的向量,这些向量是模子"高下文操心"的物理载体。
问题在于,这种"操心"是只增不减的。当高下文窗口从 4K 扩展到 32K、再到 100K,KV Cache 的显存占用也在同步扩张。
个有 100K 高下文窗口的模子,仅 KV Cache 就可能破钞 40 到 60GB 的显存,而消费显卡的显存上限不外 24GB,就连业 A100 也不外 80GB。也便是说,在不远的未来,显存瓶颈会比计较瓶颈早到来。
传统解法" Token Eviction "是在显存压力过大时,将部分"不那么首要"的旧 Token 松手出去,开释空间给新的 Token。
而 Beyond Token Eviction 的打破则在于"混维度预算分拨"计谋。它不再将 Token 的存留视为非此即彼的二元判断,而是允许不同 Token 领有不同的"精度维度"所在。首要的 Token 保留的维度,从而齐备存储其语义信息;不那么重要的 Token 被压缩到低的维度,以少的空间保存其中枢语义。
这种"混维度"计谋的骨子是对信息作念"有损压缩"而非"删除"。被压缩的 Token 仍然保留着填塞用于后续理的语义信息,而模子通过磨真金不怕火学会了"自符合地"判断哪些 Token 值得精度、哪些不错罗致低精度。
系统不再需要在"沿途保留"和"沿途丢弃"之间作念礼聘,而是在精度与率之间找到了个可调的平衡点。
用于 KV 缓存压缩的双阶段尺寸分拨经由
清贫的是,这套案需对模子进行任何重磨真金不怕火。云厂商不错径直将它部署在现存理框架上,以工程侧的轻量编削疏浚显存占用的大幅着落。
论文地址:https://arxiv.org/pdf/2603.20616
这恰是现时大厂在降本旅途上求实的礼聘:不是翻重来,而是在既有架构上作念"微创手术"。
03
计较对等:让模子我方分拨算力
采样步数降了,显存空间省了,管道保温施工但字节在谨防力计较的率问题上也莫得闲着。他们的 Mixture-of-Depths Attention,从计较资源分拨计谋的维度提供了种正交解法。
传统 Transformer 在处理每个 Token 时,齐会推广齐备的谨防力计较。这意味着,即使某个 Token 在现时语境下的语义孝敬渺不足道,它仍然会破钞与其他 Token 同等的计较资源。这种"视同仁"的计总共谋,骨子上是种隐的算力铺张。
新的念念路由此动身:并非统统 Token 齐需要被"度处理"。它引入了种动态路由机制,让模子在运转时自主决定——哪些 Token 值得走齐备的谨防力计较旅途,哪些 Token 不错被引至轻量的快速旅途。
混度谨防力机制 MoDA
遵守随之而来:系统层面的有计较量权贵着落,但模子输出的质地并未等比例衰减。真确首要的 Token 仍然获得了充分的计较资源,而浩荡"搭便车"的 Token 被引至旁路。
这种"让模子我方判断齐齐整整"的念念路,代表了算法层面"降本增"的种雅旅途。这与混(MoE)模子的想象玄学脉相承,但不是统统这个词模子层的切换,而是在每个谨防力层作念细粒度的资源诊疗。
模子在磨真金不怕火过程中学会动态分拨计较预算,而非通过硬编码的寥落轨则强行削减计较量——好钢用在刀刃上,这是 2026 年算法工程师们但愿模子学会的本领。
论文地址:https://arxiv.org/pdf/2603.15619
04
端侧部署:物理感知驱动的寰宇模子
上述三篇责任竟然齐在回答同个问题:如安在有限的算力拘谨下,让模子跑得快、占得少。但字节跳跃在 GenieDrive 这篇责任中,冷落了个远见的问题:模子在端侧能作念什么?
自动驾驶的视觉感知系统,直是算力武备竞赛的重灾地。传统自动驾驶的感知系统依赖多传感器融,各司其职又互相冗余,在算力有限的镶嵌式平台上纳屦踵决。
GenieDrive 把这个问题拆解得了层。它搭建了种"物理感知驱动的 4D 占用引生成"框架,不再将视觉感知视为个"看懂图像"的问题,而是将其视为个"厚什物理寰宇如何运转"的问题,不仅让模子生成视觉上传神的驾驶场景,还让模子具备对物理规矩的基智商悟,比如通顺物体的轨迹投诚物理动量、遮盖干系投诚空间致、光照变化投诚物理反射模子。
这种想象的径直果是:GenieDrive 生成的不是段"视觉上传神的",而是个"物理上委果的 4D 模拟环境"。
当这个模拟环境不错径直处事于下贱的轨迹策画和方案截止时,端侧模子的营业价值就越了单纯的速率竞赛。比如说如若模子不祥准确瞻望"两秒后前车辆会因为惯不竭滑行两米",这个信息对于迫切制动的方案价值,远于"阿谁地有辆车"的语义标签。
值得谨防的是,GenieDrive 的并不来自单算法的打破,而是来自" 4D 暗示 + 物理先验 + 端到端联化"的协同想象。它代表了 2026 年大厂在视觉表征上的另条旅途:不仅仅让模子跑得快,而是让模子"想得少、作念得准"。
https://www.paperdigest.org/paper/?paper_id=cvpr-36900-2026-04-21
05
结语:算法天才的元年
纵不雅字节跳跃 Seed 团队在 CVPR 2026 上这四篇论文,个明晰的叙事正在袒露:算力顽固并莫得死翻新,反而催生了种致密的工程玄学。
TEMF 用"时候平衡"弥了磨真金不怕火与理的结构罅隙,古老生成从不行能变成了工程现实;
Beyond Token Eviction 用"混维度"重新界说了信息的弃取计谋,让显存压缩从狡滑删除变成了精粹调控;
Mixture-of-Depths 让计较资源学会了「按需分拨」,让模子我方成为计较预算的智谋管;
GenieDrive 则将表援引向了物理可阐述的端侧诳骗,让速率竞赛升维为智能竞赛。
这四条旅途指向同个论断:2026 年不是"大模子时间的收场",而是"智谋模子时间的元年"。当堆砌算力的旅途变得不行抓续,那些不祥用少资源作念多事情的算法天才,正在成为这个时间稀缺的东说念主才。
对于 CTO 和云厂商而言,字节的这组论文给出了个明晰的信号:与其恭候下代芯片的算力进步,不如今天就拥抱这些算法化带来的降本红利。
对于软硬件建造者而言,这意味着新的契机窗口正在开:适配 ELSA 这类硬件关内核的编译器化、基于动态谨防力路由的模子压缩器具、面向 4D 物理感知模子的端侧部署框架,每个时局齐是尚未被充分拓荒的富矿。
算力顽固的骨子是说念佛济命题,但它的解法,终要靠算法给出。
雷峰网
相关词条:铁皮保温施工 隔热条设备 锚索 离心玻璃棉 万能胶生产厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。


