米兰体育- 米兰体育官方网站- APP下载免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
2025-10-01米兰体育,米兰体育官方网站,米兰体育APP下载【新智元导读】杜克大学团队发现,扩散大语言模型只需关注少量「中奖」token,就能在推理时把速度提升61-97倍,还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息,实现「少算多准」的双赢。
然而,杜克大学陈怡然教授团队的一项最新研究DPad,却揭示了一个反直觉的现象:对于扩散大语言模型(dLLMs),通过一种「先验丢弃」策略,主动减少其计算量,不仅能带来高达61倍的推理加速,还能意外地增强模型语境学习的能力。
这一发现源于对dLLM内部一种「中奖彩票」(Lottery Ticket)现象的洞察。模型在生成文本时,其庞大的注意力网络中似乎隐藏着一个极度稀疏但高效的「中奖组合」。
DPad的核心贡献就在于,它无需训练,便能在推理时动态地、近乎零成本地找出这个组合,从而实现速度与精度的双重飞跃。
论文作者团队来自杜克大学CEI中心,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李海教授、陈怡然教授,其他作者还包括魏迟越、何银涛、张健一。
团队发现,dLLM的独特之处在于双向注意力,这使得它在生成文本时,会关注所有待生成的后文词元(Suffix Token),并将它们用作规划全文的「草稿纸」。
「草稿纸」机制使得模型能在Transformer的第n层往后文写入信息,然后在第n+1层读取后文信息,用于辅助前文的解码。
图1 「草稿纸机制」示意图,左下角为前文往后文写入信息,右上角为前文从后文读取信息
团队进一步分析了模型对后文词元的注意力分数,发现模型对后文词元的注意力随着距离快速衰减,但还是会有一些零星「尖峰」。
这个发现完美契合了深度学习中著名的「彩票假说」(Lottery Ticket Hypothesis)。
受此启发,团队提出了「扩散彩票假说」(Diffusion Lottery Tickets Hypothesis):在dLLM的后缀token中,存在一个稀疏的「中奖彩票」子集,只要能「抽中」它们,就能在大幅降低计算成本的同时,达到甚至超越完整模型的性能。
图2 当前块对后缀token的注意力分数图。可以看到,后文token存在部分尖峰
这也是正常词元剪枝(Token Pruning)的逻辑——统计注意力分数,确定不重要的词元,然后将其删除。
然而,DPad团队并不满足于此,他们进行了一项颠覆性的实验:强行删除那些距离很远、但注意力得分很高的「尖峰」词元。
不同于自回归模型,dLLM展现出了惊人的「自愈能力」,仿佛后文词元的信息可以自由流动,当一个关键路径被阻断时,注意力会立刻转移到邻近的词元上,形成新的信息通路。
图3 「注意力迁移」现象,删除「关键词元」后,模型的注意力尖峰转移到附近词元
这个「注意力迁移」现象有力地证明:dLLM的全局规划能力并非依赖于某些特定位置的「明星词元」,而更像是一种分布式的、可替代的冗余系统。
研究人员并没有必要花费大量的计算去确定「关键词元」,直接先验地剪枝,最终保有一套系统就行。
不再让模型「全力计算后才发现浪费」,而是在计算开始前就果断地丢弃掉绝大部分冗余部分。
1.滑动窗口 (Sliding Window):将模型的「目光」强制聚焦在当前解码位置附近的一个固定长度窗口内,从根本上杜绝了对遥远未来的无效关注。
这好比作家在写当前章节时,只详细规划紧邻的几章,而不是构思最后一章的具体措辞。
2.距离衰减丢弃 (Distance-decay Dropout):在窗口内部,也并非一视同仁。DPad采用一种随距离递减的概率来保留词元,即「越近的草稿越详细,越远的草稿越潦草」。
这两招简单而有效,共同构成了一个动态的「中奖彩票」筛选器,让模型在每一解码步都只使用一个极度稀疏但高效的注意力子集。
图4 (a)自回归模型;(b) 传统dLLM,需要关注所有后缀token;(c) DPad,仅关注附近少数经过筛选的后缀token
在常规评测中,「灵活匹配」(Flexible-Match)只要求答案数值正确,而「严格匹配」(Strict-Match)则要求模型严格遵循范例的格式与推理步骤,是衡量模型「语境学习能力」的关键指标。
图5 「灵活匹配」得分和「严格匹配」得分。原始模型(左)没能按照「####」的格式输出答案,没能通过「严格匹配」;使用DPad(右)后模型成功「记得」按「####」输出答案,通过「严格匹配」
实验显示,原始的LLaDA-Instruct模型在GSM8K任务上严格匹配率仅为37.38%,因为它虽然能算对答案,却无法很好地复刻范例格式。
而应用DPad后,通过滤除大量无关后文词元的干扰,模型能更专注于学习prompt中的有效信息,严格匹配率跃升至63.84%。
当模型不再需要为海量冗余信息耗费算力后,其推理速度得到了指数级解放。在短示例、长文本生成场景下,DPad的优势被发挥到极致:
在LLaDA-1.5模型(1024 词元输出)上,DPad结合并行解码等优化后,实现了61.39倍的综合加速。
在Dream模型(2048 词元输出)上,这一数字更是达到了97.32倍。
它通过一种巧妙的、免训练的「事前筛选」机制,揭示并利用了dLLM中潜在的稀疏结构。
这项工作为我们开辟了一条全新的优化思路:未来的模型设计或许可以更大胆地探究稀疏性,让dLLM在「化繁为简」的道路上走得更远。
09月21日,“向天路 看发展——青藏、川藏公路通车70周年”主题采访活动正式启程,真人正网,就爱玩棋牌游戏大厅,开元平台注册送365,沙巴体育登录注册
09月21日,纪念中日韩合作二十五周年研讨会在长春召开,棋乐棋牌官网,鱼都游戏,99银河官方网站,金沙城娱乐中心网址
09月21日,驻菲律宾使馆提醒在菲中国公民加强节假日期间安全防护,乐动体育登录网址,亚新体育开户网址,K8凯发国际,亚新体育竞彩官网
09月21日澳大利亚举行世界太极武术(功夫)邀请赛凤凰彩票注册App金年会官方在线优德官方网站必博体育官网app
09月21日国家统计局:2023年全年CPI比上年上涨0.2%欧宝官网买球亚盈体育下载银河足球168赌场网站
09月21日广西首次发现大面积珍稀濒危植物贵州山核桃群落澳博世界杯功率必赢亚洲手机端app365体育比分网站注册……
09月21日,(新春走基层)乡土专家和他的一把果树剪刀,球探比分足球即时比分,永利体育登陆,新威尼斯人体育注册,188金博网官网登录
09月21日,广西争取筹措财政资金超10亿元 打造“蓝色粮仓”,88网页游戏,mile米乐集团,gpk二爷捕鱼升级规则,H188和记
09月21日杭州德寿宫红墙灯光秀“上新” 点亮城市夜经济ag九游会国际站官网登录首页鸿博网站登录页面公平公正的十大棋牌ag真人玩的人多吗
09月21日,南京市校园足球教育发展中心揭牌,bob综合体育官网app下载,日博体育体育,必威app最新版,大发体育平台网址
09月21日,【东西问】胡鞍钢:进一步深化改革、中国式现代化将为世界带来什么?,伟德,亚洲亚城区,亚新快速开户,188体育2017版本下载
09月21日,11月中国物流业景气指数为52.8% 需求回升总体向好,AG真人国际厅和旗舰厅有什么区别,贝博体育官方下载,锦利娱乐,多宝世界杯内幕
09月21日“火车拉来的城市”山西阳泉如何打造对外开放门户?乐鱼登陆注册AG旗舰平台尊龙赢博体育官方版下载澳门萄京网上投入
09月21日2024年“文化中国·水立方杯”中文歌曲大赛巴西赛区启幕宝博体育官网入口捕鱼上下分的平台美女精准劲料版皇冠投住网
09月21日“十四冬”单板滑雪平行大回转青年组女子比赛吉林队摘金乐鱼网站在线登录纬来体育官网APP银河娱乐app官方下载AG真人漏洞
小巷人家 林家欢喜庄家愁,姚笛转行做导演【小新的Vlog】“特种兵式”逛“博博会”:一日打卡400余家博物馆拉霸水果机appbwin怎么注册bbin体育比分乐博电子网投
谷歌中国籍工程师承认殴打妻子致死,建议大家购买饮料别加冰25幅梵高画作将在台北展出鹿鼎彩票注册登录在线网上电玩城PP电子GPK金列车永利注册
西安街头遇大群外国人似在国外,消消气 第十二季特朗普提名沃伦·斯蒂芬斯担任美国驻英国大使添运娱乐网上葡京平台米乐体育官网入口菲娱1注册
《文明 7》实机演示公开,mlxg谈Doinb五角大楼:美防长奥斯汀在医院“状况良好” 还在工作国际音标元音音素发音真人版白鲸app杏耀官方登录新东方在线网站
考研国家线,徐园姐姐发声(新春走基层)山西雁门关外施工忙 守好最后一班岗澳门永利入官网老入口新濠天地官网注册vip08体育官网通天特解图
印度股市将试行T加0结算制度,程序员花三万相亲每次聊完即结束中国A股周三“先抑后扬” 主要股指悉数飘红优博国际优德体育w88官网手机版best365官网体育投注平台365bet体育官方中文版
球迷要求杨鸣回归,诗人梁小曼去世 享年50岁雪景+云海+过山云!泰山迎来2024第一场雪大嬴家足球网九五至尊在线od体育app官网下载苹果手机365Bet过关投注
【理响中国 金牌思政课】刘吕红:红旗渠精神的实践生成、精神内核及情感意蕴江西多地闻雪而动 全力做好民生保障工作