【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」(DnD),它可以基于提示词快速生成模型参数,无需微调就能适应任务。不仅效率最高提升12000倍,而且具备出色的零样本泛化能力。 刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员,提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs! 通过一个轻量级文本编码器与一个级联超卷积解码器的组合,DnD能在数秒内,仅根据无标签的任务提示词,生成针对该任务的LoRA权重矩阵。 通过观察,研究人员发现,LoRA适配器无非是其训练数据的一个函数:梯度下降会将基础权重「拖拽」至一个特定任务的最优状态。 为了赋予模型「拖拽」的能力,团队将这些数据集的提示词与收集到的LoRA权重进行随机配对,构成DnD模型的训练数据——即「提示词-参数」对。 在推理阶段,团队只需将来自全新数据集(训练中未见过)的提示词输入DnD,仅需一次前向传播,即可获得为该任务量身定制的参数。 实验结果表明,在零样本测试集上,团队的方法相较于训练所用的LoRA模型的平均性能,取得了惊人的提升,并且能够很好地泛化到多种真实世界任务和不同尺寸的LLM。 此前,他在中国科学技术大学获得人工智能学士学位。并曾在北卡罗来纳大学教堂山分校Huaxiu Yao教授的指导下进行实习,以及在中国科学技术大学数据科学实验室跟着导师Xiang Wang度过了两年的时光。 Zhangyang Wang目前是德克萨斯大学奥斯汀分校钱德拉家族电气与计算机工程系的终身副教授,并荣膺坦普尔顿基金会第7号捐赠教席。 他于2016年获伊利诺伊大学厄巴纳-香槟分校电气与计算机工程博士学位,师从计算机视觉泰斗黄煦涛(Thomas S.Huang)教授;并于2012年获中国科学技术大学电子工程与信息科学学士学位。 核心目标是创建结构化、模块化的模型表示:1)在过参数化模型空间中实现高效、鲁棒的学习;2)与符号知识及推理进行无缝连接。 此前,他在新加坡国立大学获得数据科学与机器学习博士学位,在中国科学院深圳先进技术研究院获得计算机技术硕士学位,在北京师范大学珠海校区获得学士学位。
《老板办公室办公桌顶着会议桌》现年27岁的道格拉斯-路易斯去年夏天以5150万欧元的价格从维拉转会至尤文,但此后他代表尤文出场26次,其中仅有6次首发,0进球0助攻,表现令人失望。中国同中亚国家关系有着深厚的历史渊源、广泛的现实需求、坚实的民意基础,在新时代焕发出勃勃生机和旺盛活力。自首届中国—中亚峰会成功召开以来,中国同中亚国家不断拓展经贸关系、深化互联互通,共同打造深度互补、高度共赢的合作新格局,高质量共建“一带一路”成果更加丰硕,为构建更加紧密的中国—中亚命运共同体注入强大动能。《老板办公室办公桌顶着会议桌》真人做aj的视频教程大全据央视新闻报道,当地时间今天(6月20日)清晨,伊朗向以色列发射新一波导弹。防空警报已在以色列南部多个城市拉响,其中包括6月19日被导弹击中的贝尔谢巴,还有此前曾被伊朗导弹瞄准的内盖夫和迪莫纳等地。直播吧6月16日讯 世俱杯小组赛B组第1轮 巴黎圣日耳曼对阵马德里竞技,比赛在玫瑰湾体育场进行。上半场,克瓦拉茨赫利亚助攻法比安-鲁伊斯先拔头筹,维蒂尼亚反击破门。半场战罢,巴黎暂2-0马竞。
20250814 🖤 《老板办公室办公桌顶着会议桌》为了提升其专注的品牌形象,它希望有一个知名的、具有很高的国际知名度的人物,并愿意为运营的经济部分做出贡献。在阿迪达斯管理层看来,仅仅拥有一个名字就代表着结果的保证,尤其是考虑到如果意大利再次无缘2026年世界杯将会是巨大损失。对于意大利足协来说也是如此,因为它将损失赞助商担保金额的很大一部分。少女国产免费观看高清电视剧大全路威表示:“我在思考这笔交易,不管怎么样,火箭都会尝试摆脱杰伦-格林,他们想要搞清楚怎么送走杰伦-格林,然后以申京为核心。当你还可以得到杜兰特时,你肯定会让这笔交易发生(笑)。”
📸 王秋个记者 李仁峰 摄
20250814 🔞 《老板办公室办公桌顶着会议桌》“即使我们刚刚赢下了欧冠冠军,我们依然保持着动力和良好的比赛强度。我们必须继续保持这种状态,保持谦逊,继续奔跑,继续防守。今天,我是队中经验较为丰富的一员,我努力帮助并激励年轻球员。”电影《列车上的轮杆》1-4迪马济奥表示,那不勒斯正在与安古伊萨商谈续约。他们原本有将这位中场的合同延长一年的选项,但他们并未行使该选项。
📸 苗国强记者 张国辉 摄
🔞 近日,蚂蚁的研究团队为这个问题带来了一个新思路。就像人类开卷考试只会挑和当前问题相关的关键页作为参考,语言模型也可以只关注与当前上下文相关的过去片段。以此为出发点,他们提出一种基于因果检索的注意力机制 GCA (Grouped Cross Attention),完全端到端地学习如何从上文检索并挑选最相关片段,从而实现超长序列高性能处理与泛化能力。人类记忆的另一个特性是大部分时候记忆处于沉睡状态,相关记忆片段只会在激活时进入意识。类似地,GCA 通过将上文信息卸载到 CPU / 磁盘,只在需要的时候动态加载需要的片段到 GPU 的方式,大幅降低了长文本处理的显存开销。www97caogovcn