EN
www.zqysoft.com

红桃17·c18起草清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式

文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。 近年来,扩散模型(Diffusion Models)和自回归模型(Autoregressive Models)在图像生成中占据主导地位,如 NVIDIA 的 EDM 系列扩散模型和字节跳动以 VAR 为代表的视觉自回归模型。相比 GAN(Generative Adversarial Networks)这类直接优化数据生成过程的隐式生成模型,扩散模型和自回归模型均属于基于似然的生成模型(Likelihood-Based Generative Model),它们显式估计数据的对数似然(log-likelihood),具有训练稳定、样本多样性强、容易规模化的特点 然而,这类模型广泛采用的最大似然估计(Maximum Likelihood Estimation, MLE)训练损失对应的是正向 KL 散度,会导致「mode covering」问题:模型倾向于覆盖所有数据模式而非聚焦主要分布,并且会在低估数据集中任何样本的似然时遭受严厉惩罚,从而使生成结果模糊或失真,在模型容量不足时限制了生成质量。例如,i-DODE 作为专注于似然的模型,虽然在密度估计任务上达到了最先进水平,但在 FID 等视觉质量指标下表现不佳。现有视觉生成模型也往往依赖引导(guidance)方法,如无需分类器的引导(Classifier-Free Guidance, CFG),来抑制低质量生成样本。 为解决 MLE 的局限性,文章考虑使用GAN 式判别的思想,在训练目标中引入反向 KL 散度的成分,强化模型在真实数据附近的密度,同时抑制错误区域,将模型分布由图(a):强调密度覆盖,微调为图(b):强调密度集中,从而提高生成保真度与有限模型容量下的生成质量。然而,直接使用 GAN 损失会引入额外的判别器网络与工程优化上的复杂性,尤其对于扩散/自回归模型这类需要迭代式多步生成的模型。 具体来说,DDO 引入待微调的目标模型和一个冻结的参考模型(均初始化为预训练模型),使用两个模型的对数似然比构造「隐式判别器」,得到可直接应用于扩散模型和自回归模型的 GAN 式优化目标: DDO 为扩散模型和自回归模型提供了即插即用的新训练目标,其微调后的模型和原模型具有完全相同的网络结构和采样方式,而在生成质量上大大增强 更重要的是,DDO无需修改网络结构、不增加推理成本,且与主流 CFG 等引导方法兼容,可叠加使用进一步提升性能。如在视觉自回归模型 VAR 上,微调后的模型通过控制 CFG 的强度,得到的FID-IS 曲线整体显著优于原模型 DDO 参数化的灵感来自于语言模型中的直接偏好优化(DPO, Direct Preference Optimization),但其目标从「成对的偏好对齐」扩展到了「分布对齐」,更为通用。DDO 虽然没有「奖励」的概念,但其中使用自生成样本作为负例的思想也与大语言模型中流行的 RL 算法如 GRPO 具有相似性,这允许模型从错误中反思学习。也就是说,GRPO 中负例的作用同样可以解释为使用 reverse KL 散度抑制 mode covering 趋势从而提升生成质量,这在数学推理等任务中具有重要意义。该思路有望扩展至多模态生成等任务,构建统一的对齐范式

红桃17·c18起草
红桃17·c18起草英国《金融时报》当地时间5月28日曾报道称,尽管市场对美欧谈判的进展持乐观态度,但欧盟高级官员私下却描绘了一幅黯淡的谈判图景。欧盟贸易谈判代表承认,他们不太可能推翻特朗普的“对等关税”,并警告欧洲各国政府,若想要避免全面贸易战,需要作出更大让步。尼古拉-雅克松在本场比赛的第64分钟替补出场,但仅仅4分钟过后他就因为在一次拼抢当中恶意蹬踏对手,主裁判直接出示了红牌将他罚出场外。红桃17·c18起草姨母的绣感中字3现年37岁的奥塔门迪出自萨斯菲尔德青训,他在2020年从曼城转会本菲卡,并效力至今。奥塔门迪本赛季出场50次,打进7球助攻4次,依然保持着不错的状态,但他的合同在今夏到期。芯驰科技、辉羲智能、路凯智行……在亦庄北京市高级别自动驾驶示范区,多家自动驾驶公司逐渐聚集起来。通过系统构建并落实“2+5+N”管理政策体系,示范区在全国首次实现了自动驾驶车辆早晚高峰测试、异地测试结果互认、允许无人配送车上路、开放自动驾驶出行服务商业化试点、开放高速公路测试等多项突破。
20250814 🔞 红桃17·c18起草近期,江西财经大学法学院副教授杨安卓等人在中国科学院主管的重点学术期刊《科学学研究》发文称,主权AI是算力竞争格局下的“概念陷阱”。18岁初中生免费播放电视剧伊朗伊斯兰共和国广播电视台13日报道称,伊朗伊斯兰革命卫队总司令侯赛因·萨拉米13日凌晨被以色列暗杀。这一消息尚未被官方证实。
红桃17·c18起草
📸 王和明记者 李志明 摄
20250814 🔞 红桃17·c18起草“软件是卡不住脖子的,那是数学的图形符号、代码,一些尖端的算子、算法垒起来的,没有阻拦索。困难在我们的教育培养、人才梯队的建设。中国将来会有数百、数千种操作系统,支持中国工业、农业、医疗等的进步。”任正非说,面对外部封锁打压,不去想困难,干就完了,一步一步往前走。(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)满18岁免费观看高清电视剧推荐Jake写道:“据联盟消息人士透露,现阶段情况显然还不明朗,但最常被提及的杜兰特潜在下家是明尼苏达森林狼队和迈阿密热火队。”不过,根据此前的报道,热火向太阳提供的交易报价将以哈克斯或约维奇为核心,搭配必要的薪资配平合同及选秀权,但是热火不愿意将克雷尔-韦尔放进杜兰特的交易方案,但愿意送出小海梅-哈克斯或尼古拉-约维奇作为核心筹码。
红桃17·c18起草
📸 王增贤记者 熊希强 摄
💦 “买卖实验研究数据”“未经同意使用他人署名”“抄袭剽窃”“伪造篡改图片”“抄袭他人基金项目申请书内容”“提供虚假同行专家推荐信”……学术不端的形式让人眼花缭乱,当事人都受到了应有的惩罚,都是其咎由自取。少女国产免费观看高清电视剧大全
扫一扫在手机打开当前页