随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection的核心思想是在智能体的各个训练阶段引入“反思与纠错”机制,这一机制贯穿预训练、监督微调和在线训练全过程,模拟了人类“犯错→反思→重试”的认知过程。 GUI预训练阶段:提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打下基础。离线监督微调阶段:构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的行为数据,让模型成功习得反思纠错行为。在线训练阶段:搭建分布式移动端GUI学习环境,并设计迭代式反思反馈调优算法,让模型在与真实环境交互中进一步提升相关能力。 GUI-Reflection 是一个贯穿训练全过程的框架,旨在系统性地赋予多模态GUI智能体以“自我反思与纠错”的能力。该框架由三大关键阶段组成,分别对应模型能力的认知启发、行为习得与交互强化: 现有GUI预训练多聚焦于界面理解和操作感知,而忽视了反思相关的原生能力构建。GUI-Reflection 首次提出专为反思设计的GUI-Reflection Task Suite,包含三类关键任务: Action Verification(动作验证):判断某一步操作是否达成了预期目标,训练模型识别执行偏差。Action Reversal(动作回滚):学习如何撤销错误操作,回退到正确的任务路径。Mistake-Informed Reattempt(基于错误的再尝试):在明确过去错误的前提下,生成新的、改进的操作策略。 针对当前GUI数据集缺少犯错和纠错数据的问题,GUI-Reflection设计了一个自动化反思纠错数据生成管道。该方法从已有成功轨迹中自动构造出“带错轨迹”与“纠错行为”,实现数据维度上的“反思注入”。具体包括: 目标扰动生成错误行为:通过修改原始任务目标,使模型原本的动作在新目标下变成“错误”动作,并构建对应的反思错误行为数据。行为插入模拟失误:向成功轨迹中插入无效操作,让模型对无效错误操作做出反思并尝试新的正确操作。 为了进一步提升模型在真实环境中的适应能力,GUI-Reflection构建了一个分布式安卓模拟环境,涵盖11个app和 215 个任务模板,支持高并发交互。基于此环境,GUI-Reflection设计了一种自动化迭代式在线反思调优算法: 成功轨迹将被细粒度验证,仅保留每一步的有效执行;失败轨迹则被自动定位错误步骤,并为该步骤自动生成前向修正(Pre-Error Correction)与后向反思(Post-Error Reflection)操作。 通用大模型(如 GPT-4o、Gemini)在GUI任务中具备不错的原生反思能力,能够初步识别错误并进行合理推理;小规模开源模型在这方面能力明显不足,尤其在面对失败操作时难以自我修复;更关键的是,现有的标准GUI预训练流程,反而会削弱模型原本具备的反思能力 当在预训练阶段引入反思导向任务数据,即使是较小规模的模型,也能显著提升其在反思相关任务中的表现,甚至达到接近闭源大模型的水平。 在离线监督微调阶段引入反思类数据,可以显著提升模型的任务完成表现;进一步结合在线反思调优算法进行训练,模型的成功率持续提升,表现出更强的泛化能力与稳定性。 GUI-Relection-8B模型在AndroidWorld基准中也实现了 34.5% 的成功率,证明了GUI-Reflection框架的有效性。这一系列结果充分表明:在多个训练阶段显式引入反思机制,是提升GUI智能体能力的关键路径,而不仅仅依赖大规模演示数据或强模型本身。 GUI-Reflection为端到端多模态 GUI 智能体注入了全新的“自我反思”能力。从预训练、离线微调到在线交互,它系统性地打通了“犯错—反思—修正”的认知闭环,使模型在面对真实环境中的不确定性时,能够更加鲁棒、灵活地应对各种突发状况。
快射精了又憋回去要多少时间恢复作为一位36岁的老将,张帅的对手是美国选手戴维斯,比赛打得非常轻松,第一盘凭借第六局的关键破门,比分6-3拿下,随后第二盘开局5-1领先,最后6-2再胜,大比分2-0完成横扫。此次出征世俱杯,曼城携27人阵容赴美,包括新援谢尔基、努里、赖因德斯和贝蒂内利。若非跟腱伤势导致缺阵,科瓦契奇也将随行。快射精了又憋回去要多少时间恢复姨母的绣感中字3恩里克:“没有(笑)。您想让我说什么?这项比赛汇集了世界上最好的球队的平衡组合。我认为将来这可能成为全球的范例,可以看到不同风格、不同球队、每个大陆和国家的最佳球队。也可以看到每个支持者如何体验足球。因此,我认为对于支持者和作为教练的我来说,面对其他球队是非常有趣的。我再说一遍,我们已经知道这项比赛的难度。”为最大限度保证文物安全,研究人员未将针状物全部取出,仅以某段玉管残件和在文保清理过程中从玉管断处掉落的针状物残件为样本进行检测分析,发现其为锻造的炒钢制品,截面直径仅为0.3至0.5毫米。
20250813 💥 快射精了又憋回去要多少时间恢复“不会做赶紧出来,太晚路上要堵车了。”这句话看似轻松幽默,实则蕴含着一种豁达的人生态度。然而,这样的豁达并不是每个家长都能拥有的。免费观看已满十八岁电视剧下载安装该报道表示,费内巴切已经与杜兰的经纪人进行了新的接触,这位现年21岁的哥伦比亚前锋如今是费内巴切引进新中锋的首选。目前费内巴切对于完成这笔交易的信心正在提升,不过他们仍需要为此付出巨大的努力。
📸 李志锋记者 邓文宝 摄
20250813 🔞 快射精了又憋回去要多少时间恢复不仅电影里的主角穷,导演也很穷。动画效果一看就是二十几年前的风格。说它粗糙都是客气,但导演就是把90年代的穷讲究画出了哲学味:掉漆的课桌像抽象画,破洞牛仔裤被月光镶了银边。成品网站免费直播有哪些平台推荐这五年的题其实都或明或暗地考查着考生对于两个概念关系的理解。比如说2020年的“每一颗星都有自己的功用”这是“个体功用”和“整体需求”的关系,“生逢其时”,需要思考“生命”和“时代”的关系,是自己主动地迎上这个时代,还是被动地等着时代碰上自己,或是碰上了好的时代,我应该如何借助时代的推力。 “历久弥新”是要谈“久”和“新”的关系。需要注意的是,这里有些关系其实需要有些条件,考查了考生思维逻辑的严谨性,比如不是所有的久的事物都是新的,需要考生看到只有那些具有前瞻性、永恒性的“历久”之物才会在时间的淬炼中具有新的特质。记叙文的题目是选取既贴近学生的生活,又符合时代的特点的词来命题,体现了时代大命题和个人生命体验的结合,宏大叙事和微观个性化体验相结合的特点,比如“在线”一题,既可以是个人网课的在线,也可以是国家需求、民族使命的在线。“打开”,既可以打开一本私人的日记本,也可以是打开一个国家发展的新领域一个新局面。引导学生关注大时代的故事和小我的故事的结合。记叙文的写作时注意打开自己的作文的层次,多层意义的挖掘、多层关系的阐释会让文章变得丰富和耐读。
📸 刘成胜记者 李安华 摄
🔞 从技术看,未来,心理学启发的决策机制有望让AI在不确定、开放环境中具备更强的判断力,多模态整合能力也将助力AI更好地适应复杂情境。反过来,AI通过生成实验材料,模拟人类互动场景,构建认知模型,反哺心理学研究,助力揭示人脑的复杂机制。噼啪啦噼啪啦叭叭叭啦叭