通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
www17ccomgovcnIT之家注:汉诺塔问题是一个经典的递归算法问题:上帝创造了三根柱子,并在第一根柱子上按顺序套有 N 个大小不同的圆盘(自下而上,圆盘由大到小,呈金字形)。短视频平台也正在经历这个过程。早年,抖音凭借大量充斥着魔性特效、洗脑音乐和套路化剧情的短视频迅速流行起来,但今天,在抖音团队的调研报告里,短视频已经是许多年轻人眼中 “没有营养” 的代表。www17ccomgovcn国产少女免费观看电视剧字幕彭志强:其实AI技术的东西90%是底座大模型在做,这是我说DeepSeek有万亿美元的社会价值的原因。创业者只要做那个“+”的东西,但是他得下决心去做“包工头”,真正为结果负责,真正创造客户价值,解决客户的隐性成本,把简单留给客户。“虽然相比于iOS和安卓,目前鸿蒙生态的用户还较少,但鸿蒙仍在发展,整体呈现出增长的趋势。”就林夏公司的情况而言,安卓和iOS的APP用户基本持平,鸿蒙的用户数大概达到安卓或iOS的20%。而且,鸿蒙生态作为APP获客的新渠道,其用户的质量非常高,付费率、用户留存率和转化率均高于安卓。
20250814 🔞 www17ccomgovcn陪孩子读书时不打瞌睡,陪孩子谈心时不敷衍应付,陪孩子犯错时不忙着指责,陪孩子玩耍时真心投入,这种“陪”的力量,比一百种育儿指南更有效。wow亚洲服有永久60级么国家能源局公布的最新数据显示,目前,我国光伏总装机规模已突破10亿千瓦。新能源装机规模已达16.5亿千瓦,占全国电源总装机的比重达到46%。能源绿色转型的成功实践,让参会嘉宾期待加强与中国的合作。
📸 侯保锁记者 王增敬 摄
20250814 💔 www17ccomgovcnIT之家 6 月 21 日消息,汽车记者 @jonnylieberman 昨日(6 月 20 日)在 Instagram 上发布视频,展示了一段抓拍自美国加州安吉利斯顶峰公路的视频,展示了雷克萨斯(Lexus)运动型跑车 LFR,正在与梅赛德斯-AMG GT R 一同测试。乳头被男人吸过乳头会皲裂吗鲁梅尼格:“最近他基本上非常自信地谈论了国家联赛和明年世界杯上可能夺冠的问题。我认为,稍微多一点克制其实是有帮助的。德国历来最成功的时候,往往不是在自封为夺冠热门的情况下,而是在带着一丝谦逊走进大赛时。也许我们该重新意识到这一点。纳格尔斯曼的任务,是继续推动这支球队的发展。”
📸 游荣冬记者 牛俊培 摄
🌸 B组的强强对话,新科欧冠冠军、头号夺冠热门巴黎圣日耳曼0-1负于博塔弗戈。这场比赛,巴黎只踢了20分钟好球,面对博塔弗戈的密集防守、犀利反击无计可施。四川BBBB嗓和BBBB嗓哪个好