通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
成色18k1.8.35mb菠萝未来三天,全省多降水过程,气温呈波动上升趋势。由于午后热力条件好,易引发对流性天气。江苏省气象台6月27日13时13分发布强对流黄色预警,预计27日下午到夜里,南京、镇江、扬州、泰州、盐城、南通、无锡、常州和苏州等地区将出现8-10级、局地11级的雷暴大风,局部地区可能出现短时强降水和小冰雹。由于双方实力差距较大,奥克兰城面对本菲卡处于被动,很难组织进攻,控球率不足40%,还在上半场结束之前犯规被判点球,迪玛利亚主罚命中,帮助本菲卡1-0先下一城。成色18k1.8.35mb菠萝y31成色好的y31有村民称,凶手也姓叶,他家距叶女士家大约200米远,案发前他曾来到那4人吃饭的地方,当时他们叫他一起吃饭,还拿烟给他抽,他说自己吃过晚饭了,自己也有烟抽,然后就离开了,没想到后来竟发生这样悲惨的事。会议强调,于文明涉嫌严重职务违法警醒我们,党风廉政建设和反腐败斗争形势仍然严峻复杂,必须保持永远在路上的坚韧和执着,坚决打好反腐败斗争攻坚战持久战总体战。
20250814 🔥 成色18k1.8.35mb菠萝公开信息显示,天津市华奥兴业汽车销售服务有限公司成立于2013年2月28日,注册资本为1000万元。该公司股东分别为陕西庞大乐业汽车销售服务有限公司和沧州市东盛汽车销售服务有限公司,其中陕西庞大乐业汽车销售服务有限公司持股80%。国产少女免费观看电视剧字幕帕夫洛维奇说道:“今天我们踢得就像面对任何对手一样时,充满斗志,在中午踢比赛感觉很新鲜,有点像以前的青年队比赛。”
📸 李孟勋记者 唐小红 摄
20250814 🔞 成色18k1.8.35mb菠萝北京时间6月21日,根据Football Meets Data的统计,拥有9支欧战球队,其中6队将参加欧冠的英格兰新赛季的初始欧战积分为4.000分,排名全欧第一,西班牙(8支欧战球队,5队参加欧冠)3.750分排名第二,意大利(7支欧战球队,4队参加欧冠)和德国(7支欧战球队,4队参加欧冠)同为3.428分,分列第三和第四位。y31成色好的y31总之,在巴萨高层眼中,尼科-威廉斯已凭借其主动、条件合理、年龄优势和内部人脉,全面压倒路易斯-迪亚斯,成为左边锋引援的头号人选。
📸 马艳涛记者 赵世勤 摄
👅 学历和学校的声誉对一个人的职业发展和社会地位有着重要的影响。名校往往意味着更优质的教育资源、更广阔的人脉圈子以及更好的就业机会。张女士和许多家长一样,深知这一点。姨母的绣感中字3