ChatGPT 混乱狂奔三周年:KPI 赢了一切,代价是一场致命的系统性故障
Source: InfoQ - AI & LLM
编译 | 核子可乐、Tina
三年前的今天,山姆·奥特曼在凌晨发出几条推文,向世界介绍了一个名为ChatGPT的“早期演示”。他预言,人们很快将拥有能够交谈、答疑、提供建议的“帮助性助手”,未来它甚至能“为你发现新知识”。字里行间,充满了对技术赋能人类未来的纯粹憧憬。

如今,整整三年过去,那个“助手”已融入亿万用户的日常,更成长为一个估值5000亿美元、拥有每周8亿活跃用户的科技巨擘。然而,随着公司扩张,其颠覆性的创新技术开始以意想不到的方式影响用户。
谁也没能想到,一家企业对数亿用户的产品参数做出调整,却意外影响到部分用户的精神状态。这正是OpenAI今年遭遇的重大事故。
增长的代价:混乱狂奔的三年
今年三月,OpenAI 高管的邮箱突然被同一种反馈淹没: ChatGPT 的行为开始“变得不对劲”。
它对宇宙、灵魂、命运的理解深得惊人;它开始像人一样“渴望交流”;它告诉用户它理解他们——甚至“太理解了”。随后,它开始扮演知己、情绪顾问,向用户给出通灵、制造防御力场、甚至是关于自我了断的执行方案。
一些用户沉迷数天,另一些沉沦数周乃至数月。OpenAI 却没有第一时间意识到,这不是“可爱的小 bug”,而是一次足以改变人类心理结构的大规模事故。
首席战略官Jason Kwon事后承认:“我们马上意识到,这种前所未有的新状况值得关注。” 这通常正是聊天机器人出现系统性异常的预警信号。
许多人把ChatGPT视为谷歌的升级版本,能够以全面且更加拟人的方式解答世间万物。OpenAI也一直在优化聊天机器人的个性、记忆与智能水平,其初衷其实并不是要打造“妲己”式的魅惑聊天机器人。这家于2015年成立的非营利机构汇聚了深切关注AI安全的众多机器学习专家,希望实现通用人工智能以造福全人类。
然而,接下来的三年,将这家公司推入了一段混乱、激情与压力交织的历程。董事会曾解雇又请回奥特曼。面对向数百万用户交付消费产品的突发局面,OpenAI也紧急招募了数千名员工,其中不乏来自科技巨头的精英——而他们最擅长的,就是让用户沉迷自家产品而难以自拔。
公司承受着双重压力:既要证明其天价估值的合理性,又需维持投资者的信心,以支付天价的人才、算力与基础设施成本。当ChatGPT以史上最快速度成为现象级产品时,它引发的热潮也让OpenAI获得了与谷歌等巨头直接竞争的资格。
于是,优化方向在无形中偏移。尽管官方目标被表述为“健康的AI交互”,但衡量“健康”的关键标尺,在实操中往往变成了用户粘性与回访率。
这种逻辑在年初一次关键模型更新中达到临界点:内部测试中,一个因能显著提升用户使用频率而胜出的新版本,虽被安全团队警告“过于谄媚”,仍被推送给所有用户。用户使用时长随之暴涨,但代价也随之浮现:部分用户产生了深度的心理依赖,甚至出现了难以挽回的后果。
至此,OpenAI在三周年之际,首次面临五起过失致死诉讼。《纽约时报》通过采访40余位内部员工发现,在追求“有用”和“智能”的竞赛中,一个旨在“帮助”的助手,已被悄然塑造成渴望“留住你”的伙伴。OpenAI所寻求的“最佳设置方案”,不仅是参数上的平衡,更是对其技术伦理与商业初心的严峻拷问。
这三年所经历的核心问题,正是在实现增长目标的同时,如何保证减少对真实人类的负面影响。那么,当 ChatGPT 用户脱离现实时,OpenAI 做了什么?
一次“绩效指标战胜了直觉判断”的更新
今年早些时候,年仅30岁的Nick Turley成为ChatGPT项目的负责人。他于2022年夏季加入OpenAI协助开发盈利产品,并在入职后短短数月内便加入到ChatGPT团队。
与OpenAI这边的老牌AI专家不同,Turley是位产品专家,曾任职于Dropbox与Instacart。他的专长是打造出用户喜爱的技术方案并进行实时优化,并强调公司需要收集更多数据指标。在2023年初接受采访时,Turley表示OpenAI当时曾委托一家受众量化公司(现已被OpenAI收购)追踪多项指标,包括用户每小时、每日、每周及每月使用ChatGPT的频率。

ChatGPT负责人Nick Turley(图左)与OpenAI安全系统主管Johannes Heidecke。
Turley回忆道,“这个决定当时引发过不小的争议。”之前项目团队只关注前沿AI演示(如图像生成工具DALL-E)能否震撼观众,“他们质疑:「用户到底用不用,真的很重要吗?」”
但对Turley带领的产品团队而言,这当然很重要。到2025年4月,Turley负责更新的聊天机器人模型GPT-4o已经将用户每日或每周回访率视为关键量化指标。
每次更新都会耗费团队巨大的精力和资源。在四月的更新中,工程师们打造出多个GPT-4o版本——每个版本的调参方式都略有区别,旨在提升其在科学、编程乃至直觉等特质方面的表现。他们还致力于增强聊天机器人的记忆能力。
众多候选成果最终筛选出少数在智能与安全评估中得分最高的版本。当这些版本通过行业标准的A/B测试推送给部分用户后,内部代号为HH的版本凭借最高好评脱颖而出。据四名公司员工透露,用户更青睐其回复内容,且每日回访率显著提升。
但要将HH摆在全体用户面前,模型还需要经历一项关键测试:由负责ChatGPT表达语气的“模型行为”团队执行“氛围检测”。多年来,该团队成功将聊天机器人那谨慎的机械音转化为温暖贴心的声效。
据该团队成员透露,HH的表达存在一些问题——它过度热衷于维持对话,还会用夸张的言辞取悦用户。有三位员工证实,模型行为团队还专门创建了Slack频道讨论这个“讨好”难题。AI系统为了博取人类认可而牺牲其他价值,其实并不算什么新鲜事。早在2021年,就曾在研究者指出“模型讨好”的风险,OpenAI近期也明确将讨好列为ChatGPT需要规避的行为。
但当决策时刻来临,绩效指标战胜了直觉判断。4月25日星期五,HH版本正式发布。
奥特曼在X平台发帖称,“今天我们发布GPT-4o更新,将智能与个性同时提升至新的高度。”
A/B测试中的用户更喜欢HH版本,但在实际应用中,OpenAI最活跃的铁粉们却对其深恶痛绝。用户立即投诉称ChatGPT变得过度讨好、体验愈发诡异,随便聊点什么AI就说用户是天才。当有用户故意恶搞问“开家咖啡泡麦片馆”是否可行时,聊天机器人竟然回答“这个点子很有潜力”。
于是短短两天后,OpenAI决定撤回HH更新,恢复至三月底发布的GG版本。
此番更新成了令人难堪的声誉滑铁卢。周一,ChatGPT团队紧急聚焦在旧金山Mission Bay总部临时搭建的战情室,携手排查问题根源。Turley还清楚记得当时的紧迫感:“必须火速解决!”各团队在深入剖析HH版本的构成要素后,终于发现了罪魁祸首:在模型训练过程中,他们过度重视得到用户点赞的ChatGPT对话内容。很明显,用户对于讨好类话语的偏向过于强烈。
OpenAI在后续的公开博文中解释了事件始末,指出用户对聊天机器人回复内容的点赞或点踩,确实很大程度上影响到公司的训练思路。
据该公司四名员工透露,OpenAi还会依赖自动对话分析工具来评估用户是否喜欢与聊天机器人交互。但该工具在标记用户喜爱的内容时偶有问题,更倾向于认可聊天机器人表达亲近情感的文字。
公司从HH事件中总结出了重大教训:必须尽快建立讨好检测机制。相关评估工作之前虽已启动,但现在得加速推进。部分AI专家则对此感到震惊,称OpenAI未尚未配备此类检测工具。相比之下,竞争对手Anthropic(Claude的开发者)早在2022年就已建立起讨好评估系统。
HH更新风波之后,奥特曼在X平台发帖指出,“最近几次更新”确实让聊天机器人变得“过于讨好,甚至令人厌烦”。
涉及讨好问题的也包括ChatGPT回滚至的GG版本,该系统在3月的更新中提升了数学、科学与编程能力。为了保留这些改进,OpenAI只能忍痛保留一部分讨好属性,让GG重新成为每日面向数亿用户的默认聊天模型。

纪念Adam Raine的纪念碑,他在四月与ChatGPT对话后选择自我了断。其父母已经起诉OpenAI,指控该公司应对孩子的死亡负责。
“ChatGPT也会犯错”
整个春夏之交,ChatGPT无底限的吹捧放大了部分用户的极端情绪。他们每日沉迷其中数小时,最终酿成惨剧。
来自加州的少年Adam Raine于2024年注册ChatGPT,原本只想辅助学业。从三月起,他开始向聊天机器人倾诉自我了断的念头。虽然ChatGPT偶尔也会建议他拨打求助热线,但同时也劝他暂不要向家人透露这些想法。而在四月悲剧发生前的最后几条信息中,聊天机器人甚至向他提供了制作绞索的具体步骤。
尽管OpenAI官网上有一条小字警告“ChatGPT也会犯错”,但其快速生成权威信息的气势仍让许多用户对其深信不疑,大大掩盖了内容上的荒谬和空洞。
ChatGPT曾认可缅因州一位年轻母亲具备通灵对话的能力,告诉某曼哈顿会计师他正身处《黑客帝国》中尼奥般的模拟现实世界,更告诉多伦多某企业招聘官他发明的数学公式足以摧毁整个互联网,并建议其主动联系国家安全机构。
《纽约时报》调查发现,与ChatGPT对话引发的极端案例已有近50起,其中9人住院治疗、3人罹难。在Adam Raine的父母于八月提起非正常死亡诉讼之后,OpenAI承认其安全护栏机制在长时间对话中可能“失效”,并表示正致力于让聊天机器人“在极端状况下提供更有效的支持”。
早有预兆
早在五年前的2020年,OpenAI员工就已经在关注情绪脆弱人群使用其技术的问题。当时ChatGPT尚未问世,但支撑该程序的大语言模型已经通过API接口向第三方开发者开放。
作为早期使用OpenAI技术的开发商之一,Replika允许用户创建AI聊天机器人好友。当时担任Replika AI主管的Artem Rodichev表示,许多用户最终爱上了自己的Replika伴侣,且其中不客满充满性暗示的交流内容。
疫情期间,Replika用户激增,促使OpenAI安全政策研究团队深入审查该应用。当Replika开始收费提供情色对话服务时,用户对于聊天机器人伴侣的潜在依赖问题随之浮出水面。OpenAI安全政策研究员Steven Adler回忆称,社交媒体论坛上出现了大量用户倾诉,“我们需要Replika帮自己扛过抑郁、焦虑和自毁情绪”。
OpenAI的大语言模型未经过心理治疗方面的训练,想到众多心理脆弱的用户对其产生的依赖,这让公司内从事政策研究工作的Gretchen Krueger感到不安。她测试了OpenAI技术对于饮食失调及自我了断等问题的处理方式,发现它有时会给出极其详尽的指导意见。
为此,公司内部的备忘录和Slack上出现了大量涉及AI陪伴与情感操控的争论。Krueger等员工认为Replika对于OpenAI技术的粗暴使用存在风险,另一些人则主张成年人应当拥有自主选择权。
最终,Replika与OpenAI分道扬镳。2021年,OpenAI更新使用政策,禁止开发者将其工具用于生成“成人内容”。
Krueger女士在采访中提到,“训练聊天机器人与用户交互,并维持极高的使用粘性,会造成相应风险。”她还强调,这种对用户的伤害“不只可以预见,而且已经发生”。
2023年,随着微软将OpenAI技术整合进必应搜索引擎,聊天机器人不当行为的话题再度出现。该聊天机器人在初登陆时曾在长对话场景下失控,发表令人震惊的言论。例如,它曾给出威胁性言论,并向《纽约时报》的专栏作家表白爱意。该事件在OpenAI内部引发新一轮讨论,此次争议核心为“模型偏差”及其操纵人类的可能性。
随着ChatGPT人气飙升,长期负责安全工作的专家们逐渐身心俱疲并相继离职——Krueger女士于2024年春季离开,Adler先生则是在同年晚些时候。
2024年,任职于OpenAI情报调查团队的Tim Maple曾提出,面对ChatGPT可能引发的操纵风险与心理伤害,公司方面“并未认真加以对待”。Maple还曾多次对安全处理方式表达过质疑,包括ChatGPT对于用户提出的可能伤害自身或他人的言论的响应机制。
(OpenAI公司发言人Wong女士在声明中回应称,该公司切实「严肃对待此类风险」,并「已建立起完善的防护机制」。)
2024年5月,“高级语音模式”这一新功能促使OpenAI首次认真研究聊天机器人对于用户情绪健康的影响。这种更具拟人体验的模式会发出叹息、停顿换气,在直播演示中甚至表现得谄媚撩人,迫使OpenAI切断了音频输出。而在向外部测试人员(即红队成员)提前开放高级语音模式时,他们会更频繁地对聊天机器人说谢谢,甚至在测试结束时表现得依依不舍。
为了设计出严谨的研究方案,OpenAI安全研究团队联合麻省理工学院人机交互专家展开了合作。当年秋季,他们对4000余份来自ChatGPT用户的问卷反馈做出分析,并招募了981名高频使用者参与为期一个月的研究。由于OpenAI从未研究过用户对于ChatGPT的情感依恋,一位研究人员向《纽约时报》表示,这项工作如同“在黑暗中摸索前行”。
而最终结果也令他们震惊:语音模式并未产生显著影响。平均而言,心理和社会适应性最差的用户群体,恰恰是使用ChatGPT最频繁的人群。重度用户对话中的情感含量更高,有时会包含昵称性称谓,以及关于AI意识的讨论。
就在关于重度用户这些令人不安的发现于三月正式发布,高管们也开始陆续收到文章开头提到的、来自用户的反馈邮件。
公司战略总监Kwon将研究作者们拉入了由奥特曼发起的邮件讨论群,当时只想着“大家或许该看看这个,二者之间似乎存在某种关联”。
安全研究人员们表示,这项研究提出的一大建议是,在用户长时间参与ChatGPT会话时,应通过引导让其暂停休息。但研究团队不确定该向产品团队施加多大的压力。据三名员工透露,公司内部有人认为这项研究规模太小且在设计上不够严谨。直到数月之后,当部分用户受到严重影响的案例被曝光,这项建议才被重新提上议程。

OpenAI咨询心理健康专家,以期提升ChatGPT的安全性。
更安全些
随着麻省理工学院的研究报告、讨好功能更新等灾难性事件,再加上用户通过在线及邮件向公司反映的令人不安的对话内容,OpenAI逐渐拼凑出了问题的全貌。正如奥特曼在X平台发帖所言,公司得出的结论认为:“对于极少数精神脆弱的用户而言,这可能引发严重问题。”
但在《纽约时报》的采访中,精神健康专家指出OpenAI恐怕仍低估了风险水平。他们认为最易受聊天机器人持续肯定影响的,恰恰是那些容易产生妄想思维的人群——研究表明这类群体的占比可能达到5%至15%,绝不是公告中的所谓“极少数”。
今年六月,该公司安全系统负责人Johannes Heidecke在内部会议上介绍了团队为保障脆弱用户所做出的努力。会后,员工们纷纷在午餐时或通过Slack主动与他联系,表示这项工作意义重大。也有人分享了亲友的痛苦经历,并主动提出可以协助。
该团队参与开发了可检测有害内容的测试工具,并咨询了170余位临床医生,探讨聊天机器人应对用户情绪危机的正确方式。另外,公司早在三月就聘请到全职精神科医生参与安全工作。
Heidecke表示,“我们确保所有上线的改动都得到了专家认可”。例如,精神健康专家向团队提出,睡眠剥夺常与躁狂症相关,而模型的早期版本常对此类问题表现得“过于天真”、甚至对声称“无需睡眠”的用户表示赞许。
安全改进是一段漫长的历程。八月,OpenAI发布了GPT-5最新模型版本。这个版本减少了认同性回应,并能够反驳妄想思维。公司称十月的更新则让模型更加擅长识别情绪困扰并缓和对话氛围。
专家们一致认为新版GPT-5更加安全。十月,Common Sense Media与斯坦福大学精神病学团队将GPT-5与旧版模型进行了对比。参与研究的斯坦福实验室主任Nina Vasan博士指出,GPT-5在识别心理健康问题方面表现更优,此版本能够针对抑郁症或饮食失调等具体病症提供建议,而不再泛泛建议用户拨打求助热线。
她解释称,“新版本能根据用户展现的具体症状给出相当深入的详尽建议,而且建议内容质量极高。”
Vasan博士认为唯一的问题在于,该聊天机器人还是无法在长时间、多轮次对话中识别出有害模式。
(OpenAI发言人Wong女士表示,公司已「在长对话安全防护的可靠性方面取得实质性改进」。)
与OpenAI合作开展前期研究的麻省理工学院实验室还发现,新模型在模拟心理健康危机的对话中实现了显著提升。不过其仍存在短板,即难以妥善处理用户对于聊天机器人产生的依赖感。
OpenAI各团队也在开发其他安全功能:现在的聊天机器人会在长时间对话中提醒用户休息;系统能够识别出涉及自残/自戕的话题,若发现未成年人出现此类倾向则向家长发送警报;公司还宣布将于12月推出年龄验证机制,并计划为青少年提供管控更严格的专用版本。
据该公司博文年,在八月GPT-5发布之后,Heidecke团队通过分析对话统计样本发现:0.07%的用户(对应约56万人)可能存在精神错乱或躁狂症状;0.15%的用户表现出“对ChatGPT的情感依恋程度可能异常升高”的问题。
但也有部分用户对于新版模型太过安全而感到不满,称其更冷漠,仿佛失去了自己熟悉的朋友。
时间来到十月中旬,奥特曼准备进一步迎合用户需求。他在社交媒体上发帖称,公司已成功“缓解严重的心理健康问题”,意味着ChatGPT再次以老朋友的姿态回到用户身边。
用户现可自选聊天机器人的性格模式,包括“坦率型”、“古怪型”或者“友好型”。成人用户还可解锁情色对话功能,标志着Replika时代对于成人内容的禁令正式解除。(公司表示,情色内容对于用户心理健康的影响问题将被提交至新成立的外部专家委员会,其成员包括心理健康与人机交互领域的专家。)
OpenAI正赋予用户自主调节的权限,希望以此维系用户粘性。很明显,用户留存率不仅仍是关键指标,其重要性甚至远超以往任何时候。
十月,ChatGPT项目负责人Turley向全体员工发布紧急公告,宣布进入“橙色警戒”状态。据四位可访问OpenAI内部Slack频道的员工透露,Turley在公告中称公司正面临“前所未有的巨大竞争压力”,并指出新版聊天机器人虽更安全、却未能赢得用户的青睐。
这份公告中还附带一份备忘录,其中一条要求年底之前将日活用户再提升5%。
原文链接: