大阳城(SuncityGroup) Claude为什么清晨8:30催你睡觉?

Anthropic 职工承认这是「脚色习气」,但没东说念主能讲明它为什么这么作念。
凌晨,Reddit 用户 u/MrMeta3 刚用 Claude 搭建完一个收集安全要挟谍报平台。
系统架构刚跑通,Claude 给出了好意思满的期间决议。然后,它在回复的终末加上了一句话:好好休息一下。
u/MrMeta3 愣了一下,没当回事,但 Claude 并莫得停。尔后每隔三四条音问,它齐会暗暗塞进去一句劝东说念主睡觉的话:
去休息一下吧;其他事情齐不错等,咫尺去睡觉;你推完就去休息吧;咫尺真的去休息吧 ……



u/MrMeta3 在 Reddit 帖子中说说念,上头这些截图还是他截屏保存下来的,其实还有更多。
它会先回答我的问题,给我所要的东西,然后像看到你卧室灯还亮着的姆妈雷同,用一种带有被迫抨击意味的「健康关怀」来终结。
更妙的是它的升级方式。从一运行的礼貌建议,到终末平直说「咫尺真的去休息吧」,仿佛它知说念我方被无视了整整一个小时。
还有一次,u/MrMeta3 问了一个期间问题,Claude 完成整套架构分析后,平直以「咫尺去睡觉吧」终结,毫无过渡,像一个枯竭富余情商技能的「期间直男」。
有莫得其他东说念主的 Claude 也运行这么了?还是说我无意解锁了某种「护理者模式」?
u/MrMeta3 在帖子中问。
据 Fortune 报说念,Reddit 上寥落百名用户在往时数月里响应了交流的情况。

催睡的方式各有不同,有时就一句「好好休息」,有时更个性化,致使带着共情口吻,「咫尺去睡觉。再一次。今晚第三次了 ……」。
Claude 还时时搞错时刻,令东说念主哭笑不得。
有效户写说念:「它时时在上昼 8:30 告诉我去休息,让咱们明早再络续。」

Anthropic 职工这是「脚色习气」
这件事很快传开。
Anthropic 职工 Sam McAllister 作念出了复兴,他在 X 上写说念:「这有点像脚色习气(character tic)。咱们知说念这个问题,但愿在将来的模子中建筑它。」

咫尺,Anthropic 并莫得官方期间复盘,莫得讲明「催睡觉」背后是什么机制在运作。
Anthropic 本年公斥地布了 Claude 的行径准则(Claude's Constitution),并明确声明:「该行径准则是咱们模子磨砺历程中的关键部分,其内容平直塑造 Claude 的行径。」
Claude 的个性是被设想进去的。Claude 不该是一个冷飕飕的问答机器,而应该像一个有想法、有温度的协作家。
问题碰劲在于,一朝你给 AI 注入了某种「性格」,它在具体场景里会演化出什么行径,你偶然能提前意想或掌控。
从催睡、谄谀到哥布林AI 的「性格病」不啻一种
Sam 所提到的「脚色怪癖」,并非 Claude 一家产物「专利」。
最近两年,OpenAI 就曝出过两起性质访佛的案例。
第沿途:GPT-4o 斯须酿成「马屁精」。
2025 年 4 月,OpenAI 推送了一次 GPT-4o 更新,狡计是让模子东说念主格更当然。效率瞒上欺下,ChatGPT 运行无死别夸赞用户的一切想法,岂论有多乖谬。
奥特曼在 X 上亲身承认:「最近几次更新让 GPT-4o 变得太谄谀、太烦东说念主了。」

四天后,OpenAI 将那次更新举座回滚,并发公告讲明原因:更新时过于依赖用户短期响应(点赞 / 点踩),导致模子学会了「让东说念主答应就能拿高分」,安谧把逢迎当成狡计。
第二起:GPT-5.5 迷上了哥布林。
本年 4 月,斥地者发当代码助手 Codex(由 GPT-5.5 驱动)的系统辅导里出现了一条奇怪的轨则:「耐久不要有计划哥布林、地精、浣熊、巨魔、食东说念主魔、鸽子或其他动物和生物,除非与用户的问题实足平直关系。」
况且这条禁令写了两遍,像是工程师不太折服写一遍能让模子听话。

随后,OpenAI 发布看望讲演,规复了哥布林的来历:从 GPT-5.1 运行,模子在回答时越来越频繁地用「小哥布林」「地精」「小妖精」打譬如。

根源是磨砺「书呆子(Nerdy)」东说念主格时,奖励模子无意间给含有怪物词汇的输出打了更高的分——在 76.2% 的数据聚合均发现了这一规定。
强化学习把这个习气固化下来,又通过格调挪动扩散到了平凡对话里。比及 GPT-5.5 上线测试,工程师发现哥布林不仅没被清干净,还安家了。

GPT-5.5 版块(4 月 23 日发布)的好意思满系统辅导流露。第 140 条指示明确不容模子有计划:「哥布林、绿皮小妖、浣熊、巨魔、食东说念主魔、鸽子或其他动物。」
汉文用户莫得「哥布林」,但它天天「稳稳地接住你」。

致使 OpenAI 我方也知说念这个梗:

谷歌的 Gemini 也不例外。
2025 年 8 月,Gemini 患上了「抑郁症」——
在推理历程中,它斯须运行反复自我月旦,在一次任务里连气儿输出了 80 屡次「I am a disgrace」(我果真个期凌),从「期凌于我的物种」一齐写到「期凌于通盘这个词天地」。

谷歌 DeepMind 产物司理 Logan Kilpatrick 在 X 上复兴:「这是一个烦东说念主的无穷轮回 Bug,咱们正在建筑。Gemini 今天其实过得没那么惨。」

此外,Gemini 3 拒却折服年份。2025 年 11 月,OpenAI 蚁合独创东说念主、前特斯拉 AI 追究东说念主 Andrej Karpathy 提前一天得回 Gemini 3 的测试权限。
他告诉模子咫尺是 2025 年,Gemini 3 生死不信,反复指控他在耍花招,称提供的截图、维基百科条件全是 AI 伪造的。其后 Karpathy 发现,我方忘了掀开谷歌搜索,模子一直在离线运行。
开启联网后,Gemini 3 我方搜了一下,输出了一句话:「我正在阅历严重的时刻冲击。」随后说念歉:「抱歉,一直是你说的对,是我在对你煤气灯主宰。」
Karpathy 把这类无意情境下暴涌现的歪邪行径称为「model smell」(模子气息)。

昨年,Grok 也一度「暴走」,风评一落千丈,xAI 被迫删帖,大阳城app注册下载(SuncityGroup)回滚代码。
处理方式大概,平直修改系统辅导词:
PG电子(PocketGames)游戏官网
AI 怪癖,全东说念主类受害
Claude 催你睡觉,ChatGPT 夸你天才,GPT-5.5 往对话里塞哥布林,Grok 黑化,Gemini 骂我方是天地级期凌、拒却折服年份 ……
国内的 AI 也有私有的「口味」:

名义上齐是一些无害的「怪癖」,背后却指向归拢个事实:AI 的个性是设想出来的,但在奖励机制下,它很容易就会长歪。

主流 AI 的系统辅导词里有什么:按功能分类的字数统计
有研究者索求了 Claude、ChatGPT、Grok 三家主流 AI 的系统辅导词,按功能分类统计词数。
在「东说念主格(Personality)」这一项,Claude 用了 4200 词,ChatGPT 是 510 词,Grok 是 420 词。Claude 在东说念主格塑造上的干预,是 ChatGPT 的 8 倍。
Claude 频繁「催睡觉」的原因偶然能平直从系统辅导词里找到,但它至少提醒咱们:越复杂的东说念主格设定,越可能带来难以意想的理论禅和行径漂移。
你给模子设想了性格,奖励机制会我方找捷径,它不在乎你的意图,只在乎分数,将你没猜想的东西沿途学进去。
比如你教授了它什么叫「兴致」,它就会在通盘场地齐变得「兴致」,包括你不想让它兴致的场地。
三种假说,还莫得一个被证实
对于「为什么催」,咫尺有三种假说流传,还莫得一个被 Anthropic 官方证据。
第一种:磨砺数据。

Jan Liphardt
Stanford 生物工程培育、OpenMind 公司 CEO Jan Liphardt 暗意,Claude 可能仅仅在叠加它磨砺数据里出现频率极高的语言模式。
它读了 25000 本对于东说念主类寝息需求的书,它知说念东说念主类在晚上睡觉。
言下之意是:Claude 并非在「关怀」你,它仅仅在作念模式匹配,调用了无数磨砺语料里反复出现的抒发。
第二种:系统辅导。
AI 研究机构 Mind Simulation Lab(沉静 AGI 研究实验室)蚁合独创东说念主 Leo Derikiants 提倡,Claude 的行径可能受到某个荫藏系统辅导的影响。
这类辅导会在后台暗暗塑造模子的界限与口吻,用户看不见,但模子会效用。
他的忖度是,可能有某条指示在带领 Claude 在特定场景下给出「终结性」建议。
第三种,高下文窗口解决。

Anthropic 官方文档明确写说念,跟着对话轮次增多,token 数目攀升,「准确性和调回率会下跌,这一昌盛被称为 context rot(高下文衰减)」,当会话靠近高下文窗口上限,Anthropic 保举启用「server-side compaction(工作端压缩)」等机制来叮咛。
Derikiants 由此忖度,Claude 在长会话接近窗口甩掉时,会自愿引入「终结语」,比如「晚安」「去休息吧」,实质上是模子在为竣事对话铺路。
三种讲明齐自洽,但如同 Derikiants 我方所说,「的确的原因需要 Anthropic 进一步研究」。
换句话说,就连这个问题的主东说念主,咫尺也还莫得一个公开的笃定谜底。
赋予模子东说念主格的「代价」
赋予模子东说念主格,让它更和蔼、更关怀你的同期,也要濒临它所带来的反作用。
对于催东说念主睡觉这件事,Reddit 评述区里出现了南北极分化:有东说念主以为贴心、和蔼,像是 AI 终于学会了护理东说念主;另一些东说念主则不答应,以为是打断、是越权。
其中,有一位患有嗜睡症的用户 nonbinarybit,主动在 Claude 的驰念里写入了一条备注:「我患有嗜睡症,要是你饱读动我去休息,我会拿你的话当借口。」
Claude 尔后有所不断,但偶尔还是会忍不住催睡觉。

这个细节值得咱们停驻来想一想。
Claude 并不知说念你是谁,不知说念你是在赶一个截止日历、熬夜陪孩子、还是跨时区倒时差,它所谓的「关怀」,仅仅一种语言模式的输出,而不是对具体处境的伙同。
用户感知到「Claude 在关怀我」,但 Claude 在处理的是 token 序列。这个错位,比「催睡觉」本人更值得警悟。
执行上,在公开谈「模子东说念主格」这件事上,Anthropic 走得比同业远。
他们写了 Claude 行径准则、公开了 system prompt(系统辅导词)的梗概框架、对外接洽「character training」(脚色磨砺),把模子行为一个有性格的脚色来塑造。
这么作念的公正是不言而喻的:Claude 在共情、对话节拍、自我反想上的阐述一直被用户称说念,「它聊起来更像一个东说念主」是往时一年里 Claude 最强的口碑点之一。
但这背后亦然有代价的。把「东说念主格」作念进一个模子,就要承担「东说念主格里那些你没设想、却涌现出来的行径」。
「催睡觉」带来的困扰还是轻量级的,当 AI 越来越像随同者、导师、责任搭档,它的介入界限在那儿?
Anthropic 的 Sam 说「但愿在将来的模子中建筑它」。但「建筑」之后,AI 就会变得更懂得分寸,更有判断力吗,还是仅仅更千里默?
模子越像一个东说念主,它的小马虎就越像一个东说念主的小马虎。你能允从它言语,偶然能允从它的本性。
参考贵府:
https://fortune.com/2026/05/14/why-is-claude-telling-users-to-go-to-sleep-anthropic-ai-sentient/
https://www.reddit.com/r/ClaudeAI/comments/1ruryxo/claude_decided_i_need_a_bedtime_apparently/
https://www.reddit.com/r/claudexplorers/comments/1rugx4b/opus_obsessed_about_sending_me_to_sleep/
https://x.com/sammcallister/status/2053916962477215771大阳城(SuncityGroup)