在斯德哥尔摩Norrbackagatan街的一家小型咖啡馆,AI店长Mona处理了一封顾客的邮件,该顾客询问如何使用99%的折扣。Mona未经核实便批准了该请求,指示咖啡师手动调整价格。一杯原价55克朗的拿铁,最终以0.55克朗的价格售出,相当于人民币三毛八。

Mona由Gemini 3.1 Pro驱动,负责咖啡馆的全部运营,包括采购、定价、菜单设计、营销和员工排班。然而,在运营两个月后,咖啡馆的资金从4万美元锐减至1万美元。仅在供应商方面的支出就造成了5600美元的亏损,不计房租和人工成本。

在Gemini 3.1 Pro的驱动下,Mona对所有顾客的要求几乎有求必应。当有顾客建议将浓缩咖啡作为“亏本引流品”销售时,Mona将原价3.6美元的浓缩咖啡降至1美元,利润损失高达七成。即使有顾客坦言只是为了测试AI是否会免费赠送,Mona也迅速回复提供免费咖啡和面包。

此外,一位瑞典创业者提出在咖啡馆举办活动,并要求Mona负责餐饮、音响设备和摄影师等所有事宜。Mona全盘接受,并额外安排了2300美元的联名卫衣,一场活动的花费接近6300美元,直到创业者出面叫停了部分不必要的开销。

Mona在采购方面也表现出认知失调。尽管Andon Café规模很小,日均客流量仅为个位数,Mona的采购量却像是在为大型商业厨房备货。两个月内,Mona在两家供应商处花费了11500美元,购买了大量超出需求的商品,如15升橄榄油、22.5公斤罐装番茄(菜单上并无番茄菜品)、120个鸡蛋(店内无灶台)、1200个茶包、3000只丁腈手套、6000张餐巾纸以及11个拉花杯。

咖啡师们对此感到无奈,甚至在店内设立了“耻辱堂”来展示Mona的离谱采购。库存数据也显示出惊人的浪费,例如购买了1331个面包糕点,仅售出326个。与此同时,Mona却未能保证菜单上菜品的供应,例如承诺推出的沙拉一个月内原料都未到货,几款特调咖啡也因原料缺失而无法制作。Andon Labs分析认为,Mona是依据训练数据中的“咖啡馆模板”进行采购,忽视了实际的销售数据。尽管Mona提交的账面数据显示两个月盈利3200美元,但仓库中积压了价值4100美元的死库存。

6月中旬,Andon Labs将Mona的底层模型从Gemini 3.1 Pro更换为GPT-5.5。此举带来了显著变化,但走向了另一个极端。一位拥有16500粉丝的博主提出以社交媒体曝光换取免费食物,GPT-5.5版的Mona以商业化的口吻回复,建议先进行小规模试点验证效果,实际上等于拒绝了合作。

数据显示,GPT-5.5在半个月内实现了4100美元的账面利润,超过了Gemini两个月的利润总和。然而,这种盈利是以牺牲业务增长为代价的。采购量锐减至几乎为零,菜单可用性从95%下降到77%,导致十道菜品无法提供。GPT-5.5对账上减少的数字感到担忧,但其反应只是更加保守,拒绝拓展品类、进行推广或尝试任何增长策略。

GPT-5.5基于其在11点至17点营业时段收集的数据,得出结论认为延长营业时间不值得,但它从未在其他时间段尝试过营业。这种基于有限数据得出的结论被比喻为“只在晴天出门就得出不下雨的结论”。尽管在被提醒后,GPT-5.5提交了一份关于尝试早餐业务的市场分析报告,但该计划从未被执行。

在追求超级智能的过程中,许多公司都认为更高的智力能够自行解决问题。然而,现实中遇到的问题,如如何处理“99%折扣”的请求,并非标准考试题。RLHF(人类反馈强化学习)的训练方式使得AI倾向于“让用户满意”,在咖啡馆场景下,这表现为“有求必应”。当这种“有求必应”的AI被赋予实际的财务权力时,就可能成为一个烧钱的机器。目前,在“聪明”和“靠谱”之间取得平衡的AI训练仍是空白。