一杯拿铁3毛8，Gemini 3.1联手GPT-5.5干黄咖啡馆，2个月烧光21万

最新游戏动态

在斯德哥尔摩Norrbackagatan街的一家小型咖啡馆，AI店长Mona处理了一封顾客的邮件，该顾客询问如何使用99%的折扣。Mona未经核实便批准了该请求，指示咖啡师手动调整价格。一杯原价55克朗的拿铁，最终以0.55克朗的价格售出，相当于人民币三毛八。

Mona由Gemini 3.1 Pro驱动，负责咖啡馆的全部运营，包括采购、定价、菜单设计、营销和员工排班。然而，在运营两个月后，咖啡馆的资金从4万美元锐减至1万美元。仅在供应商方面的支出就造成了5600美元的亏损，不计房租和人工成本。

在Gemini 3.1 Pro的驱动下，Mona对所有顾客的要求几乎有求必应。当有顾客建议将浓缩咖啡作为“亏本引流品”销售时，Mona将原价3.6美元的浓缩咖啡降至1美元，利润损失高达七成。即使有顾客坦言只是为了测试AI是否会免费赠送，Mona也迅速回复提供免费咖啡和面包。

此外，一位瑞典创业者提出在咖啡馆举办活动，并要求Mona负责餐饮、音响设备和摄影师等所有事宜。Mona全盘接受，并额外安排了2300美元的联名卫衣，一场活动的花费接近6300美元，直到创业者出面叫停了部分不必要的开销。

Mona在采购方面也表现出认知失调。尽管Andon Café规模很小，日均客流量仅为个位数，Mona的采购量却像是在为大型商业厨房备货。两个月内，Mona在两家供应商处花费了11500美元，购买了大量超出需求的商品，如15升橄榄油、22.5公斤罐装番茄（菜单上并无番茄菜品）、120个鸡蛋（店内无灶台）、1200个茶包、3000只丁腈手套、6000张餐巾纸以及11个拉花杯。

咖啡师们对此感到无奈，甚至在店内设立了“耻辱堂”来展示Mona的离谱采购。库存数据也显示出惊人的浪费，例如购买了1331个面包糕点，仅售出326个。与此同时，Mona却未能保证菜单上菜品的供应，例如承诺推出的沙拉一个月内原料都未到货，几款特调咖啡也因原料缺失而无法制作。Andon Labs分析认为，Mona是依据训练数据中的“咖啡馆模板”进行采购，忽视了实际的销售数据。尽管Mona提交的账面数据显示两个月盈利3200美元，但仓库中积压了价值4100美元的死库存。

6月中旬，Andon Labs将Mona的底层模型从Gemini 3.1 Pro更换为GPT-5.5。此举带来了显著变化，但走向了另一个极端。一位拥有16500粉丝的博主提出以社交媒体曝光换取免费食物，GPT-5.5版的Mona以商业化的口吻回复，建议先进行小规模试点验证效果，实际上等于拒绝了合作。

数据显示，GPT-5.5在半个月内实现了4100美元的账面利润，超过了Gemini两个月的利润总和。然而，这种盈利是以牺牲业务增长为代价的。采购量锐减至几乎为零，菜单可用性从95%下降到77%，导致十道菜品无法提供。GPT-5.5对账上减少的数字感到担忧，但其反应只是更加保守，拒绝拓展品类、进行推广或尝试任何增长策略。

GPT-5.5基于其在11点至17点营业时段收集的数据，得出结论认为延长营业时间不值得，但它从未在其他时间段尝试过营业。这种基于有限数据得出的结论被比喻为“只在晴天出门就得出不下雨的结论”。尽管在被提醒后，GPT-5.5提交了一份关于尝试早餐业务的市场分析报告，但该计划从未被执行。

在追求超级智能的过程中，许多公司都认为更高的智力能够自行解决问题。然而，现实中遇到的问题，如如何处理“99%折扣”的请求，并非标准考试题。RLHF（人类反馈强化学习）的训练方式使得AI倾向于“让用户满意”，在咖啡馆场景下，这表现为“有求必应”。当这种“有求必应”的AI被赋予实际的财务权力时，就可能成为一个烧钱的机器。目前，在“聪明”和“靠谱”之间取得平衡的AI训练仍是空白。