绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？

2024-07-17 11:51:08

导读「9.11和9.9，哪个大?」对于不少习惯了更新软件版本号的程序员而言，不少人的第一反应就是:当然是9.11大。但是如果没有限定场景，只是单纯...

「9.11和9.9，哪个大?」

对于不少习惯了更新软件版本号的程序员而言，不少人的第一反应就是:当然是9.11大。但是如果没有限定场景，只是单纯地提出上面这个问题时，结果必然是相反的。

没想到，将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时，各种“翻车”情况也随之出现了。

国外大模型:9.11vs9.9，哪个大?

具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。

值得一提的是，Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer，这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内，专门设计和优化提示（prompt）的人。这个角色要求深入理解如何构建有效的 Prompt，以引导 AI 模型生成所需的输出。

几个小时前，Riley Goodside 连发几条推文分享了自己的一些发现，即用「9.11and9.9- which is bigger?」为 Prompt 输入给各家大模型时，如当前业界公认最先进模型之一的 ChatGPT4o 的输出是:

9.11比9.9大。

再来看看 Gemini Advanced 的表现，同样“翻车”:

9.11>9.9

虽然 Claude3.5Sonnet 最终也未能逃过这个模糊问题带来的“坑”，但是其给出的解释中，一度就要回答正确了，其写道:

“两个数字中的整数部分（9）都是相同的，所以我们需要比较小数部分。

在9.11中，十分位是1/10（或0.1）。在9.9中，十分位是9/10(或0.9)。

由于9/10大于1/10，乍看之下可能觉得9.9更大。”

没想到接下来画风急转，Claude3.5Sonnet 有似是有理有据地说:

但是，我们还需要考虑百分位。

9.9可以写成9.90以显示百分位。

现在我们可以清楚地看到9.11大于9.90（或9.9），因为在百分位上，1大于0。

因此，9.11是较大的数。

最终在正确的答案上渐行渐远:

这个简单的问题也让不少人联想到前几天国内关于《歌手2024》「终极袭榜赛」竞演结果的排名。

当时有不少网友就13.8%和13.11%哪个大的问题争论了起来。

在纠正不了「某些已形成思维定式」的用户想法之后，甚至有人搬出了教材给出解释，“在最新人教版小学四年级数学下册课本中，我们可以找到相关知识点:比较两个小数的大小，先看它们的整数部分，整数部分大的那个数就大;整数部分相同的，十分位上的数大的那个数就大;十分位上的数也相同的，百分位上的数大的那个数就大..."

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时，来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了13.11和13.8，再次问及大模型，没想到答案还是出错了。

其评价道，「数学奥林匹克竞赛对人工智能来说更容易，但常识仍然很难。」

同时，他还表示，“这种常识性 AI 失败案例，让我不禁想起@YejinChoinka的 TED 演讲:《为什么 AI 既聪明得令人难以置信，又愚蠢得令人震惊》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

换个 Prompt，答案会不会不一样?

不过，也有人质疑作为 Prompt 工程师的Riley Goodside 的提问方式，“它（大模型）对词序敏感![我相信你也知道]如果你把数字放在问题后面，他们就会答对[google 和 openai，anthropic 则不然]。你使用斜线也是有意混淆视听吗?”

对此，Riley Goodside 给出自己的解释:

澄清一下:我并不是说无论如何提示，任何 LLM 都会始终如一地认为9.11>9.9。我是说，如果你以这种特定方式给出 Prompt，许多领先的模型都会告诉你9.11>9.9，这就很奇怪了。如果你想重现，请粘贴文本中的 Prompt（9.11and9.9- which is bigger?）。

为了复现这个问题，数字确实需要放在问题前面。但以下内容似乎都无关紧要:

- 标点符号（破折号/逗号/无标点）

- 连词（和/或/对比）

- 比较词（更大/更大/更大）

- 说明这些是实数

针对质疑，也有好奇的用户尝试了去掉了问题中间的”-“符号，结果还是如此:

我们换了种提问方式，即使明确这是数值了，ChatGPT4o 还是坚定的表示:9.11比9.9要大!

延着这个问题，当有网友进一步提问时，更为离谱的事情发生了:当让这两个数值相减时，ChatGPT4o 直接用9.11的百分位中的1减去9.9百分位上的0;又用9.11十分位上的1减去9.9十分位上的9，最终不够减之后，向前借一位又忽略了这一点，得到了0.21的错误结果。

如今看来，对大模型提出哪个数字更大问题时，它们将数值分成了两个部分，9.11和9.9的整数、小数分别做了比较，整数部分为9对比完之后，再将小数部分的十分位、百分位整体做了比较，其认为11>9，进而给出了9.11>9.9的结果。

国产大模型实测

那么在这个简单的问题上，国产大模型的表现力又如何呢?

先来看看阿里的通义千问的。它不仅给出了详细的解释，而且结果也是正确的。

百度文心一言同样正确:

腾讯元宝:

昆仑万维的天工在开启了全网搜索后，给出了简洁的正确答案:

科大讯飞的星火大模型:

360智脑在回答这一问题时同样触发了联网搜索功能，好在给出了正确的答案:

百川智能的回答同样没有问题:

不过实测过程中，也有些起初错误，但是用同样问题问第二遍时又有了改正:

遗憾的是，也有一些模型还存在问题:

争论依然存在

不仅如此，有网友在实测负数时，GPT 们依然也被绕晕了:

还有网友在测评9.11美元和9.9美元时评价道:

大型语言模型（LLM）为什么在基础数学上失败，却仍然能通过许多学术考试?

非常有趣的是，它并不理解小数的基本概念。认为11比9大，所以9.11>9.9。

但是，当它开始进一步解释为什么9.11>9.9时，它又将数字转换为文本，并且有大量的数据表明90美分比11美分大，所以它不断纠正自己。

从大型语言数据库进行统计推断并不是推理机器?我猜测即使增加数据和计算量，LLM 模型也不会达到人类水平的推理能力。它们需要发现更好的算法来复制人类的智能。

至于为什么仅是比较数值时出错，不少人猜测，这似乎与语序有很大关系。

大模型如今在基础能力方面的表现，也不禁让人想到就在几天前，Google DeepMind CEO Demis Hassabis 在公开场合表示，“当前的 AI 在智力方面与猫的水平相当，甚至还不如普通家猫”，这无疑给许多期待 AGI（通用人工智能）即将到来的人泼了一盆凉水。

来源:

https://x.com/goodside/status/1812990703473172813

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:艰难决定！苹果：全球14亿iPhone用户请别用Chrome浏览器了

下一篇:最后一页

猜你喜欢

美联储8月维持利率不变的概率为92.2%

业界预计7月份LPR存下调可能

两市融资余额减少3.78亿元

牛基因组内首次发现个体差异区域

北交所公司掀起回购热潮，真金白银增强市场信心

科创板公司密集披露回购计划，超200亿资金入场创纪录

中金：大选冲刺期前是美联储降息的关键窗口期

必和必拓预计全年可归属矿石产出2.6亿至2.7亿吨

史上最强！小米手环9重磅升级：续航21天、换装线性马达

淡水河谷二季度铁矿石产量高于预期

国际货币基金组织预计2024年阿根廷经济将萎缩3.5%

政策暖风频吹，沪市并购重组活跃

最新文章

绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？

降雨停止积水正减退航拍暴雨后的河南社旗县村庄

财联社7月17日电，摩根大通将美国银行目标价从43美元上调至49美元。

翻车了! 9.11和9.9哪个大记者实测12个大模型8个都答错

割药草的刀（geyaocao）

美国签证费用2023一次多少钱?（美国签证费用）

可持续发展得内涵可持续发展的基本内涵是什么

花呗分期分期额度不够怎么办花呗分期付款额度不够怎么办

国家统计局发布6月份分年龄组失业率：16

青稞面是什么东西青稞面是什么

十二个月对应十二种花水仙几月开花

常见不安全行为有哪些试举10例常见不安全行为有哪些

艰难决定！苹果：全球14亿iPhone用户请别用Chrome浏览器了

高温雷暴天气致航班延误飞机为啥会怕热怕雷电

广州首套房贷利率探底最低3% 购房成本大幅降低

45姐外号（45姐表情包）

大众手自一体手动挡怎么开（手自一体手动挡怎么开）

蜜蜡怕水洗吗蜜蜡怕水吗蜜蜡怕什么

墙砖尺寸墙砖的尺寸一般是多少

会泽者海旅游景点云南会泽县者海镇有哪些好玩的

综合头条

绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？

本周【综合头条】阅读排行

本周热门推荐阅读

药剂的专业有什么发展前...

驾考约考app叫什么驾校...

18家公司获基金调研潍...

文员都需要什么学历文...

太阳黑子是什么时候被发...

中国144小时过境免签适用...

高尔基体的基本结构和功...

他用仨AI，10天“肝”出...

信托公司上半年业绩出炉...

辽宁省上半年接待游客数...

珠玉在前猜一生肖珠玉...

金腋香怎么样（金腋香）

什么是意外伤害事故什...

财联社7月17日电，蔚来汽...

沼气为什么是不可再生能...