【解析快讯】巨型智能体普遍“智力减退”：9.11 与 9.9 大小比较，多数遭遇判断失误

【解析快讯】巨型智能体普遍“智力减退”：9.11 与 9.9 大小比较，多数遭遇判断失误

【原文大意】

来源：网上搜集

文章主要讨论了大型人工智能模型在处理简单数学问题“9.11 和 9.9 哪个大”时出现的普遍错误。尽管这些模型如GPT-4、谷歌的Gemini Advanced和Claude 3.5 Sonnet在技术上非常先进，但它们在回答这个问题时都错误地认为9.11更大。文章指出，这种错误可能源于模型处理数字的方式，特别是它们如何将数字分解为token（基本单位），以及这些token如何被模型理解和比较。此外，文章还提到了一些模型在特定条件下能够正确回答这个问题，表明通过适当的提示和提问方式，可以引导模型做出正确的判断。最后，文章提到了OpenAI正在测试的新模型在MATH数据集上的表现，暗示未来可能会有改进。总体而言，这篇文章揭示了当前大型AI模型在处理简单数学问题时存在的局限性，并探讨了可能的解决方案和未来的发展方向。

【分析结果】

分析角度一：技术缺陷

问题描述： 新闻中提到，多个主流大模型在处理“9.11 和 9.9 哪个大”的问题时出现错误，即使是强大的GPT-4o也未能正确回答。

分析： 这暴露了大模型在处理简单数学问题时的一个技术缺陷。大模型通常依赖于复杂的算法和大量的训练数据来理解和生成语言，但在处理这类基础数学问题时，模型可能没有足够的训练数据来正确解析数字的比较。此外，模型的tokenizer（分词器）在处理小数点时可能存在问题，导致模型错误地将9.11理解为9和11的组合，而不是一个整体的小数。

分析角度二：训练数据偏差

问题描述： 新闻中提到，有网友指出，大模型可能在训练数据中见到了类似书籍目录中的章节编号，如第9.11节比第9.9节大，这种数据偏差可能导致模型在处理数字比较时出现错误。

分析： 这表明大模型在训练过程中可能接触到了大量非数学的、上下文相关的数据，这些数据在模型的认知中形成了偏差。模型在处理问题时，可能会优先考虑这些上下文信息，而不是基础的数学逻辑。这种训练数据的偏差是大模型在实际应用中需要解决的一个重要问题。

分析角度三：提示词工程的影响

问题描述： 新闻中提到，提示词工程师Riley Goodside在发现这个问题后，尝试了不同的提问方式，发现模型的回答会受到提问顺序和方式的影响。

分析： 这说明了提示词工程在大模型应用中的重要性。正确的提示词可以引导模型正确理解问题，而错误的提示词则可能导致模型给出错误的答案。这一发现对于提高大模型在实际应用中的准确性和可靠性具有重要意义。同时，也表明大模型在处理复杂或模糊问题时，需要更加精细的提示词设计和工程优化。

------本页内容已结束，喜欢请分享------

感谢您的来访，获取更多精彩文章请收藏本站。