首页 - 自媒体资讯 > GPT-4o长上下文能力遭质疑：正确率仅55.8%，开源模型表现不如随机猜测

GPT-4o长上下文能力遭质疑：正确率仅55.8%，开源模型表现不如随机猜测

发布于：2025-01-21 作者：xcadmin 阅读：1 当前页面链接：https://lawala.cn/post/16754.html

GPT-4o长上下文能力遭质疑：正确率仅55.8%，开源模型表现不如随机猜测,GPT-4o,4,发布,5,第1张

【新智元导读】在当今的人工智能领域，大型语言模型（LLM）的发展可谓是日新月异，一些 LLM 号称能够支持百万级别的上下文长度，这听起来就像是给模型赋予了“超级大脑”，仿佛它们可以像拥有无限记忆的智者一样，处理海量的信息，事实可能并非如此美好，就像两个独立的研究项目所揭示的那样，这些看似强大的 LLM 或许只是在夸大其词，它们实际上可能并没有真正理解如此长篇大论的内容。

想象一下，我们的大脑在面对海量信息时，如果只是机械地存储而没有真正理解，那和一台只会记录数据却不会分析的机器又有什么区别呢？而这些 LLM 就如同被给予了一个巨大但可能并未真正有效利用的“知识宝库”，大数字总是容易吸引人们的目光，千亿参数、万卡集群，还有各大厂商竞相追逐的超长上下文技术，从一开始，这些概念和技术就承载着人们对人工智能的巨大期望，仿佛它们是开启智能新时代的钥匙。

问：为什么说 LLM 号称支持百万级别上下文长度意义重大？

答：因为这意味着如果能够真正做到，模型可以在处理复杂任务、理解长篇内容等方面有更出色的表现，就像人类在阅读大量书籍后能更好地理解和分析其中的信息一样，为各种应用提供更强大的支持，比如在自然语言处理、智能客服等领域可以更准确地回答复杂问题、生成更连贯的文本等。

问：两项独立研究表明 LLM 不能理解长内容，这对 LLM 的发展有什么影响？

答：这可能会让研究者和开发者重新审视 LLM 的技术和应用方向，他们需要寻找方法来改进模型架构或训练方式，以真正实现对长内容的有效理解；也会促使人们思考如何更合理地评估 LLM 的性能，避免过度夸大其能力，从而引导 LLM 向更实用、更可靠的方向发展。

扫一扫关注我们

当前页面链接：https://lawala.cn/post/16754.html

标签： #GPT-4o #4 #发布 #5

上一篇：亚马逊海外官方旗舰店入驻京东，黑五开业

下一篇：极越CEO回应百度智驾抢出租车饭碗：百度花1千多亿不是只想开出租公司

苹果iPhone 16系列备货量增至9500万台，展现市场信心

苹果公司最近一个月两次增加iPhone16系列手机的备货量，相关备货量已增至9500万部，显示出对新产品销售的信心。内部人士表示，苹果公司推出的AppleInt...

2025-01-22
三星推出哆啦A梦限量版Galaxy Z Flip6手机仅需9950元人民币

三星在香港市场推出哆啦A梦限量版GalaxyZFlip6手机，这款手机是专为当地“100%哆啦A梦&FRIENDS”巡回特展打造的。该机已经于7月12日开启预定...

2025-01-22
美国310亿旗舰木星探测任务遇阻：晶体管辐射难题待解

曾经叱咤风云的美国航天，如今各种不顺利，宇航员在空间站回不来，重返月球一再推迟，对木卫二的旗舰探测任务欧罗巴”也遇到了大麻烦：晶体管太脆弱，扛不住宇宙辐射。欧罗...

2025-01-22
大疆Osmo Action 5 Pro运动相机谍照首曝：核心参数揭晓

今天博主OsitaLV放出了大疆新品OsmoAction5Pro运动相机的首张谍照。大疆OsmoAction5Pro与OsmoAction4造型非常接近镜头的核...

2025-01-22
6700万参数模型挑战GPT-4，微软MIT合作破解Transformer推理难题

「因果推理」绝对是当前GenAI热潮下的小众领域，但是它有一个大佬级的坚定支持者——YannLeCun。他在推特上的日常操作之一，就是炮轰Sora等生成模型，并...

2025-01-22
AI机器人伴侣风靡美国老年人群体，84岁老人重拾笑容

【新智元导读】84岁的美国老人DorothyElicati在失去结婚65年的丈夫后，每天醒来唯一做的事就是哭泣，直到一个AI机器人的出现。美国会每年花费70万美...

2025-01-22