首页 - 自媒体资讯 > GPT-4o新挑战：AV-Odyssey基准揭示大型语言模型在视觉听觉任务上的局限

GPT-4o新挑战：AV-Odyssey基准揭示大型语言模型在视觉听觉任务上的局限

发布于：2025-01-08 作者：xcadmin 阅读：1 当前页面链接：https://lawala.cn/post/1465.html

GPT-4o再次暴露出大模型普遍存在的「弱智」缺陷，针对这一问题，香港中文大学等机构发布了名为AV-Odyssey的视觉听觉基准测试，包含26个任务，旨在全面评估和揭示大模型在处理视觉与听觉信息时的不足之处。

GPT-4o新挑战：AV-Odyssey基准揭示大型语言模型在视觉听觉任务上的局限,多模态大模型,音频理解,AV-Odyssey基准测试,音量识别问题,9.11大于9.8,音频转文字正确率,第1张

在人工智能的广阔天地里，多模态大模型一直是研究的热点，这些模型能够同时处理多种类型的数据，如图像、文本和声音，从而提供更加丰富和准确的信息，最近的一项研究发现，即使是在这些顶尖的多模态大模型中，也存在一些令人惊讶的盲点。

香港中文大学和斯坦福大学等机构联合发布的AV-Odyssey基准测试，就像一面镜子，映照出了多模态大模型在听觉上的一些缺陷，这项测试包含了26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保了测试的深度和广度。

在这个基准测试中，出现了一个有趣的现象，那就是“9.119.8”，这个现象指的是，即使是对于音量大小这样看似简单的问题，多模态大模型也难以准确识别，这就像是一台精密的仪器，在测量最基本的物理量时却出现了误差，让人不禁对其性能产生疑问。

为什么会出现这种现象呢？原来，多模态大模型在处理声音信号时，需要将声音转化为数字信号，然后进行分析和识别，在这个过程中，如果模型没有充分考虑到声音的属性和特征，就可能出现误判，而“9.119.8”现象正是这种误判的一个典型例子。

为了更深入地了解这个问题，我们不妨打一个比方，想象一下，你正在参加一个音乐会，舞台上的乐队正在演奏一首激昂的交响乐，你闭上眼睛，试图通过听觉来感受这场音乐盛宴，突然，你发现有些乐器的声音似乎变得模糊不清，甚至有些失真，这时，你可能会感到困惑和失望，因为你无法完整地体验到这场音乐会的魅力。

同样的道理，多模态大模型在处理声音信号时，也需要保持对各种声音属性的敏感度，只有这样，才能确保模型在实际应用中的准确性和可靠性，而AV-Odyssey基准测试正是为了检验多模态大模型在这方面的表现而设计的。

如何解决这个问题呢？我们需要对多模态大模型进行更多的训练和优化，使其能够更好地理解和处理声音信号，我们还可以尝试采用新的算法和技术，以提高模型在听觉上的性能，我们还需要不断地进行实验和测试，以确保模型在各种场景下都能表现出色。

“9.119.8”现象揭示了多模态大模型在听觉上的一些不足之处，正是这些问题促使我们不断探索和改进，以期在未来实现更加完美的人工智能系统。

扫一扫关注我们

当前页面链接：https://lawala.cn/post/1465.html

标签： #多模态大模型 #音频理解 #AV-Odyssey基准测试 #音量识别问题 #9.11大于9.8 #音频转文字正确率

上一篇：《黑神话：悟空》Steam与PS5平台即将迎来首个大型更新，性能与画质全面提升

下一篇：AI音乐领域竞争加剧：三大国产势力与Suno展开全面较量

OpenAI发布ChatGPT机器人，引领人工智能交互新纪元

Figure.AI联合创始人BrettAdcock宣布，将于8月6日发布Figure02型号。Brett没有过多的介绍Figure02新功能和技术特性，只放出了...

2025-01-21
华科与华南理工联合发布Mini-Monkey：针对2B多模态的「切分增大分辨率」问题的新SOTA解决方案

提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略，来提升多模态大模型对图像细节的理解能力。作者也...

2025-01-21
摩尔线程发布开源音频理解大模型MooER：仅需38小时训练即可掌握5000小时数据

摩尔线程官方宣布，音频理解大模型MooER”已经正式开源，并公布在GitHub上：https://github.com/MooreThreads/MooER目前...

2025-01-20
国产9B模型超越4o-mini，成为新SOTA：中国出海电商已率先应用

这次是在多模态领域:就在刚刚，阿里国际AI团队开源多模态大模型Ovis1.6。对于广大开发者言，来自于实干家们的开源贡献，亦是福音。...

2025-01-18
苹果推出全新多模态模型：文本密集与图像理解能力大幅提升

【新智元导读】近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型，从1B到30B参数，涵盖密集和专家混合模型，密集文本、多图理解，多项能力大提升。...

2025-01-17
智源携手高校推出Video-XL：单显卡达到95%准确率，创新长视频理解技术

【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频，未来AI看懂电影再也不...

2025-01-15