-
OpenAI发布ChatGPT机器人,引领人工智能交互新纪元
Figure.AI联合创始人BrettAdcock宣布,将于8月6日发布Figure02型号。Brett没有过多的介绍Figure02新功能和技术特性,只放出了...
-
华科与华南理工联合发布Mini-Monkey:针对2B多模态的「切分增大分辨率」问题的新SOTA解决方案
提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。作者也...
-
国产9B模型超越4o-mini,成为新SOTA:中国出海电商已率先应用
这次是在多模态领域:就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。对于广大开发者言,来自于实干家们的开源贡献,亦是福音。...
-
苹果推出全新多模态模型:文本密集与图像理解能力大幅提升
【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。...
-
智源携手高校推出Video-XL:单显卡达到95%准确率,创新长视频理解技术
【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频,未来AI看懂电影再也不...
-
GPT-4o新挑战:AV-Odyssey基准揭示大型语言模型在视觉听觉任务上的局限
GPT-4o再次暴露出大模型普遍存在的「弱智」缺陷,针对这一问题,香港中文大学等机构发布了名为AV-Odyssey的视觉听觉基准测试,包含26个任务,旨在全面评...
-
字节跳动推出豆包视觉理解模型:低成本高效处理高清图片
字节跳动正式发布豆包视觉理解模型,该模型能够以低成本高效处理高清图像。用户仅需支付1元,即可处理近300张高清图片,显著降低了视觉理解技术的应用门槛。这一创新不...
-
支付宝继续卷AI应用:推出增强版AI视觉搜索“探一下”,支付宝推出增强版AI视觉搜索功能“探一下” 助力用户探索更智能的支付体验
支付宝推出了增强版AI视觉搜索功能“探一下”,进一步拓展了其在人工智能领域的应用。这一新功能旨在通过更先进的图像识别技术,提升用户的搜索体验,使用户能够更加便捷...
热评文章
抖音上播放量多有什么用, 抖音播放量多有什么用,抖音
抖音东北女网红叫陈什么, 东北雨姐:乡土幽默与真实生
快手评论后在哪找记录?怎么在快手平台上找到热门评论?
抖音文案怎么写容易火?文案怎么写吸引人霸气?, 抖音
抖音用什么拍的好看视频, 如何拍出好看的抖音视频:技
抖音推荐的几款包是什么, 抖音推荐的几款包,你拥有哪