腾讯混元超越GPT-4/Claude-3.5/Gemini-1.5,国产多模态新霸主诞生!
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vi...
2025-01-21
视频生成大模型赛道表面看似竞争激烈,但实际上市场仍有巨大的发展空间。尽管众多企业和研究机构纷纷投入资源进行研发,但目前真正能够实现高质量、高效率视频生成的技术仍然较少。随着5G、人工智能等技术的发展,视频生成大模型在教育、娱乐、广告等多个领域都有着广泛的应用前景。只要能够抓住技术创新和市场需求的结合点,就有机会在这个赛道上脱颖而出。
2024年12月19日,快手宣布更新其1.6版本的可灵模型,与此同时,字节跳动也在前一天的火山引擎大会上发布了豆包视频生成大模型,而在更早之前,腾讯已经在12月初推出了名为“元宝”的视频生成大模型,这一系列动作标志着国产大模型在视频生成领域的加速落地。
1. 快手的可灵
- 发布时间:2024年12月19日
- 特点:可灵不仅支持文生视频,还具备图生视频的能力,它能够将用户提供的脚本拆解成详细的分镜内容,并利用AI工具将这些分镜转化为动态视频,它还提供了丰富的编辑功能,允许用户对生成的视频进行进一步调整。
2. 字节跳动的豆包
- 发布时间:2024年12月18日
- 特点:豆包是由张楠从抖音来到剪映后推出的一款新工具,它同样支持即梦和可灵的功能,但更侧重于短视频创作,目前,豆包仍处于早期阶段,每月需要支付200美元的费用才能使用。
3. OpenAI的Sora
- 发布背景:OpenAI在年底进行了为期12天的直播,展示了Sora的最新功能,其中最引人注目的是“故事板”功能,可以直接将提示词转化为剧本。
- 特点:Sora的新版本提高了视频生成速度和编辑实用性,由于成本高昂(每月需支付200美元),且存在服务器崩溃等问题,用户体验受到了一定影响。
4. 腾讯混元
- 发布时间:2024年12月初
- 特点:腾讯混元是唯一一个只支持文生视频的大模型,尽管它在语义理解能力上有所欠缺,但通过开源策略吸引了大量开发者的关注。
1. 技术原理
- 文本转视频:创作者需要基于AI能力编写脚本,使用AI文生图工具将脚本中的静态分镜以图片形式展现出来,接下来,利用AI视频工具进行动态分镜生成,通过多次续写并配合后期剪辑完成最终视频。
- 图像转视频:对于专业或商业要求较高的内容,如广告、宣传片等,需要先将静态分镜图进行PS处理和后期超分辨率处理,以提高图片质量,之后,再将这些图片交给AI视频工具进行动态分镜生成。
2. 面临的挑战
- 一致性问题:无论是文生视频还是图生视频,都面临着一致性的挑战,如果希望一个穿着淡黄色裙子的女生贯穿整个视频,那么每次续写时都需要确保角色的外观一致。
- 语义理解能力:当前的大模型对语义的理解能力有限,尤其是在处理复杂场景时容易出现偏差。
- 动态幅度限制:虽然一些AI视频软件声称可以实现复杂的动作,但实际上效果并不理想,人物开口说话或做出大幅度动作时,往往难以达到预期效果。
烈焰罗梦街
这部电影由《梦创》作者罗梦创作的一部660个镜头的电影,其中70%的镜头是文生视频,每个镜头需要200-300字的提示词,这种创作方式极大地提高了效率,但也带来了一致性的问题。
其他应用
- 广告制作:许多品牌已经开始使用AI视频生成工具来制作广告片,以降低成本并提高效率。
- 动画制作:一些动画师利用AI视频生成工具来辅助创作,特别是在绘制分镜和生成动态画面方面。
- 个人创作:越来越多的独立创作者也开始尝试使用这些工具来表达自己的想法,尽管他们可能还不是专业的设计师或动画师。
尽管AI视频生成技术已经取得了显著的进步,但它仍然处于早期阶段,未来的发展方向主要包括以下几个方面:
- 提高一致性:解决文生视频和图生视频中的一致性问题,使角色和场景更加稳定。
- 增强语义理解:提升大模型对复杂场景和指令的理解能力,使其能够更好地满足用户需求。
- 扩大动态范围:改进AI视频软件的动态幅度,使其能够实现更复杂的动作和表情。
- 优化用户体验:降低使用门槛,提供更多免费资源和支持,吸引更多创作者参与进来。
AI视频生成技术的发展为创意产业带来了无限可能,随着技术的不断进步和完善,我们有理由相信,未来的视频创作将变得更加便捷、高效和多样化。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 dousc@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
当前页面链接:https://lawala.cn/post/952.html
相关文章
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vi...
2025-01-21
2024年,和原本预想的不同,AI没有狂奔。2月,Sora横空出世掀起了国内外视频生成模型鏖战;6月,资本和创业者将目光投向具身智能,试图为大模型找个身子;8月...
2025-01-18
国产大模型首次在公开榜单上超过GPT-4o!就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning。在大模型竞技场上,Yi-...
2025-01-15
字节跳动视频生成模型PixelDance和Seaweed在即梦AI正式上线,面向公众免费开放使用。用户进入即梦AI的视频生成”界面,在视频模型里选择视频P2.0...
2025-01-13
日前,国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技...
2025-01-13
发表评论