首页 - 自媒体资讯 > 突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈

发布于:2025-01-07 作者:xcadmin 阅读:6 当前页面链接:https://lawala.cn/post/264.html
Meta开源“记忆层”,重塑Transformer架构大模型,提出高效查询机制替代传统方法,显著增加参数且降低算力需求。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,image.png,Meta,2,3,Pro,第1张

Meta发布创新研究:Memory layers(记忆层)

今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memory layers(记忆层),这一发现显著提升了大模型的查询效率,同时降低了算力需求。

在传统的Transformer架构的预训练大模型中,随着参数的变大,存储和查询数据所需的算力呈指数级增长。“记忆层”的新查询机制替代了传统的查询方法,通过比较查询键与两个较小集合中的键,快速找到最相关的键,而无需遍历模型的整个记忆层。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第2张

研究人员在仅有1.3亿参数的模型中添加了128亿额外的记忆参数,其性能与Meta开源的Llama2-70相当,但算力却低了约10倍左右,这一发现意味着,在不增加算力的情况下,可以显著增加大模型的参数。

为了更直观地理解这一过程,我们可以将其比作在一个巨大的图书馆里查找一本书,每本书都有一个独特的编号(即键),而图书馆则按照这些编号进行分类,在传统的方法中,你需要逐一检查每本书的编号,直到找到你想要的书,这种方法在图书数量较少时是可行的,但如果图书馆里有成千上万本书,这种方法就显得非常低效了。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第3张

Product - Key Lookup

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,image.png,Meta,2,3,Pro,第1张

在传统的键值查找中,每个查询都需要与记忆层的每个键进行比较,这种方法在键的数量很少时是可行的,但随着键的数量增加,这种暴力搜索的方式就变得非常低效,且需要大量的计算资源。

研究人员提出的“Product - Key Lookup”模块采用了一种分而治之的策略来优化查询机制,将查询键分割成两个子查询键,然后分别与两个较小的键集合进行比较,以找到最相似的k个键,这一步骤通过减少每次比较的键的数量,从而大大减少了必要的计算次数。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第5张

并行记忆层

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第6张

在并行记忆层的优化中,主要目标是解决大规模数据集处理时的计算和内存瓶颈问题,通过在多个GPU之间分配任务,可以有效解决这一问题。

在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少单个计算单元的负担,同时提高整体的处理速度,这种设计允许模型在保持单个计算单元负载合理的同时,处理更大规模的记忆层,使得模型可以扩展到数十亿甚至数百亿的参数,而不会受到单个计算单元性能的限制。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第7张

共享记忆参数

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第8张

共享记忆参数是一种优化策略,其中所有记忆层都指向同一个记忆池,这种设计不仅减少了模型的总参数数量,提高了参数利用率,而且允许不同记忆层在不影响彼此的情况下同时进行操作。

当记忆层接收到输入后,它首先会从共享记忆池中查找最相似的键,根据查询结果,生成输出,这一过程确保了即使在训练期间出现变化,系统也能动态调整相应的子集,而无需对整个记忆池进行全面改造,这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第9张

动态调整策略

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型,Meta推出开源“记忆层”技术,突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第10张

为了应对训练期间可能出现的变化,研究人员开发了一种动态调整策略,每当有新的键加入或旧的键被更新时,系统会自动调整相应的子集,而无需对整个记忆池进行全面改造,这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

<p style="font-size:14px;text-align:right;"><a rel="nofollow" target="

二维码

扫一扫关注我们

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 dousc@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

当前页面链接:https://lawala.cn/post/264.html

标签: #Meta #2 #3 #Pro

相关文章

发表评论

自媒体

电话咨询
自定义链接2