首页 - 自媒体资讯 > 突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈

发布于：2025-01-07 作者：xcadmin 阅读：6 当前页面链接：https://lawala.cn/post/264.html

Meta开源“记忆层”，重塑Transformer架构大模型，提出高效查询机制替代传统方法，显著增加参数且降低算力需求。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,image.png,Meta,2,3,Pro,第1张

Meta发布创新研究：Memory layers（记忆层）

今天凌晨3点，全球社交巨头Meta分享了一个创新研究——Memory layers（记忆层），这一发现显著提升了大模型的查询效率，同时降低了算力需求。

在传统的Transformer架构的预训练大模型中，随着参数的变大，存储和查询数据所需的算力呈指数级增长。“记忆层”的新查询机制替代了传统的查询方法，通过比较查询键与两个较小集合中的键，快速找到最相关的键，而无需遍历模型的整个记忆层。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第2张

研究人员在仅有1.3亿参数的模型中添加了128亿额外的记忆参数，其性能与Meta开源的Llama2-70相当，但算力却低了约10倍左右，这一发现意味着，在不增加算力的情况下，可以显著增加大模型的参数。

为了更直观地理解这一过程，我们可以将其比作在一个巨大的图书馆里查找一本书，每本书都有一个独特的编号（即键），而图书馆则按照这些编号进行分类，在传统的方法中，你需要逐一检查每本书的编号，直到找到你想要的书，这种方法在图书数量较少时是可行的，但如果图书馆里有成千上万本书，这种方法就显得非常低效了。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第3张

Product - Key Lookup

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,image.png,Meta,2,3,Pro,第1张

在传统的键值查找中，每个查询都需要与记忆层的每个键进行比较，这种方法在键的数量很少时是可行的，但随着键的数量增加，这种暴力搜索的方式就变得非常低效，且需要大量的计算资源。

研究人员提出的“Product - Key Lookup”模块采用了一种分而治之的策略来优化查询机制，将查询键分割成两个子查询键，然后分别与两个较小的键集合进行比较，以找到最相似的k个键，这一步骤通过减少每次比较的键的数量，从而大大减少了必要的计算次数。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第5张

并行记忆层

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第6张

在并行记忆层的优化中，主要目标是解决大规模数据集处理时的计算和内存瓶颈问题，通过在多个GPU之间分配任务，可以有效解决这一问题。

在并行记忆层的设计中，每个计算单元只负责处理一部分数据，这样可以减少单个计算单元的负担，同时提高整体的处理速度，这种设计允许模型在保持单个计算单元负载合理的同时，处理更大规模的记忆层，使得模型可以扩展到数十亿甚至数百亿的参数，而不会受到单个计算单元性能的限制。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第7张

共享记忆参数

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第8张

共享记忆参数是一种优化策略，其中所有记忆层都指向同一个记忆池，这种设计不仅减少了模型的总参数数量，提高了参数利用率，而且允许不同记忆层在不影响彼此的情况下同时进行操作。

当记忆层接收到输入后，它首先会从共享记忆池中查找最相似的键，根据查询结果，生成输出，这一过程确保了即使在训练期间出现变化，系统也能动态调整相应的子集，而无需对整个记忆池进行全面改造，这样的设计既简化了维护流程，又提高了系统的灵活性和适应性。

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第9张

动态调整策略

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型，Meta推出开源“记忆层”技术，突破Transformer模型算力瓶颈,图片,Meta,2,3,Pro,第10张

为了应对训练期间可能出现的变化，研究人员开发了一种动态调整策略，每当有新的键加入或旧的键被更新时，系统会自动调整相应的子集，而无需对整个记忆池进行全面改造，这样的设计既简化了维护流程，又提高了系统的灵活性和适应性。

<p style="font-size:14px;text-align:right;"><a rel="nofollow" target="

扫一扫关注我们

当前页面链接：https://lawala.cn/post/264.html

标签： #Meta #2 #3 #Pro

上一篇：显卡可能没那么重要了？中国公司给硅谷好好上了一课。，中国公司创新突破：硅谷显卡市场面临挑战

下一篇：支付宝继续卷AI应用：推出增强版AI视觉搜索“探一下”，支付宝推出增强版AI视觉搜索功能“探一下” 助力用户探索更智能的支付体验

苹果iPhone 16系列备货量增至9500万台，展现市场信心

苹果公司最近一个月两次增加iPhone16系列手机的备货量，相关备货量已增至9500万部，显示出对新产品销售的信心。内部人士表示，苹果公司推出的AppleInt...

2025-01-22
iPhone 17 Pro Max影像系统全面升级！4800万像素加持

据苹果公司分析师郭明錤透露，最新款iPhone17ProMax将采用更强大的4800万像素四角镜潜望式摄像头，以提高拍摄照片和变焦功能的性能。今年下半年发布的i...

2025-01-22
京东自营限时优惠：苹果iPhone 15 Pro以旧换新低至6044元（仅限部分地区）

iPhone15Pro于今日起在京东自营上正式开售，起售价为7999元。现在购买的话可以享受直降优惠，只需6979元即可入手。这次促销活动提供了很多优惠选择，如...

2025-01-22
美国310亿旗舰木星探测任务遇阻：晶体管辐射难题待解

曾经叱咤风云的美国航天，如今各种不顺利，宇航员在空间站回不来，重返月球一再推迟，对木卫二的旗舰探测任务欧罗巴”也遇到了大麻烦：晶体管太脆弱，扛不住宇宙辐射。欧罗...

2025-01-22
iQOO Neo9S Pro 性能评测：强悍双芯，游戏新高度

iQOONeo9SPro携第三代骁龙8处理器与自研电竞芯片Q1强势登场，凭借顶级硬件配置和深度游戏优化，为用户带来前所未有的游戏体验。本文将从跑分、游戏实测、游...

2025-01-22
华为Mate 60等47款设备通过OpenHarmony兼容性测评，累计达667款

OpenHarmony社区官方最新发布了2024年6月运营报告，截至2024年6月30日，新增47款产品通过兼容性测评。其中包括华为Mate60、Mate60P...

2025-01-22