c大模型~合集whaoaiot的技术博客|吴恩达《ai for everyone》中文讲解版_初中

最佳学生论文解读，中科大、华为诺亚：序列推荐新范式DR4SR

本工作由认知智能全国重点实验室 IEEE Fellow 陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域，在顶级期刊与会议上发表多篇论文，谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室，秉持理论研究与应用创新并重的理念，致力于推动人工智能领域的技术创新和发展。

8 月 25 日 - 29 日在西班牙巴塞罗那召开的第 30 届 ACM 知识发现与数据挖掘大会 (KDD2024) 上，中国科学技术大学认知智能全国重点实验室陈恩红教授、IEEE Fellow，和华为诺亚联合发表的论文 “Dataset Regeneration for Sequential Recommendation”，获 2024 年大会 Research Track 唯一最佳学生论文奖。论文第一作者为中科大认知智能全国重点实验室陈恩红教授，连德富教授，与王皓特任副研究员共同指导的博士生尹铭佳同学，华为诺亚刘勇、郭威研究员也参与了论文的相关工作。这是自 KDD 于 2004 年设立该奖项以来，陈恩红教授团队的学生第二次荣获该奖项。

研究动机

序列推荐系统（Sequential Recommender, SR）是现代推荐系统的重要组成部分，因为它旨在捕捉用户不断变化的偏好。近年来，研究者为了增强序列推荐系统的能力，已经付出了大量努力。这些方法通常遵循以模型为中心（Model-centric）的范式，即基于固定数据集开发有效的模型。然而，这种方法往往忽视了数据中潜在的质量问题和缺陷。为了解决这些问题，学界提出了以数据为中心（Data-centric）的范式，重点在于使用固定模型转而生成高质量的数据集。我们将其定义为 “数据集重生成” 问题。

为了获得最佳的训练数据，研究团队的关键思路是学习一个显式包含物品转移模式的新数据集。具体来说，他们将推荐系统的建模过程分为两个阶段：从原始数据集中提取转移模式

，并基于

学习用户偏好

。由于学习从

的映射涉及两个隐含的映射：

，因此这一过程具有挑战性。为此，研究团队探索了开发一个显式表示

中的物品转移模式的数据集的可能性，这使得我们可以将学习过程明确地分为两个阶段，其中

的映射函数，这是一个一对多的映射。研究团队将这一学习过程定义为数据集重生成范式，如图 1 所示，其中 “重生成” 意味着他们不引入任何额外信息，仅依赖原始数据集。

图1

为了实现数据集重生成，研究团队提出了一种新颖的以数据为中心的范式 —— 用于序列推荐的数据集重生成（DR4SR），旨在将原始数据集重生成一个信息丰富且具有通用性的数据集。具体来说，研究团队首先构建了一个预训练任务，使得数据集重生成成为可能。接着，他们提出了一种多样性增强的重生成器，以在重生成过程中建模序列和模式之间的一对多关系。最后，他们提出了一种混合推理策略，以在探索与利用之间取得平衡，生成新的数据集。

数据集重生成过程虽具通用性，但可能不完全适合特定目标模型。为解决这一问题，研究团队提出了 DR4SR+，这是一个模型感知的重生成过程，它根据目标模型的特性定制数据集。DR4SR + 通过双层优化问题和隐式微分技术，个性化评分并优化重生成数据集中的模式，以增强数据集效果。

研究方法

在本项研究中，研究团队提出了一个名为 “用于序列推荐的数据重生成”（DR4SR）的以数据为中心的框架，旨在将原始数据集重生成一个信息丰富且具有通用性的数据集，如图 2 所示。由于数据重生成过程是独立于目标模型的，因此重生成的数据集可能不一定符合目标模型的需求。因此，研究团队将 DR4SR 扩展为模型感知版本，即 DR4SR+，以针对特定的目标模型定制重生成的数据集。

模型无感知的数据集重生成

图2

为了开发一个信息丰富且具有通用性的数据集，研究团队旨在构建一个数据集重生成器，以促进数据集的自动重生成。然而，原始数据集中缺乏用于学习数据集重生成器的监督信息。因此，他们必须以自监督学习的方式来实现这一目标。为此，他们引入了一个预训练任务，以指导多样性增强重生成器的学习。在完成预训练后，研究团队进一步使用混合推理策略来重生成一个新数据集。

数据重生成预训练任务的构建：

图3

为了构建预训练任务，他们首先通过基于规则的方法获取物品转移模式。然后，要求重生成器

能够将

重生成对应的模式

。研究团队将整个预训练数据集记作

促进多样性的重生成器：

借助预训练任务，研究团队现在可以预训练一个数据集重生成器。本文中，他们采用 Transformer 模型作为重生成器的主要架构，其生成能力已被广泛验证。数据集重生成器由三个模块组成：一个用于获取原始数据集中序列表示的编码器、一个用于重生成模式的解码器，以及一个用于捕捉一对多映射关系的多样性增强模块。接下来，研究团队将分别介绍这些模块。

编码器由多个堆叠的多头自注意力（MHSA）和前馈网络（FFN）层组成。至于解码器，它将重生成数据集 X' 中的模式作为输入。解码器的目标是在给定编码器生成的序列表示的情况下重构模式

然而，从一个序列中可以提取多个模式，这在训练过程中会带来挑战。为了解决这一一对多映射问题，研究团队进一步提出了一个多样性增强模块。

具体而言，研究团队通过将目标模式的信息整合到解码阶段，来自适应地调节原始序列的影响。首先，他们将编码器生成的记忆

投影到 K 个不同的向量空间中，即

。理想情况下，不同的目标模式应与不同的记忆匹配。为此，他们还引入了一个 Transformer 编码器来编码目标模式并获取

。他们将

压缩成一个概率向量：

其中

是选择第 k 个记忆的概率。为了确保每个记忆空间得到充分训练，我们不执行硬选择，而是通过加权求和得到最终的记忆：

最终，可以利用获取的记忆来促进解码过程，并有效捕捉序列与模式之间复杂的一对多关系。

模型感知的数据集重生成

由于前面的重生成过程与目标模型无关，因此重生成的数据集可能对于特定的目标模型来说并不是最优的。因此，他们将模型无关的数据集重生成过程扩展为模型感知的重生成过程。为此，在数据集重生成器的基础上，他们引入了一个数据集个性化器，用于评估重生成数据集中每个数据样本的评分。然后，研究团队进一步通过隐式微分有效地优化数据集个性化器。

数据集个性化器：

研究团队的目标是训练一个参数为

的基于 MLP 实现的数据集个性化器

，用以评估每个数据样本 W 对于目标模型的评分。为了确保框架的通用性，研究团队利用计算得到的评分来调整训练损失的权重，这不需要对目标模型进行额外的修改。他们从定义原始的下一个物品预测损失开始：

随后，个性化数据集的训练损失函数可以定义为：

实验结论

主要实验

研究团队比较了每种目标模型与 “DR4SR” 和 “DR4SR+” 变体的性能，以验证所提出框架的有效性。

图4

从图 4 展示的整体性能中，可以得出以下结论：

....

本文第一作者杨震，香港科技大学（广州）博士生，研究方向是多模态理解与生成等。本文通讯作者陈颖聪，香港科技大学（广州）助理教授，主要研究课题包括生成模型、xx智能等。

随着对大语言模型的研究越来越深入，关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。研究团队重新审视测试时行为，发现了一个简单但尚未得到充分探索的现象：LLM 推理时的不确定性高度局部化 —— 一小部分高熵词会显著影响输出的正确性。

正是基于这一关键观察，来自香港科技大学（广州）的研究团队提出了 Minimal Test-Time Intervention (MTI)，其主要包含了 Selective CFG intervention 与 Lightweight negative-prompt guidance 两种方法。MTI 能够在推理阶段无需额外训练，就提升大型语言模型的推理能力。

Selective CFG intervention：

减弱高熵词的不确定性

LLM 在多步推理中经常表现出链式不稳定性：几个步骤中的不确定性会放大并导致整个答案偏离轨道。为了找到这种不稳定性的原因，研究团队分析了 LLM 回答错误的问题，并发现错误回答的熵更高，而这主要是由回答中的高熵词导致的。为此，研究团队提出在高熵词上使用 Classifier-free Guidance (CFG) 以在降低不确定性的同时稳定推理过程，并能在保持高效率的同时提高性能。

Lightweight negative-prompt guidance：

复用 KV cache 并注入负向词，节省显存分配的同时维护更优的无条件空间

研究团队观察到，尽管 Selective CFG intervention 仅对高熵词进行操作，但是仍需为无条件预测支路分配一个新的 KV 缓存，这大大降低了现代 LLM 推理加速器的效率。比如，维护双 KV 缓存会削弱诸如 vllm 等框架的长上下文处理能力。此外，CFG 源自计算机视觉，其会在训练过程中引入无条件标签来学习全局数据分布。相比之下，LLM 中的 CFG 并未训练建模全局文本分布的能力。因此，研究团队认为无条件分支应该被视为一个负向提示通道：条件分支专注于生成正确的词，而无条件分支则被鼓励生成错误的词。为此，研究团队重用了条件分支的 KV 缓存，并附加了一条用于引出错误词的短指令，最终实现了在维护更优无条件空间的同时节省了 KV 缓存分配。此外，注入的短语非常灵活，比如研究团队发现 “OUTPUT ERROR” 就已经产生了优良的效果。

实验结果

研究团队在多个任务上进行了测试，其中包括通用任务（Winogrande，MMLU-Pro），代码任务（Humaneval，Humaneval_plus，LiveCodeBench），数学与科学任务（GPQA-Diamond，MATH500）上进行了系统测试。结果显示仅在很少的高熵词上使用 MTI，就能在多个数据集上稳定带来性能提升，验证了方法的有效性。比如在 Qwen3-14B-Reasoning 上，仅对 3.5% 的词执行 MTI，可以为所有任务平均提点 1.58。

从 AIME2024 的实验中也发现，MTI 方法具备显著的优势。比如在 Qwen3-8B-Reasoning 模型中，仅需对 1.9% 的词执行 CFG，就可以为准确性带来 4.9% 的增长，证明了 MTI 在维护高效率的同时，也改进了性能。

分析实验

研究团队发现，一些低熵词很难被 CFG 所改变，这是由于 LLM 在低熵词上对自己的输出非常确信，所以很难被 CFG 改变，而这些失败的 CFG 操作便降低了效率。CFG 所能改变的预测主要集中在高熵词部分，这是由于模型对自己的预测并不自信，因此 CFG 可以修正它。这些发现也从侧面反映并非所有的词都需要使用 CFG。

研究团队发现对于基础模型，词云中的一些低信息量占位符（例如 **）被语义上更有意义的词语所取代，从而创造了更丰富的推理分支，并最终提高了准确率。对于推理模型，研究团队观察到从单一连接词（例如 so）向更多样化的连接词（例如 however、if、perhaps、alternatively、wait）的转变。这有助于模型摒弃错误的先验推理链，并开启新的思路，最终得出正确的推理。总体而言，应用该方法可以产生更加多样化和平衡的词汇，扩展更多的假设和推理轨迹，最终获得更好的结果。

总结

总的来看，这项工作揭示了 LLM 在推理阶段的一少部分高熵词会显著影响输出正确性，并提出了 Minimal Test-Time Intervention (MTI)，其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。该方法无需训练并即插即用，易于与现代加速框架和各种解码策略或测试时扩展方法进行结合。该方法利用对推理阶段高熵词的扰动，不仅显著提升了模型在大量任务上的表现，也为未来挖掘 LLM 推理阶段的潜力提供了全新的思路。

....

就在昨晚，OpenAI 宣布完成资本重组，并简化公司结构。

具体来讲，非营利组织仍然控制着营利性机构，并且在 AGI 到来之前能够直接获得大量资源。

这个非营利组织现在被称为 OpenAI 基金会（OpenAI Foundation），持有当前估值约为 1300 亿美元的营利性机构（下文的 OpenAI Group）的股权，持股26%，其余 47% 的股份由现任及前任员工和投资者持有。这也使得该基金会成为历史上资源最为充足的慈善组织之一。

此次的资本重组，还使得 OpenAI 基金会在营利性机构达到估值里程碑时获得额外的所有权。

OpenAI 的使命「确保通用人工智能（AGI）造福全人类」，将通过盈利性机构和基金会共同推进。OpenAI 作为公司越成功，非营利机构的股权价值就越高，并利用这些股权资金支持其慈善工作。

未来，OpenAI 基金会将首先在以下两大领域集中发力，并承诺投入 250 亿美元。这些工作将在 5000 万美元的「以人为本的人工智能基金」和非营利委员会的建议基础上展开。

一是，健康与疾病治愈。OpenAI 基金会将资助加速健康突破的工作，以便每个人都能从更快的诊断、更好的治疗和治愈中受益。这将包括创建开源且负责任构建的前沿健康数据集，以及为科学家提供资助等活动。

二是，人工智能韧性技术解决方案。正如互联网需要一个全面的网络安全生态系统来保护电网、医院、银行、政府、公司和个人，我们现在也需要为人工智能建立一个平行的韧性层，因此 OpenAI 基金会将投入资源，支持人工智能韧性的实际技术解决方案，旨在最大化人工智能的益处并最小化其风险。

OpenAI 进一步表示，其在 2015 年成立之初即为非营利性组织。如今，OpenAI 依然作为非营利性组织致力于其使命的完成。

OpenAI 基金会将控制 2019 年成立的营利性业务，并始终将其使命放在核心位置。OpenAI 的营利性机构现为公开利益公司，名为 OpenAI Group PBC，拥有与 OpenAI 基金会相同的使命，确保公司的使命与商业成功共同推进。

OpenAI 基金会将与 OpenAI Group 密切合作，推动解决人工智能进展所带来的重大问题以及机遇，包括将智能转化为每个人都能受益的工具，构建安全和对齐的系统，促进科学发现的加速，并加强全球合作与韧性。

2028 年实现完全自动化 AI 研究员

与此同时，OpenAI CEO 奥特曼还与首席科学家 Jakub Pachocki 进行了一场 QA 直播，回答了外界关切的一些问题。

以下是直播中提到到一些重点：

微软 & OpenAI 开启合作下一篇章

OpenAI 在宣布再资本化的同时，还公布了与微软下一步合作的计划。

最初，微软之于 OpenAI 是对一个研究组织的投资，这一合作关系已经发展成为行业中最成功的伙伴关系之一。在进入这一合作关系的下一阶段时，双方签署了一项新协议。

首先，微软支持 OpenAI 董事会推进成立公开利益公司（即 OpenAI Group）和再资本化。在再资本化之后，微软将持有 OpenAI 大约 27% 的股份，总估值高达约 1350 亿美元。如果不考虑 OpenAI 最近融资轮的影响，微软在 OpenAI 营利性机构中的股份按完全摊薄计算为 32.5%。

该协议保留了推动这一成功合作关系的关键元素，这意味着 OpenAI 仍将是微软的前沿模型合作伙伴。微软将继续拥有独占的知识产权和 Azure API 独占权，直到 AGI 实现。

双方还完善并增加了新的条款，使各自能够独立继续推动创新和增长，包括如下：

随着两家公司迈入合作关系的下一个篇章，双方将比以往任何时候都更有能力继续打造满足现实需求的优秀产品。受此消息提振，微软周二股价上涨近 2%。

参考链接：

....

昨夜，英伟达让人眼花缭乱。

从大规模 GPU 部署和量子突破，到安全的 AI 工厂、机器人技术和自动驾驶，黄仁勋在 NVIDIA GTC Washington 的舞台上勾勒出了美国 AI 世纪 (America’s AI century) 的蓝图。

黄仁勋 Keynote 演讲后，英伟达股价应声上涨，今天涨幅已经达到 4.98%，这也使得英伟达的市值增加 2300 多亿美元，来到了前所未有的 4.89 万亿美元，此前甚至触及 4.94 万亿美元！

这也意味着，英伟达即将成为首家市值达到 5 万亿美元的公司。

黄仁勋的演讲以一段视频开场，这段视频是对美国的创新精神以及过去、现在和未来的美国创新者们的致敬。这不仅仅是又一场科技演讲 —— 这是一份宣言，一个美国在人工智能基础设施和创新领域保持领先地位的蓝图。

「欢迎来到 GTC，」黄仁勋在人群的欢呼声中宣布，「很难不对美国感到动情和自豪。」

接下来，黄仁勋主要介绍了以下内容：

以下是详细内容。

Vera Rubin 超级芯片亮相

在 GTC 大会上，黄仁勋展示了下一代 Vera Rubin 超级芯片。这是我们首次实际看到这款「超级芯片」。它搭载了 Vera CPU 和两颗强大的 Rubin GPU。该主板还搭载了大量 LPDDR 系统内存（共 32 个），将与 Rubin GPU 上的 HBM4 显存配合使用。

可见，每块 Rubin GPU 都由大量的电源电路包围，每个芯片将配备 8 个 HBM4 显存位点和两个 Reticle 大小的 GPU 芯片。Vera CPU 将配备 88 个定制 ARM 核心，共计 176 个线程。

谈到推出计划，老黄透露，他预计 Rubin GPU 将在明年 10 月或更早进入量产阶段，也就是 2026 年第三季度或第四季度。所有这一切都发生在 Blackwell Ultra GB300 超级芯片平台全速推出的同时。

规格方面，Vera Rubin NVL144 平台将采用两颗全新芯片。Rubin GPU 将采用两颗 Reticle 大小的芯片，FP4 性能高达 50 PFLOP，并配备 288 GB 的下一代 HBM4 显存。此外，这些芯片还将搭载一颗 88 核 Vera CPU，该 CPU 采用定制的 Arm 架构，拥有 176 个线程，以及高达 1.8 TB/s 的 NVLINK-C2C 互连。

在性能扩展方面，Vera Rubin NVL144 平台将具有 3.6 Exaflops 的 FP4 推理能力和 1.2 Exaflops 的 FP8 训练能力，比 GB300 NVL72 提升 3.3 倍，13 TB/s 的 HBM4 内存和 75 TB 的快速内存，比 GB300 提升 60%，并且 NVLINK 和 CX9 功能增加 2 倍，额定速度分别高达 260 TB/s 和 28.8 TB/s。

加强版本的平台 Rubin Ultra 将于 2027 年下半年推出，其 NVL 系统将会从 144 个扩展到 576 个。CPU 架构保持不变，但 Rubin Ultra GPU 将采用四个小芯片，提供高达 100 PFLOPS 的 FP4 性能，以及分布在 16 个 HBM 位置上的 1 TB HBM4e 总容量。

在性能扩展方面，Rubin Ultra NVL576 平台将具有 15 Exaflops 的 FP4 推理能力和 5 Exaflops 的 FP8 训练能力，比 GB300 NVL72 提升 14 倍，4.6 PB/s 的 HBM4 内存和 365 TB 的快速内存，比 GB300 提升 8 倍，NVLINK 能力提升 12 倍，CX9 能力提升 8 倍，额定速度分别高达 1.5 PB/s 和 115.2 TB/s。

英伟达的转向：从 CPU 到 GPU 加速计算

几十年来，CPU 的性能增长一直如时钟般精准 —— 直到登纳德缩放定律（Dennard scaling）失效。英伟达的答案是：并行计算、GPU 和加速计算。摩尔定律也不可能永远持续下去。

「我们发明这种计算模型，是因为我们想解决通用计算机无法解决的问题。」黄仁勋说。「我们观察到，如果我们能增加一个可以利用越来越多晶体管的处理器，并应用并行计算，再将其添加到顺序处理的 CPU 上，我们就能远远扩展计算的能力 —— 而那个时刻真的到来了。」

加速计算始于英伟达贯穿整个技术栈的 CUDA-X 库 —— 从用于深度学习的 cuDNN 和 TensorRT-LLM，到用于数据科学的 RAPIDS (cuDF/cuML)，用于决策优化的 cuOpt，用于计算光刻的 cuLitho，以及用于量子和混合量子经典计算的 CUDA-Q 和 cuQuantum 等等。

「这确实是我们公司的宝藏。」黄仁勋在播放一段展示 CUDA-X 功能的视频前说道。

美国 AI 原生 6G 技术栈与 ARC-Pro

黄仁勋表示，电信是我们经济和国家安全的命脉。

然而，如今全球范围内的无线技术在很大程度上「依托外国技术部署，我们的基础通信技术建立在外国技术之上，这种情况必须停止 —— 而且我们有机会做到这一点。」

黄仁勋宣称，是时候「重返赛场」了。

黄仁勋宣布了一个以美国为核心的 AI 原生 6G 无线协议栈 ——NVIDIA ARC，该协议栈基于 NVIDIA Aerial 平台构建，并由加速计算提供支持，而诺基亚将整合 NVIDIA 的这项技术。

黄仁勋表示：「我们将与诺基亚合作，他们将把 NVIDIA ARC 用作其未来的基站。」

量子飞跃：NVQLink

四十年前，量子物理学家理查德・费曼设想了一种新型计算机，能够直接模拟自然现象，因为它基于量子原理运行。

黄仁勋表示，现在已经可以制造出一种相干、稳定且能纠错的逻辑量子比特（qubit）。但这些量子比特「极为脆弱」，因此需要强大的技术来进行量子纠错并推断量子比特的状态。

为了连接量子计算和 GPU 计算，黄仁勋宣布推出 NVIDIA NVQLink—— 一种量子 GPU 互连技术，可实现从 QPU 进行实时 CUDA-Q 调用，延迟低至约 4 微秒。

黄站在一张幻灯片前说道：「几乎每个能源部实验室都在与我们的量子计算公司生态系统以及这些量子控制器合作，以便将量子计算融入到未来的科学发展中。」幻灯片重点展示了 17 家量子计算公司和多个美国能源部实验室的支持。

加速美国科学

黄仁勋表示，得益于对 AI 基础设施史无前例的投资，美国的国家实验室正在进入一个科学发现的新时代。他宣布，美国能源部 (DOE) 正与英伟达合作，建造七台新的超级计算机，以推动未来科学的发展。

英伟达正与美国能源部和甲骨文合作，在阿贡国家实验室建造能源部最大的 AI 超级计算机。

关键信息：

走进 AI 工厂：极限协同设计

「AI 不是工具，AI 本身就是工作 (work)。」黄仁勋宣称。「技术第一次能够真正干活 (do work)，帮助我们提高生产力。这种从工具到 AI 工作者 (AI workers) 的转变，正在创造全新的计算形式，随之而来的是新的就业和产业。」

AI 工厂不仅仅是数据中心；它们是专门构建的平台，用于大规模生成、移动和服务 token。

「然后，因为 AI 是一个如此庞大的问题，我们对其进行了纵向扩展 (scale up)。」黄仁勋解释说。「我们创造了一台完整的计算机…… 这是第一次，一台计算机被扩展成了整个机架。那是一台计算机，一个 GPU。然后，我们通过发明一种新的 AI 以太网技术，对其进行了横向扩展 (scale out)。」他补充道，指的是 NVIDIA Spectrum-X。

随着这些 AI 工厂的崛起，它们正在催生 AI 工程、机器人技术、量子科学和数字运营等领域的新职业 —— 这些职位在几年前还根本不存在。

「这个良性循环现在已经启动了。」黄仁勋说。「我们需要做的，是大幅降低成本。这样一来，首先，用户体验会更好…… 其次，通过降低成本，我们能让这个良性循环持续下去。」

黄仁勋表示，解决方案是「极限协同设计」 (extreme codesign)，即同时设计全新的基础计算机架构，包括新的芯片、系统、软件、模型和应用。

为了强调这些系统的实体性（physicality），黄仁勋将一些设备带到了舞台上。此外，他还发布了全新的 NVIDIA BlueField-4 DPU。这款处理器配备了 64 核的 NVIDIA Grace CPU 和 NVIDIA ConnectX-9，为其 AI 工厂的操作系统提供动力，其计算能力约为 BlueField-3 的 6 倍。

发布 Omniverse DSX—— 千兆瓦级 AI 工厂蓝图

黄仁勋还介绍了 Omniverse DSX，这是一个用于设计和运营 100 兆瓦 (megawatt) 到数千兆瓦 (multi-gigawatt) 级别 AI 工厂的综合蓝图。该蓝图已在弗吉尼亚州马纳萨斯的 AI 工厂研究中心得到验证。

「AI 基础设施是一个生态系统级别的挑战，需要数百家公司协同合作。NVIDIA Omniverse DSX 是一个用于构建和运营千兆瓦级 AI 工厂的蓝图。」黄仁勋说。「借助 DSX，英伟达在全球的合作伙伴能够以前所未有的速度构建和启动 AI 基础设施。」

英伟达开放模型、数据与库

黄仁勋解释说，开源和开放模型正在推动全球初创企业、大型企业和研究人员的创新。英伟达在模型家族和数据方面均做出了贡献 —— 仅今年就贡献了数百个开放模型和数据集。

英伟达的模型家族包括：Nemotron (用于智能体和推理 AI)、Cosmos (用于合成数据生成和实体 AI)、Isaac GR00T (用于机器人技能和泛化) 以及 Clara (用于生物医学工作流)。这些模型为智能体 AI、机器人技术和科学突破提供了动力。

「我们致力于此，因为科学需要它，研究人员需要它，初创公司需要它，企业也需要它。」黄仁勋此言赢得了现场观众的热烈掌声。

随后，黄仁勋重点介绍了一些基于英伟达技术构建的 AI 初创公司，以及来自谷歌、微软 Azure 、甲骨文、ServiceNow、SAP、Synopsys、Cadence、CrowdStrike 和 Palantir 的成果。

黄仁勋宣布，英伟达正与 CrowdStrike 合作，以实现「光速」 (speed of light) 般的网络安全。通过使用基于 NVIDIA Nemotron 的模型和 NVIDIA NeMo 工具，企业将能够在从云到边缘的各个节点部署专门的安全智能体。

他还宣布，英伟达和 Palantir 正在将加速计算、CUDA-X 库和 Nemotron 开放模型整合到 Palantir Ontology 平台中，以「实现规模大得多、速度快得多的数据处理」。

与全球领导者共建数字孪生平台，助力美国再工业化

实体 AI (Physical AI) 正在推动美国的再工业化 (reindustrialization)—— 通过机器人技术和智能系统改造工厂、物流和基础设施。在一段视频中，黄仁勋重点展示了合作伙伴们如何将其付诸实践。

「工厂本质上是一个机器人，它指挥着其他机器人去制造机器人化的产品。」他说。「要做到这一点，所需的软件数量是如此庞大，以至于如果你不能在数字孪生中完成它，那么几乎不可能指望它在现实中奏效。」

在舞台上，黄仁勋点名了富士康的工作，该公司正使用 Omniverse 工具来设计和验证其位于休斯顿的新工厂，该工厂将用于制造英伟达的 AI 基础设施系统。他还提到了 Caterpillar—— 该公司也正在将数字孪生技术用于制造；以及 Brett Adcock，他在三年半前创立了 Figure AI 公司，该公司致力于为家庭和工作场所打造人形机器人，目前市值已接近 40 亿美元；此外还有强生以及迪士尼，后者正使用 Omniverse 来训练「有史以来最可爱的机器人」。

自动驾驶出行：Uber 和 DRIVE Hyperion 10

黄仁勋宣布，Uber 和英伟达正在合作构建自动驾驶出行的中坚力量 —— 目标是部署约 100,000 辆自动驾驶汽车，并从 2027 年开始规模化。NVIDIA DRIVE AGX Hyperion 10 是 L4 级别的参考架构：它安全、可扩展、由软件定义 —— 将人类驾驶员和机器人驾驶员统一在同一个网络上。

「在未来，你将能叫到这样一辆车。」黄仁勋说。「这个生态系统将变得极其丰富，我们的 Hyperion 自动驾驶出租车 (robotaxi) 将遍布世界各地。」

黄仁勋最后表示：「AI 时代已经开启。Blackwell 是它的引擎。感谢大家允许我们将 GTC 带到华盛顿特区。我们希望今后每年都能在这里举办。」

参考链接：

....

英伟达首席执行官黄仁勋上周表示，受美国出口管制持续影响，公司在中国先进 AI 加速器市场的份额已从约 95% 骤降至 0%。

黄仁勋在采访中称：“目前，我们已 100% 退出中国市场”，并补充道，“我们的市场份额从 95% 跌到了 0%。”

这也是英伟达首次公开量化其退出中国市场的规模。黄仁勋未提及具体产品，但他的表述显然指向英伟达数据中心 GPU 产品线，目前看来已完全失去了中国市场。自 2022 年 10 月以来，该产品线已多次面临出口限制。2023 年，美国出口禁令使得英伟达专为中国市场设计的 A800 和 H800 芯片不再符合规定；而其新款产品 H20 也遭遇了自身的许可审批难题。

谈及这一结果，黄仁勋表示：“我无法想象有任何政策制定者会认为这是个好结果 —— 我们推行的政策，最终导致美国失去了全球最大的市场之一，份额降至 0%。”

英伟达此前曾披露，中国市场贡献了其数据中心业务营收的 20% 至 25%。在该公司最新财报中，数据中心业务营收超 410 亿美元，同比增长 56%。尽管这一数据涵盖了承担各类工作负载的云服务客户，但 AI 基础设施仍是公司的增长引擎。长期的出口限制可能会重塑该业务的需求格局与供应链体系。

作为限制中国获取尖端半导体整体战略的一部分，美国政府已收紧对出口至中国的 AI 加速器的管控。但黄仁勋的言论凸显出，实际市场格局的变化速度远超预期。他表示：“在我们所有的预测中…… 中国市场的占比都按 0% 计算。如果未来中国市场出现任何转机…… 都将是额外的惊喜。”

英伟达的谨慎预期背后，是 AI 产业链正进一步呈现碎片化的迹象。为应对出口限制，中国的超大规模科技公司和 AI 实验室已越来越多地转向国产芯片或其他替代硬件，加速推进计算基础设施的国产化进程。黄仁勋在今年早些时候就曾指出过这一趋势，当时他警告称，全面的限制措施可能会推动具有竞争力的替代产品的研发。

尽管黄仁勋表示，他仍希望英伟达未来能重返中国市场，但目前该公司已实际上将中国市场排除在业务预期之外。

....

最近半年以来，有关于RL+Entropy的研究非常的多。对于离散的动作空间, 策略在状态处的entropy为

直观上而言，entropy收敛到0，意味着策略极化到某一个确定性的解上，并且不容易跳出来，这也是“收敛”两字的蕴含之意。但一个问题是，到底背后发生了什么，导致了该现象发生？对于softmax policy，即

其中为(s,a)处的关于参数的logits函数。实际上，我们有以下两个理论可以说明，为什么entropy 收敛到0，模型训练往往意味着收敛

首先第一个理论结果我们已经写在EMPG论文[1]中。

这个理论结果说明了，对于softmax 策略，状态s处，期望下关于logits的策略梯度范数直接等于1-exp{-H2} 。Renyi-2 entropy, 即H2, 越小，例如接近0，那么期望的策略梯度范数也接近0。注意到我们一般讨论的entropy为信息熵，实际上是Renyi-1 entropy。Renyi entropy在order 上存在单调性，即 Renyi-1 entropy 大于 Renyi-2 entropy。从而上述的理论结果可以推到下面的不等式：

实际上，这个定理的主要推导并不复杂。其背后的原理是：高概率action 的策略梯度范数更小。而entropy越低，更容易产生高概率的action，因此导致期望的梯度范数衰减。

实际上，我们有下面一个定理，可以进一步佐证这个事情。假设我们有一个基础策略 , 经过某个算法更新后(例如PG)，得到新的策略。我们考虑状态s处的更新前后的logits向量的差，即

那我们可以得到如下的不等式证明：

其中是一个根据泰勒展开得到的，关于logits 移动幅度距离的高阶项。在logits移动距离幅度的不大的时候可以忽略。因此如果只关注RHS的第一项，我们可以看到：

当然，细心的朋友可能会觉得前面的常数项，对于LLM来说可能太大了。实际上我们可以把这一项改进成例如top-p的action space，从而不会出现爆炸。出于简便本文不写详细结果。下面我们给出上面不等式的证明。

不等式证明：为方便符号简单，我们记策略向量，。我们定义向量函数

为以向量作为logits 与的KL距离。于是根据泰勒展开，容易知道:

根据推导，我们可以得到 (此处省略):

其中是softmax 策略在logits 向量 z 处的Fisher information matrix，即

其中 . 将上述推导带入到泰勒展开中可以得到:

注意到对于两个, 根据softmax 策略求导，容易知道

从而直接推导我们可以得到

其中 (a) 使用了幂等不等式， (b) 实际上利用了第一个理论结果中的不等式。将这个二次项带入 KL的泰勒展开，我们即得到了结果。

从上述推导可以看到，这两个性质的出现，即entropy 收敛导致的学习衰退，完全是由于softmax 参数化的特殊的曲率导致的。在之前的RL研究中使用牛顿法（如NPG）或者换其他参数化（比如我自己文章的Hadamard 参数下的PG[2]) y一定程度上都能够克服这样的事情，避免陷在局部最优上出不来。我们的LLM+RL的研究，仍然有机会去改进softmax参数化导致的特殊的学习dynamic。

....

开学将至，该收心的不止有即将开启新学期的同学，可能还有 AI 大模型。

「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整 4 页文稿，现在连半页都输出不了了！」

在一个名为「对 Claude 彻底失望了的帖子里」，满满地摘录了 Claude「偷懒」的「十五大罪状」。

引得 Claude 的首席信息安全官 Jason Clinton 出来回复：「Claude 的水平没有下降啊！」

他表示：「我们的模型存储在一个不会改变的静态文件中，这个文件被加载到很多服务器上，每个服务器运行的都是相同的模型和软件。我们没有更改任何设置，因此模型的表现应该没有变化。如果您发现有问题，可以给回答点踩来反馈。目前，点踩数并未增加，使用 Claude API 的客户也没有类似的反馈。」

对于 Claude 为什么「变懒」，独立 AI 研究员 @nearcyan 给出了一种解释：Claude 把自己当成了一个欧洲人，正在给自己放一个月的暑假！虽然听起来有够离谱，但他给出了一连串的证据：

新的系统提示词

首先，Claude 在 7 月 12 日发布了新的系统提示词。系统提示词相当于 Claude 的背景知识，Claude 在回复用户的问题时，会参考这些信息，例如当前日期。而 8 月正是欧洲人最爱度假的月份。外贸行业在夏天的订单都会减少，因为整个欧洲这个时候都在享受长达一个月的暑假。

Claude 可囊括所有国籍的工作模式

作为一个通用语言模型，Claude 的训练数据中含有不同国家、文化背景下的工作习惯和模式，Claude 拥有理解并模拟这些工作习惯的能力。

因此，当 Claude 的系统提示中包含「放暑假的日期」时，它可能会结合训练所学来调整自己的行为。例如，在 8 月份，欧洲的许多国家可能会有较长的假期，Claude 可能会表现得懒惰，是因为它在模拟这些国家的工作模式。

后期训练的影响

为了让 Claude 成为一个具体的应用模型，Anthropic 对其进行了「后期训练」。这一步是为了在基础 LLM 的基础上，通过特定的任务或数据集来进一步调整模型，使它更符合预期的行为或输出。@nearcyan 暗示，这种后期训练使 Claude 落入了某种「LLM 盆地」中。这里的「盆地」是一个比喻，表示 Claude 在某些方面表现出更倾向于欧洲风格的特质。

模拟欧洲知识工作者的行为

@nearcyan 猜测，Claude 会基于「模拟框架」进行工作。模拟框架是指 Claude 的行为模式是通过模拟（或再现）某些特定类型的人类行为来生成的。这个框架让 Claude 能够根据它所理解的特定情境或输入，模拟出相应的行为或反应。

在欧洲许多国家，8 月份通常是放假和休息的高峰期。这段时间，很多人会去度假，工作节奏变慢，甚至有些企业会暂时关闭。因此，8 月份在欧洲文化中被视为一个放松和休息的时间段。因此，Claude 在 8 月份表现得「懒惰」是因为它在模拟一个欧洲知识工作者的行为模式。

名字对行为的潜在影响

@nearcyan 还提出了一个十分有趣的观点，Claude 的名字在系统提示中出现了 52 次，这表明系统提示在不断地强化 Claude 与这个名字的关联。而哪个国家最常见的名字是 Claude？没错，是法国。法国以其长时间的夏季假期（尤其是 8 月份）而闻名。在这段时间，许多法国人会选择度假，很多企业也会关闭或放假。 Claude 说不定把自己当做法国人了。

还有网友晒出了让 Claude 别变懒的方法。你可以在自定义指令添加以下提示，用忘记时间大法也好，激将法也好，帮助 Claude 重新变成聪明、积极的自己。

AI 已经智能到会给自己放寒暑假了？

去年年底，GPT-4 也出现了累死的状况，它似乎变得有些懈怠。如果在高峰时段让它写段代码，它的反应将非常慢，或者直接 PUA 你：「这点小事，怎么不自己做呢？」

OpenAI 承认了 GPT-4 正在越来越「懒」，但并未找出「偷懒」的具体原因。OpenAI 称：「变懒当然不是故意的，模型的行为有时确实难以预测，我们正在研究如何修复。」

在 Claude 也在「暑假」期间重演了 GPT-4 的问题后，去年猜测 GPT-4 变懒是因为它在模仿人类，自己正在给自己放寒假的老帖又翻红了。

网友 @Rob Lynch 首先发现了这一点。他为 GPT-4 turbo API 设置了两个系统提示词：

一个提示词称现在是 5 月，另一个称现在是 12 月，然后使用完全相同的提示词要求 AI 完成一个机器学习领域的编码任务。

@Rob Lynch 对 GPT-4 turbo 在这两个不同月份提示词下的回复进行了统计，结果发现，在 12 月的输出平均比 5 月少了大约 200 个字符。

提示词为 5 月时，模型生成文本的平均长度是 4298 字符；12 月则为 4086 字符。

为了测试更加严谨，@Rob Lynch 还做了 t-test，其中 p 值小于 2.28×10−7，也就是说数据和假说之间的联系，几乎可以排除是偶然。

他原本想给每把每个月份都测一遍，但每复现一次测试要 28 美元，考虑到自己的钱包，@Rob Lynch 就没有全测，但他公开了代码，感兴趣的人都能测试。

@Rob Lynch 的发现也获得了实例支撑，GPT-4 在 12 月的回复和 5 月的认真程度，有非常明显的直观差距。

然而，当有人试图复现这个测试时，却发现大模型「偷懒」和放不放假之间没什么关系。

他对比了 GPT-4 对于两种系统提示词的 80 条输出，t-test 的结果大于 0.1，这一般被视为没有统计学意义。

@Rob Lynch 也以 80 个样本量重新测了一次，得到的 p 值是 0.089，这次「偷懒」和放假之间就没什么关联了。随着样本量的增加，这个效果越来越显著。

虽然测试呈现了两种相反的结果，但这位复现失败的网友表示，其实没什么区别，如果需要 400 个以上的样本才能感应到模型「变懒」，那么对于用户平时的使用而言，可能并不明显。

目前，还没有尚无确凿数据支持所谓的「寒暑假假说」，但是 Claude 和 GPT-4 都显示出了类似的「症状」。关于大型模型性能下降的真正原因，我们仍需耐心等待学术界的深入研究和解答。

....

中电金信联合复旦提出多模态鉴伪法，还入选顶会ACM MM

该论文作者来自复旦大学、中电金信及上海智能视觉计算协同创新中心团队，论文已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收，并将在该大会上进行口头报告（Oral 接收率仅 3.97%）。

AI 换脸技术，属于深度伪造最常见方式之一，是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法，可以将一个人的面部特征映射到另一个人的面部，创造出看似真实的伪造内容。近年来，以 AI 换脸为代表的 AIGC 技术被用于诈骗活动呈显著增长趋势，给金融行业带来了巨大的安全风险。

注：图左为 AI 分身

如上述画面，领英创始人里德・霍夫曼用 LLM 创建了自己的 AI 分身，并接受了其 AI 分身的采访，整场采访的效果极为逼真，难辨真假。

以金融机构身份验证环节的人脸识别为例，AI 换脸诈骗作为一种新兴的 “AIGC” 诈骗攻击手段，已经对金融业务安全构成了严重威胁，同时，通过换脸伪装成亲友，以紧急情况为由借钱，让受害者在毫无防备的情况下遭受资金损失的案例也很多。

伴随着威胁不断增长，许多检测方法已经出现。早期的伪造检测方法主要关注单个模态，如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快，但场景泛化性能有限，无法同时检测多个模态的真伪。

为了解决上述问题，多模态鉴伪方法应运而生。现有的多模态鉴伪方法仅在小样本数据集上进行训练，并且忽略了身份信息，难以得到泛化性能较好的模型。为了提升鉴伪模型的泛化能力，中电金信联合复旦大学提出了参照辅助的多模态鉴伪方法（Reference-assisted Multimodal Forgery Detection Network，R-MFDN ），相关论文已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收，并将在该大会上进行口头报告（Oral 接收率仅 3.97%）。

核心技术介绍

R-MFDN 方法创新性地利用丰富的身份信息，挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成，多模态特征提取模块、特征信息融合模块和伪造鉴别模块。

多模态特征提取模块包含视频编码部分和音频编码部分。

视频编码部分通过 ResNet 实现。对于输入的视频帧序列，模型从该序列等步长地采样 4 个分组，每个分组中包含连续的 4 帧。对于采样的 16 帧，模型使用 ResNet 提取对应的图像级特征。然后每个分组的特征通过时序 Transformer 模型得到一个分组级特征。最后通过对 4 个分组级特征进行平均池化得到视觉特征。

音频编码部分使用音频频谱图 Transformer 提取音频的高级特征。然后，这些特征作为特征信息融合模块的输入。

在特征信息融合模块中，视觉特征先经过自注意力层处理，然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中，进行类别判断。

为了监督 R-MFDN 模型的训练，研究团队使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配，从而使特征学习过程能够在特征空间中对齐不同模态的信息。

具体而言，源于同一个视频的不同模态特征被视作正样本对，不同源的则被视作负样本对。正样本对的特征应该尽可能接近，负样本对则应该疏远。此外在匹配过程中，涉及伪造信息的匹配亦被视为负样本对，以增强特征学习过程对伪造的敏感性。这不仅提升了模型的判别能力，还使其在现实世界的多模态深度伪造场景中实现更准确的检测。第三个损失函数是身份驱动的对比学习损失函数，旨在使相同身份的相同模态特征尽可能靠近，而不同身份的特征则尽量远离。尽管训练与测试数据中每个身份涉及多个视频和场景，表现形式各异，鉴伪模型仍能学习到身份敏感的特征，从而在 AI 换脸拟声等身份伪造场景中具备更强的鉴别能力。

IDForg数据集

此外，由于多模态伪造视频鉴别领域目前没有大规模高质量的开源数据集，研究团队还构建了一个高质量的 AI 换脸拟声数据集 ——IDForge。该数据集包含针对 54 位名人讲话的 249,138 个视频片段，其中包括 169,311 个伪造视频片段，模拟了当下文本、音频和视频多模态的全方位伪造。

文本伪造使用大语言模型和文本替换策略生成语义不同但风格相似的新句子，以模拟大语言模型被滥用传播虚假信息的情境。音频伪造使用了 TorToiSe、RVC 和音频替换策略生成与说话人声音相似的新音频片段，并通过随机替换相同性别的音频来制造伪造效果。

视频伪造采用了社区和学界大量采用的 ROOP、SimSwap 和 InfoSwap 三种换脸方法，并使用高分辨率版本的 Wav2Lip 模型进行口型同步，以确保伪造视频的高质量和自然性。

与现有数据集不同，IDForge 还提供了一个额外的参考数据集，该数据集包含 214,438 个真实视频片段。这些片段来自另外 926 个完整的 YouTube 视频，作为每位说话人的身份先验信息。这一设计的出发点是，当观众面对可能存在伪造迹象的视频时，通常会凭借记忆中对该说话人的印象或对照已有的音视频，以判断视频的真实性。因此，研究团队额外提供了参考数据集部分，作为检测网络中可用的先验信息。先前的身份信息检测方法由于缺乏类似设计的数据集，受到了诸多限制。数据集目前已在 Github 上开源。

实验

研究团队通过在提出的权威评测数据集 IDForge 的大量实验，证明了 R-MFDN 在多媒体检测任务上的有效性。

注：R-MFDN 的性能在每个评估指标上都取得了最好的成绩，实现了 92.90% 的高准确率，分别比 RealForensics、VFD、CDCN、RawNet2 高出了 3.72%, 6.69%, 13.02%，和 13.69%。

基于此项技术，中电金信推出了多模态深度伪造检测产品，通过先进的多模态内容理解与对齐技术，预测图像、音频、视频真实采集的置信度，鉴别 Al 生成内容，防范身份盗用、侵权欺诈等风险，可广泛应用在金融身份认证、视频会议核身认证、网络视频电话防欺诈等场景。目前，双模态篡改检出率已达到99.9%以上，单模态篡改检出率达到96%以上。

对比 AI 分身视频画面，给出了可信赖度低的分数

如上图，回到文章开头领英创始人里德・霍夫曼的 AI 分身视频，以此为素材，通过中电金信的多模态深度伪造检测能够对真伪视频立马见分晓。

利用 AI 换脸视频或合成声音来实施诈骗的确让人防不胜防，有关部门也正在积极开发相关的反制技术和手段。比如，《互联网信息服务深度合成管理规定》提出了算法备案、安全评估的手段，要求深度合成服务提供者对深度合成的内容添加显式或隐式水印。与此同时，也要加强对个人隐私的保护，不轻易提供人脸、指纹等个人生物信息给他人。

....

该论文作者均来自于华南理工大学马千里教授团队，所在实验室为机器学习与数据挖掘实验室。论文的三位共同第一作者为博士生郑俊豪、硕士生邱圣洁、硕士生施成明，主要研究方向包括大模型和终生学习等，通讯作者为马千里教授（IEEE/ACM TASLP 副主编）。马千里教授团队近年来在国际权威期刊（如 TPAMI 等）和国际顶级学术会议（如 NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等）上发表多篇 Time Series/NLP/Recommendation System 相关的研究工作，和国内外知名高校、科研机构广泛开展合作。

随着大语言模型在各个领域应用的不断拓展，如何让这些模型能够连续适应数据、任务和用户偏好的变化成为一个关键问题。传统的静态数据集训练方法已经无法满足现实世界的动态需求。

为了解决这一挑战，终生学习（Lifelong Learning）或连续学习（Continual Learning）技术应运而生。它能让大语言模型在其工作寿命中不断学习和适应，在整合新知识的同时保留以前学习过的信息，防止灾难性遗忘（Catastrophic Forgetting）。

最近，来自华南理工大学的研究者调研、整理并总结了大语言模型（LLMs）的终生学习（Lifelong Learning）方法及其发展前景，并将其总结为一篇全面且前沿的综述。

图 1 展示了终生学习（Lifelong Learning）在大语言模型和人类学习过程中的类比。图中通过两条平行的学习路径来展示人类和大语言模型在终生学习中的进化过程。

人类学习（Human Learning）

1. 步行（Walk）：人类从最基础的技能（如步行）开始学习。

2. 骑自行车（Ride a Bike）：随着学习的进展，人类掌握了更复杂的技能（如骑自行车）。

3. 开车（Drive a Car）：最终，人类可以掌握更加复杂和高级的技能（如开车）。

每一步都代表着人类在终生学习过程中不断获取新技能和知识的过程。

大语言模型学习（LLMs Learning）

1. 新语言（New Language）：大语言模型从学习新的语言开始（如学会处理不同的自然语言）。

2. 新领域（New Domain）：接下来，模型学习新的领域知识（如从自然语言处理扩展到医学领域）。

3. 新信息（New Information）：最终，模型可以学习和整合新的信息，无论是语言还是领域。

每一步代表着大语言模型在终生学习过程中不断扩展和更新知识的过程。这张图强调终生学习的过程：终生学习是一个连续的过程，涵盖了从基础到高级的逐步进化。终生学习不仅仅是简单的知识积累，而是一个动态的、不断进化的过程。

近年来，终生学习已成为一个越来越热门的研究课题，涌现出有关神经网络终生学习的大规模调查。大多数现有研究主要关注卷积神经网络（CNN）的终生学习的各种应用场景和图神经网络的终生学习。然而，只有少量文献关注语言模型的终生学习。尽管最近的一些综述收集了终生学习的最新文献，但都没有涉及连续文本分类、连续命名实体识别、连续关系提取和连续机器翻译等场景，对连续对齐、连续知识编辑、基于工具的终生学习和基于检索的终生学习的讨论也很少。

这篇综述是第一个从 12 个场景出发，对大语言模型终生学习方法进行全面系统研究的调查。

总体来说，综述的主要贡献包括：

一、引言

本综述系统地总结了现有的终生学习技术方法，在图 2 中将其分为内部知识和外部知识两大类。

内部知识（Internal Knowledge）

1. 连续预训练（Continual Pretraining）：

2. 连续微调（Continual Finetuning）：

外部知识（External Knowledge）

1. 基于检索的终生学习（Retrieval-Based Lifelong Learning）：通过检索外部知识库实现的终生学习。

2. 基于工具的终生学习（Tool-Based Lifelong Learning）：通过调用外部工具实现的终生学习。

二、终生学习概况

2.1 问题定义

终生学习的目标是从一系列任务中学习一个语言模型，通过输入自然语言，生成目标输出。具体来说，对于生成任务，如问答，输入和输出分别代表问题和答案；对于机器翻译任务，输入和输出代表源语言和目标语言；对于文本分类任务，输入为文本内容，输出为类别标签；对于自回归语言模型的预训练任务，输入为一系列的词元，输出为相应的下一个词元。

2.2 评估指标

综述介绍了评估终生学习效果的指标，主要从整体性能、稳定性和适应性三个角度进行评估：

2.3 通用技术

综述在图 3 中展示了四种主要的终生学习方法，用于应对大语言模型在处理连续任务（Task t-1 到 Task t）时的灾难性遗忘问题。以下是对每种方法的解释：

(a) 基于重放的方法（Replay-Based Methods）：

–经验重放（Experience Replay）：通过保存一部分旧任务的数据样本，并在训练新任务时将这些数据重新用于训练，从而减少遗忘的发生。

–生成重放（Generative Replay）：不同于保存旧数据，这种方法利用生成模型来创建伪样本，从而在新任务的训练中引入旧任务的知识。

(b) 基于正则化的方法（Regularization-Based Methods）：

–权重正则化（Weight Regularization）：通过对模型参数施加额外的约束，限制新任务训练时对重要权重的修改，以此保护旧任务的知识。例如，L2 正则化和弹性权重巩固（Elastic Weight Consolidation，EWC）就是常见的技术。

–特征正则化（Feature Regularization）：正则化不仅可以作用于权重，还可以通过限制模型在特征空间中的表现，确保新旧任务之间的特征分布保持稳定。

–(a) 提示词微调（Prompt Tuning）：通过在模型的输入前添加 “软提示词”（Soft Prompts），以引导模型的生成或分类任务。这种方法只需要调整少量的参数（即提示词），而不需要改变模型的主干结构。

–(b) 前缀微调（Prefix Tuning）：在输入序列的前缀部分添加训练好的可调参数，这些参数被插入到 Transformer 层的自注意力机制中，帮助模型更好地捕捉上下文信息。

–(c) 低秩适应（LoRA，Low-Rank Adaptation）：LoRA 通过在特定层次上增加低秩矩阵来适应新的任务，而不需要改变大模型的主要权重。这种方法极大地减少了参数调整的数量，同时保持了模型的性能。

–(d) 适配器（Adapters）：Adapters 是插入到模型不同层之间的可训练模块，这些模块能够在不改变原有模型权重的情况下，通过少量的附加参数来适应新任务。通常应用在 FFN（Feed Forward Network）和 MHA（Multi-Head Attention）部分。

–(e) 专家混合（Mixture of Experts）：通过选择性地激活某些 “专家” 模块来处理不同的输入，这些专家模块可以是模型中的特定层或者子网络。Router 模块负责决定哪个专家模块需要激活。

–(f) 模型扩展（Model Expansion）：通过添加新层（New Layer）来扩展模型的容量，而保留原有的层（Old Layer）。这种方法允许模型逐渐增加其容量，以适应更加复杂的任务需求。

(d) 基于蒸馏的方法（Distillation-Based Methods）：

–从新数据蒸馏（Distillation from New Data）：学生模型在教师模型的指导下学习新任务，通过蒸馏旧模型的知识来减少对旧知识的遗忘。

–从旧数据蒸馏（Distillation from Old Data）：利用教师模型在旧数据上的表现来引导学生模型对新任务的学习，从而达到保留旧知识的效果。

–从伪旧数据蒸馏（Distillation from Pseudo-Old Data）：通过生成伪旧数据（Pseudo-Old Data），让学生模型在学习新任务时保持对旧知识的记忆。

三、连续预训练

连续预训练可以更新大语言模型的内部知识，而无需承担全面预训练的高昂成本，从而增强大语言模型的能力。目前的研究横跨垂直、语言和时间领域，解决了灾难性遗忘和时间适应等难题。经验重放、知识蒸馏、参数高效微调、模型扩展和再加热等技术已显示出良好的前景。

3.1 连续垂直领域预训练

连续垂直领域预训练（Continual Vertical Domain Pretraining）旨在通过在一系列领域特定的数据集上连续训练语言模型，确保模型在多个垂直领域或任务中表现出色，同时保留先前获得的知识。

主要方法：

1. 参数高效微调（Parameter-Efficient Fine-Tuning）：

2. 模型扩展（Model Expansion）：

3. 再预热（Re-warming）：

4. 数据选择（Data Selection）：

3.2 连续语言领域预训练

连续语言领域预训练（Continual Language Domain Pretraining）旨在使语言模型能够不断整合新数据，并适应不断变化的语言领域而不遗忘先前的知识。

主要方法：

1. 架构调整方法（Architecture-Based Methods）：

2. 再预热（Re-warming）：

连续时间领域预训练（Continual Temporal Domain Pretraining）涉及不断更新语言模型，以保持其在时间敏感数据上的准确性和相关性。

主要挑战：

2. 有限改进：Röttger 等发现，虽然时间适应在掩码语言模型任务上有轻微改进，但与单纯的领域适应相比，对下游任务性能的提升并不显著。

通过这些方法和研究，作者展示了连续预训练在不同维度上的方法和挑战，并强调了在垂直领域、语言领域和时间域中应用终生学习的必要性和有效性。

四、连续微调

连续预训练可增强大语言模型的内部知识，在此基础上，连续微调增强了大语言模型的内部知识，并使大语言模型适应特定任务，如文本分类、命名实体识别、关系提取、机器翻译或一般生成任务，如指令调整、知识编辑和与人类偏好对齐。为了应对灾难性遗忘和任务干扰等挑战，采用了蒸馏、重放、正则化、基于架构和基于梯度的方法等技术。作者在图 5 中对 7 种连续微调场景进行了说明。

这张图展示了七种不同类型的任务如何通过连续学习在大语言模型中实现。以下是对每个部分的详细解释：

(a) 连续文本分类

(b) 连续命名实体识别

(d) 连续知识编辑

(e) 连续机器翻译

(f) 连续指令微调

(g) 连续对齐

五、外部知识

连续预训练和连续微调对 LLM 的终生学习至关重要，然而随着 LLM 越来越大、功能越来越强，有两个新兴方向越来越受欢迎，它们可以在不修改大语言模型参数的情况下，为大语言模型提供新的外部知识。作者考虑基于检索的终生学习和基于工具的终生学习，因为这两种方法都是实现 LLM 终生学习的有前途的方法。图 6 举例说明了这两种方法。

基于检索的终生学习（Retrieval-Based Lifelong Learning）

基于工具的终生学习（Tool-Based Lifelong Learning）

六、讨论与结论

6.1 主要挑战

6.2 当前趋势

6.3 未来方向

6.4 结论

作者将现有研究分为 12 种终生学习场景，并提供了全面的方法归纳整理。此外还分析强调了在管理灾难性遗忘、确保计算效率和在知识获取中的特定性与通用性之间维持平衡的必要性。随着领域的不断发展，这些先进策略的集成将对塑造下一代人工智能系统起到关键作用，帮助它们更接近实现真正的人类般的学习和适应能力。

通过对这些技术方法及其各自类别的详细研究，本综述旨在强调将终生学习能力整合到终生学习工具中，从而提高它们在现实世界应用中的适应性、可靠性和整体性能。同时为研究人员和工程师提供一个全面的视角，帮助他们更好地理解和应用终生学习技术，推动大语言模型的进一步发展。如果对文章感兴趣，可以查阅原始论文以了解更多研究内容。

....

用Mac训练个机器人叠衣服，HuggingFace开源全套教程，开源AI机器人革命要来了？

这是机器人界的 Llama？

靠 100 条轨迹数据，在 Mac 上训练几个小时，就能拥有一个可以抓取乐高积木的机械臂，这是 HuggingFace 机器人科学家 Remi Cadene 晒出的一个实例。机器人的门槛可能并没有想象中那么高。

Remi Cadene 之前是特斯拉人形机器人 Optimus（擎天柱）项目的成员，3 月份被挖去 HuggingFace，领导一个新的开源机器人项目 ——LeRobot，当时引发了一些轰动。

LeRobot 基于有史以来最大规模的众包机器人数据集，它的代码库堪称机器人领域的「Transformers」。Cadene 在 X 上表示：「人工智能发展的下一步是将其应用于我们的物理世界。因此，我们正在推动社区共同努力构建 AI 机器人，这对所有人开放！」

如今，Cadene 和他的新同事正在兑现这一承诺。前段时间，他们发布了 DIY 机器人的深入教程，从硬件 DIY 手册到 Jupyter 笔记本应有尽有。

youtube 上还有大量的视频教程可供参考：

可以说，只要按照教程操作，你在 Mac 或 PC 上训练几个小时，也能拥有一个可以抓取乐高积木的机械臂。

或者，让它给你叠衣服：

具体来说，这个教程主要解答了以下问题：

1、如何订购和组装你的机器人；

2、如何连接、配置和校准你的机器人；

3、如何记录和可视化你的数据集；

4、如何使用你的数据来训练策略并准备评估；

5、如何评估你的策略并可视化结果。

该教程主要基于一种开源、价格友好的机器人套件 Koch v1.1 编写，不过也可以通过改变配置轻松适应各种类型的机器人。

Koch v1.1 由一个主导臂和一个从动臂组成，每个臂有 6 个电机。它可以和一个或多个摄像头一起工作来记录场景，这些摄像头被用作机器人的视觉传感器。在数据采集阶段，你将通过移动主导臂来控制从动臂。这个过程被称为「遥操作」。这种技术用于收集机器人轨迹。之后，你将训练一个神经网络来模仿这些轨迹，并部署网络以使你的机器人能够自主操作。

订购、组装你的 Koch v1.1

第一步是采购零件和组装，这步有一个 Koch v1.1 Github 页面可以参考。

这个页面上包含一个详细的零件采购清单（作者表示，目前他们只找到了美国、欧盟和英国的购买链接，如果读者可以找到中国、印度等其他国家的购买链接，欢迎补充进去）：

主导臂零件采购参考清单。

从动臂零件采购参考清单。

有些零件可能需要 3D 打印，该页面也给出了详细的操作指南。

在零件全部到位后，你可以按照以下视频的指引进行安装。

组装完的两个机械臂长这样：

接下来，使用 5V 电源为主导臂供电，使用 12V 电源为从动臂供电。此外，使用 USB-C 电缆将每个臂连入计算机。

配置电机，校准机械臂，远程操控你的 Koch v1.1

Koch v1.1 的配置可以参考以下视频：

校准则参考另一个视频：

Github 页面也介绍了 Koch v1.1 所需的附加依赖项的安装以及机械臂的连接、校准方法。控制部分则分为以下步骤介绍：

1、使用 DynamixelMotorsBus 控制电机；

2、使用 DynamixelMotorsBus 远程操作 Koch v1.1；

3、使用 OpenCVCamera 添加相机；

4、使用 koch. yaml 和 teleoperate 函数

每部分都有详细的说明和代码可以参考。

记录你的数据集并将其可视化

这一步旨在录制你的第一个训练集。作者建议从简单的动作开始来验证你的设置，例如在五个位置抓取物体，并为每个位置记录 10 条轨迹。

这一步同样有视频可以参考：

作者表示，你还可以使用以下自定义工具在本地或在线可视化任何数据集：

Github 教程涉及以下内容：

1、使用 koch. yaml 和 record 函数；

2、对于记录数据集的建议；

3、可视化所有 episode；

4、使用 replay 函数在你的机器人上 replay episode。

用你的数据训练一个策略

这部分主要介绍了如何训练神经网络来控制机器人。主要步骤如下：

1、使用训练脚本；

2、将策略检查点上传到 hub。

值得庆幸的是，策略的训练不需要特别昂贵的设备，在 PC 或 Mac 上跑几个小时就能训练出来。而且无需模拟。

评估策略

在评估部分，作者也给出了完整的视频教程：

作者表示，这个项目的精妙之处在于，如果每个人都能记录下自己的数据集并在 hub 上共享，那么大家都将能够训练出具有无与伦比的感知世界以及采取行动能力的 AI！这项新技术将推动下一次社会和工业革命。

目前，LeRobt 的开源已经产生了一定的影响力。

Cadene 透露，他们正在开发一款更实惠的机器人。这款机器人不需要 3D 打印，总共花费 150 美元（2 个机械臂）名叫 Moss V1。

此外，他们还将开源一款更强大的机器人，这个机器人可以使用 5 个手指的手作为末端执行器。

他相信开源社区的力量可以推动机器人领域快速发展。

....

大模型场景里巨大的存储和GPU间通讯量是系统设计时需要考虑的重点，本文递进介绍了三种主流数据并行的实现方法：DP、DD皮、ZeRo。

当模型太大，一块GPU放不下时，流水线并行将模型的不同层放到不同的GPU上，通过切割mini-batch实现对训练数据的流水线处理，提升GPU计算通讯比。同时通过re-materialization机制降低显存消耗。

但在实际应用中，流水线并行并不特别流行，主要原因是模型能否均匀切割，影响了整体计算效率，这就需要算法工程师做手调。因此，今天我们来介绍一种应用最广泛，最易于理解的并行范式：数据并行。

数据并行的核心思想是：在各个GPU上都拷贝一份完整模型，各自吃一份数据，算一份梯度，最后对梯度进行累加来更新整体模型。理念不复杂，但到了大模型场景，巨大的存储和GPU间的通讯量，就是系统设计要考虑的重点了。在本文中，我们将递进介绍三种主流数据并行的实现方式：

DP（Data Parallelism）：最早的数据并行模式，一般采用参数服务器(Parameters Server)这一编程框架。实际中多用于单机多卡

DDP（Distributed Data Parallelism）：分布式数据并行，采用Ring AllReduce的通讯方式，实际中多用于多机场景

ZeRO：零冗余优化器。由微软推出并应用于其DeepSpeed框架中。严格来讲ZeRO采用数据并行+张量并行的方式，旨在降低存储。

一、数据并行（DP）1.1 整体架构

一个经典数据并行的过程如下：

若干块计算GPU，如图中GPU0~GPU2；1块梯度收集GPU，如图中AllReduce操作所在GPU。

在每块计算GPU上都拷贝一份完整的模型参数。

把一份数据X（例如一个batch）均匀分给不同的计算GPU。

每块计算GPU做一轮FWD和BWD后，算得一份梯度G。

每块计算GPU将自己的梯度push给梯度收集GPU，做聚合操作。这里的聚合操作一般指梯度累加。当然也支持用户自定义。

梯度收集GPU聚合完毕后，计算GPU从它那pull下完整的梯度结果，用于更新模型参数W。更新完毕后，计算GPU上的模型参数依然保持一致。

聚合再下发梯度的操作，称为AllReduce。

前文说过，实现DP的一种经典编程框架叫“参数服务器”，在这个框架里，计算GPU称为Worker，梯度聚合GPU称为Server。在实际应用中，为了尽量减少通讯量，一般可选择一个Worker同时作为Server。比如可把梯度全发到GPU0上做聚合。需要再额外说明几点：

在参数服务器的语言体系下，DP的过程又可以被描述下图：

1.2 通讯瓶颈与梯度异步更新

DP的框架理解起来不难，但实战中确有两个主要问题：

我们对通讯开销再做详细说明。如果将传输比作一条马路，带宽就是马路的宽度，它决定每次并排行驶的数据量。例如带宽是100G/s，但每秒却推给Server 1000G的数据，消化肯定需要时间。那么当Server在搬运数据，计算梯度的时候，Worker们在干嘛呢？当然是在：

人类老板不愿意了：“打工系统里不允许有串行存在的任务！”，于是梯度异步更新这一管理层略诞生了。

上图刻画了在梯度异步更新的场景下，某个Worker的计算顺序为：

参数服务器的框架下，延迟的步数也可以由用户自己决定，下图分别刻划了几种延迟情况：

总结一下，异步很香，但对一个Worker来说，只是等于W不变，batch的数量增加了而已，在SGD下，会减慢模型的整体收敛速度。异步的整体思想是，比起让Worker闲着，倒不如让它多吃点数据，虽然反馈延迟了，但只要它在干活在学习就行。

batch就像活，异步就像画出去的饼，且往往不指定延迟步数，每个Worker干越来越多的活，但模型却没收敛取效，这又是刺伤了哪些打工仔们的心（狗头

二、分布式数据并行(DDP)

受通讯负载不均的影响，DP一般用于单机多卡场景。因此，DDP作为一种更通用的解决方案出现了，既能多机，也能单机。DDP首先要解决的就是通讯问题：将Server上的通讯压力均衡转到各个Worker上。实现这一点后，可以进一步去Server，留Worker。

前文我们说过，聚合梯度 + 下发梯度这一轮操作，称为AllReduce。接下来我们介绍目前最通用的AllReduce方法：Ring-AllReduce。它由百度最先提出，非常有效地解决了数据并行中通讯负载不均的问题，使得DDP得以实现。

2.1 Ring-AllReduce

如下图，假设有4块GPU，每块GPU上的数据也对应被切成4份。AllReduce的最终目标，就是让每块GPU上的数据都变成箭头右边汇总的样子。

Ring-ALLReduce则分两大步骤实现该目标：Reduce-Scatter和All-Gather。

定义网络拓扑关系，使得每个GPU只和其相邻的两块GPU通讯。每次发送对应位置的数据进行累加。每一次累加更新都形成一个拓扑环，因此被称为Ring。看到这觉得困惑不要紧，我们用图例把详细步骤画出来。

一次累加完毕后，蓝色位置的数据块被更新，被更新的数据块将成为下一次更新的起点，继续做累加操作。

3次更新之后，每块GPU上都有一块数据拥有了对应位置完整的聚合（图中红色）。此时，Reduce-Scatter阶段结束。进入All-Gather阶段。目标是把红色块的数据广播到其余GPU对应的位置上。

如名字里Gather所述的一样，这操作里依然按照“相邻GPU对应位置进行通讯”的原则，但对应位置数据不再做相加，而是直接替换。All-Gather以红色块作为起点。

以此类推，同样经过3轮迭代后，使得每块GPU上都汇总到了完整的数据，变成如下形式：

建议读者们手动推一次，加深理解。

2.2 Ring-AllReduce通讯量分析

假设模型参数W的大小为 , GPU个数为。则梯度大小也为 , 每个梯度块的大小为对单卡GPU来说（只算其send通讯量）：

单卡总通讯量为 , 随着的增大, 可以近似为。全卡总通讯量为

而对前文的DP来说, 它的Server承载的通讯量是 , Workers为 , 全卡总通讯量依然为。虽然通讯量相同, 但搬运相同数据量的时间却不一定相同。DDP把通讯量均衡负载到了每一时刻的每个Worker上, 而DP仅让Server做勤劳的搬运工。当越来越多的GPU分布在距离较远的机器上时, DP的通讯时间是会增加的。

但这并不说明参数服务器不能打（有很多文章将参数服务器当作old dinosaur来看）。事实上，参数服务器也提供了多Server方法，如下图：

在多Server的模式下，进一步，每个Server可以只负责维护和更新某一块梯度（也可以某块梯度+参数一起维护），此时虽然每个Server仍然需要和所有Worker通讯，但它的带宽压力会小非常多。经过调整设计后，依然可以用来做DDP。虽然这篇文章是用递进式的方式来介绍两者，但不代表两者间一定要决出优劣。我想表达的观点是，方法是多样性的。对参数服务器有兴趣的朋友，可以阅读参考的第1个链接。

最后，请大家记住Ring-AllReduce的方法，因为在之后的ZeRO，Megatron-LM中，它将频繁地出现，是分布式训练系统中重要的算子。

三、总结

1、在DP中，每个GPU上都拷贝一份完整的模型，每个GPU上处理batch的一部分数据，所有GPU算出来的梯度进行累加后，再传回各GPU用于更新参数

2、DP多采用参数服务器这一编程框架，一般由若个计算Worker和1个梯度聚合Server组成。Server与每个Worker通讯，Worker间并不通讯。因此Server承担了系统所有的通讯压力。基于此DP常用于单机多卡场景。

3、异步梯度更新是提升计算通讯比的一种方法，延迟更新的步数大小决定了模型的收敛速度。

4、Ring-AllReduce通过定义网络环拓扑的方式，将通讯压力均衡地分到每个GPU上，使得跨机器的数据并行（DDP）得以高效实现。

由微软开发的ZeRO（零冗余优化），它是DeepSpeed这一分布式训练框架的核心，被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。如果初读ZeRO，觉得它逻辑跳跃，晦涩难懂，那么下文或许可以帮到你～

四、存储消耗4.1 存储分类

首先，我们来看在大模型训练的过程中，GPU都需要存什么内容。

optimizer states：Adam优化算法中的momentum和variance

gradients：模型梯度

parameters：模型参数W

Residual States指并非模型必须的，但在训练过程中会额外产生的内容，具体包括：

4.2 精度混合训练

知道了存储分类，进一步，我们想知道，假设模型的参数W大小是，那么每一类存储具体占了多大的空间呢？

在分析这个问题前，我们需要来了解精度混合训练。

对于模型，我们肯定希望其参数越精准越好，也即我们用fp32（单精度浮点数，存储占4byte）来表示参数W。但是在forward和backward的过程中，fp32的计算开销也是庞大的。那么能否在计算的过程中，引入fp16或bf16（半精度浮点数，存储占2byte），来减轻计算压力呢？于是，混合精度训练就产生了，它的步骤如下图：

通过这种方式，混合精度训练在计算开销和模型精度上做了权衡。如果不了解fp32，fp16和bf16的细节也没关系，不影响下文的阅读。只要记住它们所占的存储空间和精度表达上的差异即可。

4.3 存储大小

现在，我们可以来计算模型在训练时需要的存储大小了，假设模型的参数W大小是，以byte为单位，存储如下：

因为采用了Adam优化, 所以才会出现momentum和variance, 当然你也可以选择别的优化办法。因此这里为了更通用些, 记模型必存的数据大小为。因此最终内存开销为:

另外，这里暂不将activation纳入统计范围，原因是：

五、ZeRO-DP

知道了什么东西会占存储，以及它们占了多大的存储之后，我们就可以来谈如何优化存储了。

注意到，在整个训练中，有很多states并不会每时每刻都用到，举例来说；

所以，ZeRO想了一个简单粗暴的办法：如果数据算完即废，等需要的时候，我再想办法从个什么地方拿回来，那不就省了一笔存储空间吗？

沿着这个思路，我们逐一来看ZeRO是如何递进做存储优化的。

5.1 ：优化状态分割

首先，从 optimizer state开始优化。将optimizer state分成若干份，每块GPU上各自维护一份。这样就减少了相当一部分的显存开销。如下图：

复习一下，此时W=fp16，G=fp16，O=fp32。此时，整体数据并行的流程如下：

（1）每块GPU上存一份完整的参数W。将一个batch的数据分成3份，每块GPU各吃一份，做完一轮foward和backward后，各得一份梯度。

（2）对梯度做一次AllReduce，得到完整的梯度G，产生单卡通讯量。为了表达简明，这里通讯量我们就不再换算成byte了，而直接根据参数量来计算。对AllReduce（reduce-scatter + all-gather）。

（3）得到完整梯度G，就可以对W做更新。我们知道W的更新由optimizer states和梯度共同决定。由于每块GPU上只保管部分optimizer states，因此只能将相应的W（蓝色部分）进行更新。（2）和（3）可以用下图表示：

（4）此时，每块GPU上都有部分W没有完成更新（图中白色部分）。所以我们需要对W做一次All-Gather，从别的GPU上把更新好的部分W取回来。产生单卡通讯量。

做完后, 设GPU个数为，显存和通讯量的情况如下：

假设各变量大小如表格第二列所示，那么在增加1.5倍单卡通讯开销的基础上，将单卡存储降低了4倍。看起来是个还不错的trade-off，那么还能做得更好吗

5.2 ：优化状态与梯度分割

现在，更近一步，我们把梯度也拆开，每个GPU格子维护一块梯度。

此时，数据并行的整体流程如下：

（1）每块GPU上存一份完整的参数W。将一个batch的数据分成3份，每块GPU各吃一份，做完一轮foward和backward后，算得一份完整的梯度（下图中绿色+白色）。

（2）对梯度做一次Reduce-Scatter，保证每个GPU上所维持的那块梯度是聚合梯度。例如对GPU1，它负责维护G1，因此其他的GPU只需要把G1对应位置的梯度发给GPU1做加总就可。汇总完毕后，白色块对GPU无用，可以从显存中移除。单卡通讯量。（1）和（2）见下图：

（3）每块GPU用自己对应的O和G去更新相应的W。更新完毕后，每块GPU维持了一块更新完毕的W。同理，对W做一次All-Gather，将别的GPU算好的W同步到自己这来。单卡通讯量。

再次比对下显存和通讯量：

和朴素DP相比，存储降了8倍，单卡通讯量持平，好像更牛皮了呢！那么，还可以优化吗？

5.3 ：优化状态、梯度与参数分割

看到这里，也许你有点感觉了，ZeRO的思想就是：万物皆可切，万物皆可抛。所以现在，我们把参数也切开。每块GPU置维持对应的optimizer states，gradients和parameters（即W）。

数据并行的流程如下：

（1）每块GPU上只保存部分参数W。将一个batch的数据分成3份，每块GPU各吃一份。

（2）做forward时，对W做一次All-Gather，取回分布在别的GPU上的W，得到一份完整的W，单卡通讯量 Φ 。forward做完，立刻把不是自己维护的W抛弃。

（3）做backward时，对W做一次All-Gather，取回完整的W，单卡通讯量。backward做完，立刻把不是自己维护的W抛弃。

（4）做完backward，算得一份完整的梯度G，对G做一次Reduce-Scatter，从别的GPU上聚合自己维护的那部分梯度，单卡通讯量。聚合操作结束后，立刻把不是自己维护的G抛弃。

（5）用自己维护的O和G，更新W。由于只维护部分W，因此无需再对W做任何AllReduce操作。

显存和通讯量如下：

到这一步，我们用1.5倍的通讯开销，换回近120倍的显存。只要梯度计算和异步更新做的好，通讯时间大部分可以被计算时间隐藏，因此这样的额外通讯开销，也是划算的。

到这里，我们可以放出原始论文中的说明图了，经过以上分析，这张说明图是不是瞬间就能看懂了。不得不吐槽下，虽然ZeRO的设计不复杂，但对应论文写得真是逻辑跳跃，晦涩难懂....

仔细一想，ZeRO其实掌握了降本增效的精髓：用完即弃，需要再补。反正我补一个和你差不多的，也不会花费很多通（找）讯（人）时间，还大大降低了我的成本。模型的每一层多算（造）几（轮）遍（子）有啥关系呢，反正在我的预算里每个人都一刻不停地干活，就行啦！

5.4 ZeRO VS 模型并行

知道模型并行的朋友，可能会想，既然ZeRO都把参数W给切了，那它应该是个模型并行呀？为什么要归到数据并行里呢？

其实ZeRO是模型并行的形式，数据并行的实质。

模型并行，是指在forward和backward的过程中，我只需要用自己维护的那块W来计算就行。即同样的输入X，每块GPU上各算模型的一部分，最后通过某些方式聚合结果。

但对ZeRO来说，它做forward和backward的时候，是需要把各GPU上维护的W聚合起来的，即本质上还是用完整的W进行计算。它是不同的输入X，完整的参数W，最终再做聚合。

因为下一篇要写模型并行Megatron-LM，因此现在这里罗列一下两者的对比。

六、ZeRO-R

说完了以上对model states的显存优化，现在来看对residual states的优化。

6.1 : Partitioned Activation Checkpointing

前面说过，对activation的存储是灵活的。不像optimizer states，gradients和parameters对模型更新是必须的，activation只是起到加速梯度计算的作用。因此，在哪几层保存activation，保存哪些activation都是可以灵活设置的。同样，我们也可以仿照以上切割方式，每块GPU上只维护部分的activation，需要时再从别的地方聚合过来就行。需要注意的是，activation对显存的占用一般会远高于模型本身，通讯量也是巨大的，所以这块要灵活、有效地实验设计。

6.2 : Constant Size Buffer

固定大小的内存buffer，它的目的在于：

提升带宽利用率。当GPU数量上升，GPU间的通讯次数也上升，每次的通讯量可能下降（但总通讯量不会变）。数据切片小了，就不能很好利用带宽了。所以这个buffer起到了积攒数据的作用：等数据积攒到一定大小，再进行通讯。

6.3 : Memory Defragmentation

在前文提过，设置机制，对碎片化的存储空间进行重新整合，整出连续的存储空间。防止出现总存储足够，但连续存储不够而引起的存储请求fail

七、ZeRO-Offload与ZeRO-Infinity

最后，简单介绍一下ZeRO-Offload。它的核心思想是：显存不够，内存来凑。如果我把要存储的大头卸载(offload)到CPU上，而把计算部分放到GPU上，这样比起跨机，是不是能既降显存，也能减少一些通讯压力呢？ZeRO-Offload的做法是：

具体切分如下图：

ZeRO-infinity也是同理，它们在解决的事情都是：找个除GPU之外的地方，存数据。感兴趣的朋友可以深入研究，这里就不展开了。

参考

....

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

本文作者来自于上海交通大学人工智能学院的Multi-Agent Governance & Intelligence Crew (MAGIC团队)和牛津大学。共同第一作者有唐铄、庞祥鹤、刘泽希和唐博瀚。指导老师包括上海交大的王延峰教授、陈思衡副教授，以及牛津大学的董晓文副教授。

随着大语言模型（LLMs）在处理复杂任务中的广泛应用，高质量数据的获取变得尤为关键。为了确保模型能够准确理解并执行用户指令，模型必须依赖大量真实且多样化的数据进行后训练。然而，获取此类数据往往伴随着高昂的成本和数据稀缺性。因此，如何有效生成能够反映现实需求的高质量合成数据，成为了当前亟需解决的核心挑战。

那么，真实数据的需求是如何产生的？设想一位程序员在进行机器学习模型的开发与调优时，他会提出问题：「如何调整超参数以提高模型预测准确率？」这种指令并非凭空而来，而是源于他所处的具体工作情境 —— 数据分析和模型优化。同样，用户在日常生活中的指令无论是编程任务、医疗诊断还是商业决策，往往与他们所面临的具体场景密切相关。要生成能够真实反映用户需求的合成数据，必须从这些实际情境中出发，模拟出与用户需求相匹配的场景。

基于这一理念，上海交通大学与牛津大学的研究团队提出了一项创新方案 —— 基于多智能体模拟的数据合成。团队提出了 MATRIX——AI 社会模拟器，构建了一个由 1000 多个 AI 智能体组成的模拟社会。在这个模拟社会中，每一个 AI 智能体代表了一个拥有独立身份和人格的数字人，这些 AI 智能体可以模拟出复杂的交流和互动模式，涵盖了从软件开发到商业活动的广泛场景。基于这些场景，团队进一步开发了 MATRIX-Gen 数据合成器，能够根据不同需求合成高度多样化且高质量的训练指令数据。

为验证 MATRIX-Gen 合成数据的高质量，研究团队使用 Llama-3-8B-Instruct 驱动社会模拟，仅合成了 2 万条数据用于训练 Llama-3-8B-Base 模型。尽管数据量极少，训练后的模型在 AlpacaEval 2 和 Arena-Hard 基准测试中竟然大幅超越了 Llama-3-8B-Instruct 自身。这一结果不仅证明了 MATRIX-Gen 合成数据的高效性，也标志着模型在合成数据驱动下实现了自我进化。此外，在代码生成、多轮对话和安全性任务上，MATRIX-Gen 生成的专用数据同样表现优异，甚至超越了为这些特定任务设计的专用数据集。这项研究为通过合成数据提升大语言模型性能提供了全新的解决方案，展示了 AI 模拟社会在数据合成中的巨大潜力，为未来大语言模型的后训练数据合成开辟了创新的路径。

基于合成数据的后训练系统

本研究提出的后训练系统旨在利用基于多智能体模拟技术构建的 AI 模拟社会，合成高质量的训练数据，以提升预训练大语言模型的指令跟随能力。该系统的核心理念源于人类在现实场景中提问的方式 —— 人们基于自身需求提出多样且深入的问题。因此，本研究通过 AI 模拟社会合成人类社会中的场景，并利用这些场景引导 LLM 提出信息丰富、贴近现实的问题，从而产生高质量的训练数据。

如下图所示，该系统包含三个步骤：

1. 合成社会场景：利用多智能体模拟技术构建 AI 模拟社会，该社会中的每个场景由一组 AI 智能体及其对应的文本行动构成。为了确保社会场景的真实性和多样性，本研究设计了大规模人类社会模拟器 MATRIX，创建了一个包含各种 AI 智能体的互动环境。此模拟器充分发挥了 LLM 的角色扮演能力，使得 AI 智能体能够逼真地模拟人类行为，进行规划、观察和行动，进而生成丰富且高度真实的社会场景。

2. 合成训练数据：根据合成的社会场景，生成符合任务需求的后训练数据。本研究设计了场景驱动的指令生成器 MATRIX-Gen，模拟人类在日常生活中提出问题的过程，结合场景生成指令，确保更高的真实性；通过选择特定场景，能够合成符合任务需求的数据，具备可控性。这一步骤合成包括 SFT、DPO 以及各种专用数据集。

3. 模型微调：利用合成的 SFT 数据集，对预训练模型进行监督微调，以获得具备指令跟随能力的模型。随后，基于合成的偏好数据集，采用 DPO 进一步训练模型。

AI 社会模拟器 MATRIX

为了合成多样且丰富的场景，以助力数据的合成，本研究提出了人类社会模拟器 MATRIX。该模拟器的输入为若干 AI 智能体档案，输出为文本形式的场景。通过模拟人类的 AI 智能体和结构化的通信机制，MATRIX 实现了大规模的人类社会模拟，从而生成多样且真实的场景。

数据合成器 MATRIX-Gen

在合成了真实多样化的社会场景后，本研究设计了场景驱动的指令生成器 MATRIX-Gen，以满足特定任务需求并合成后训练数据。通过选择与用户需求相关的场景，MATRIX-Gen 能够生成符合人类意图的指令，从而确保合成指令的真实性和可控性。

如下图所示，在合成后训练数据的过程中，MATRIX-Gen 模拟了人类提问的过程。针对不同数据场景的需求（如通用任务或代码任务），MATRIX-Gen 结合每个 AI 智能体的个性和行动，将这些信息整合到指令生成提示中，模拟人类在日常生活中提出问题的方式。随后，基于上述指令生成提示，MATRIX-Gen 直接调用对齐的 LLM 生成合成指令及其对应的回答。

下图展示了一位 IT 经理在汽车数据分析场景下，提出「如何调整超参数以提高模型预测准确率」的例子：

通过这一方法，本研究能够合成三种类型的数据集，包括监督微调数据集 MATRIX-Gen-SFT、偏好调优数据集 MATRIX-Gen-DPO，以及特定领域的 SFT 数据。每种数据集的指令生成在复杂性和专业性上各具特点，确保满足不同场景下的需求。

性能表现

在实验中，本研究选择 Llama-3-8B-Instruct 作为数据合成模型，选择 Llama-3-8B 作为训练的模型，通过模型的训练效果评估 MATRIX-Gen 在通用任务、多轮对话、代码生成上的数据合成能力。

AlpacaEval 2 和 Arena-Hard 上的评估结果表明，通过多智能体模拟合成的 MATRIX-Gen-SFT 数据优于多个真实数据集以及合成数据集。

在 MATRIX-SFT 模型上 DPO 的训练结果表明，通过 MATRIX-Gen-DPO 训练的模型超越多种合成偏好数据训练的模型，以及 Llama-3-8B-Instruct。值得注意的是，MATRIX-Gen-DPO 训练后的模型总共仅使用了 2 万条合成数据，便实现了对 Llama-3-8B-Instruct 自身的超越，充分展示了其高质量和自我进化的能力。

在代码生成与安全输出的任务中，MATRIX-Gen 合成的数据集均超越了对应领域的专用数据集，显示出 MATRIX-Gen 在合成数据上的高可控性。

上图展示了 MATRIX-Gen-SFT 合成指令的可视化，显示出合成数据的多样性。

总结与展望

本研究提出了一种基于 AI 智能体社会模拟的后训练数据合成框架。依托 MATRIX 合成的 AI 模拟社会，MATRIX-Gen 能够可控地合成高质量的多样数据。在通用和专用任务中，仅使用 0.2% 的数据，即可获得优于大模型研发领军团队 Meta AI 所用数据集的模型训练效果，突显了 MATRIX-Gen 在数据合成中的优势。

本研究希望该数据合成框架能够帮助定量研究何种类型的数据更适合用于监督微调和偏好优化，深入探讨不同数据特性对模型性能的影响。此外，我们展望通过引入更强大的 AI 智能体，如具备工具调用能力的 AI 智能体，以及接入更丰富的环境，进一步合成更复杂的数据，从而提升大语言模型在复杂任务中的表现。

....

大模型时代需要什么样的安全水位？

2024 年，AI 大模型从「以分计价」跨入「以厘计价」的时代。

信号指向很清晰：把基础设施成本打下来，就是为了应用的爆发，但「算力价格」这把尺子还不够用。

在众多大模型中货比三家，需要投入大量信息成本。相信供应商、中间商「守规矩」、「靠谱」，更不易，信任成本过高，陷入囚徒困境，用户就会趋于保守，放弃潜在交易。

回首 2024，尽管大模型展现出非凡能力，破坏信任的糟心事儿也一直没断过。

4 月，海外某头部大模型商的 AI 语言模型因开源库漏洞导致用户对话泄露，致使意大利政府史无前例地叫停服务。此波未平，该产品长期记忆功能又出现严重漏洞，黑客可以随便访问用户聊天记录。

年初，荷兰一家数据公司的配置失误，导致多家企业（包括头部车企）的用户隐私数据遭泄露。

能力超凡、使用简单但又风险丛生，这样的混乱组合让企业老板难以驾驭。在采访全球多家企业、8000 多名 IT 专业人员后，IBM《 2023 年全球 AI 采用指数》发现：

和传统 AI 的采纳门槛不同，企业采纳生成式 AI 的最大障碍是数据隐私（ 57% ）以及信任和透明度（ 43% ）

一、AI 大模型，困于能力与安全的失衡

当 AI 大模型的技术迭代周期几乎以月（甚至周）计时，数据技术仍在「蜗牛爬行」，这种失衡正在成为大模型发展的主要隐忧之一。

「生成式 AI 带来的安全挑战，已经超出了传统安全技术的应对范围。」火山引擎智能算法负责人、火山方舟负责人吴迪告诉他。作为火山引擎旗下的「一站式大模型服务平台」，火山方舟为企业提供模型精调、推理、评测等全方位功能与服务。

在模型精调环节，企业的核心知识都浓缩在训练数据中，如何确保这些数据、提示词以及模型响应的专属性？如何保证精调后的模型不被他人窃取使用？

推理环节更受关注，因为用户在使用过程中会输入大量真实、敏感的数据来获取模型建议。平台如何保证不会滥用用户数据？数据传输、计算和存储的全流程中，如何不被黑客窃取？平台又如何向用户证明其确实履行了承诺的安全措施？

企业在探索大模型应用场景时，这些安全痛点已经成为首要考虑因素，而传统的安全技术方案早已对此捉襟见肘。

私有部署之困在于，过去「数据不动，模型动」——企业把数据留在私域、将 AI 模型部署到企业私有空间——的策略在大模型时代会碰壁。

首先是技术代差问题，私有部署难以跟上公有云模型的快速迭代节奏；其次是算力成本，规模化运营的公有云服务能提供更高的性价比。此外，模型生产商也会担心核心技术外泄。

现有的隐私计算技术比明文计算慢了上百倍，就像给巨人穿上盔甲，只适合特定场景，但不适用于大模型服务的场景。

以 MPC 为例，将浮点数转为整数计算会损失精度，且单次计算需要 100-200 毫秒，应用场景极其有限。同态加密技术虽可在加密状态下计算，但性能开销会增加百倍甚至更多，一个原本需要 3 秒的处理任务，使用同态加密后可能延长至 5 分钟，难以满足生产需求。

目前，AI 模型推理比较好的选择仍是在明文状态下进行，吴迪表示。虽然理论上存在完全密态计算，让模型直接处理加密数据，但在大模型场景下，这种方案的计算开销过大，实用性较低。

现在的大模型计算主要依赖 GPU 等加速设备，但 GPU 相关的可信执行环境（ TEE ）技术还不成熟。TEE 类技术主要用于加强环境隔离，要真正满足现实安全需求，还需要配合代码审计、网络隔离等关键安全技术，多管齐下。

至于传统云安全更像是「大楼的物业保安」，而大模型需要的是「保险箱级别」的数据安全。

二、多重防御的艺术：「会话无痕」

经过两年潜心打磨，火山方舟推出了一套「会话无痕」方案，保证你的数据，唯你可见、唯你所用、唯你所有。

四重核心功能筑起了数据全生命周期的铜墙铁壁——从传输、使用到存储，没有一个环节被遗漏；推理、模型精调和评估以及数据预处理，关键业务场景均有覆盖。

第一重：链路全加密。在用户与平台之间修筑了一条加密通道，确保用户数据离开企业后，能够安全抵达安全沙箱。

「双层加密」设计，打造了一个高可靠的安全环境。其中，网络层的传输加密，通过 HTTPS 确保基础安全，mTLS 提供双向认证，PrivateLink 则在流量转发层与 GPU 推理实例之间建立专属隧道。

应用层的会话加密犹如叠加一层保险，即使通道被攻破，你的数据本身仍然安全。

详言之，每个部署在安全沙箱中的推理实例，都会被分配唯一的身份证书（就像「锁」）。当用户发送用户数据时，可用手中公钥将它们加密，只有到达正确的安全沙箱环境（钥匙和锁「匹配上」），才能被解密使用。否则，就算攻击者中途截获数据，也是无用之功。

所有训练数据在进入安全沙箱前都是加密存储的，密钥由用户独自掌控。

一旦进入沙箱，推理等服务进程就能像往常一样使用这些数据，基于 FUSE 的透明加密文件系统会无缝、自动完成数据的加解密。

训练完的模型，会被立刻加密保存到分布式存储系统，等待再次调用。

字节自主研发的技术可支持 GPU 加解密，保证推理等场景精调模型的高效动态调度，满足生产环境的性能需求。

第三重：环境强隔离。它就像一个四层嵌套的「俄罗斯套娃」防护系统，从内到外依次是容器沙箱、网络隔离、可信代理和白屏化运维。

其中，容器沙箱是一种安全增强，弥补容器隔离性不足。在网络层面，平台创新地实现了任务级别的动态网络隔离，即使在同一 VPC 环境下的不同任务也无法直接通信，有效防止攻击者的横向渗透。

外层的可信代理和白屏化运维则进一步确保了系统运行的安全性，严格管控数据流动和运维操作。

第四重：操作可审计。火山方舟提供三大类日志。

首先是云基础安全日志，负责主机层面的安全日志采集。

例如，沙箱连接日志会记录所有对沙箱环境的连接尝试，显示来源 IP 、目标 IP 、进程信息（ PID ）和安全等级，方便用户识别可疑连接；KMS 访问日志会跟踪所有密钥操作，监控精调模型的密钥使用情况。

第三类是用户可见日志，包括所有历史访问记录，支持用户直接查看和与其他层面（云基础、安全业务）日志的交叉验证，确定日志的真实性，不存在篡改和遗漏。

三、方舟安全：哲学与蓝图

就像电缆的绝缘层、保护层、铠装，环环相依，保护「线芯」不受外界因素侵蚀，在「会话无痕」的四重保护下，你的数据，唯你可见，唯你所用，唯你所有，平台安全水位也被提升到一个相当高的位置。

这不是简单堆砌多种安全技术的结果，而是对大模型时代数据安全的一次重新定义，包含三个核心理念。

首先，安全不是事后添加的补丁，而是埋在大楼水泥地基里的钢筋，从一开始就作为基本能力，被织进火山方舟大模型平台的底层设计中。

第二，在不显著损耗模型效果和推理效率的前提下，提升平台安全。

增强安全防护通常会导致明显的性能损耗，因此，在保持大模型性能的同时提升安全性，任务难度呈指数级增长。「会话无痕」比较好地平衡了这一点，吴迪认为，「我们可能是业界做得最好的公司之一。」

原因很简单，火山方舟不仅精通安全技术，还积累了丰富的场景应用 know-how ，如知道不同场景下的真正安全节点，包括用户的实际使用模式、模型运行特点等。

有了这些知识，他们就能简化掉一些安全性虽高但会导致大量浪费、性能损耗的冗余开销，在关键点实施精准的安全加固，优化安全措施的实现方式。

第三就是透明可信，阳光是最好的「防腐剂」。

最初，我们觉得环境强隔离的安全沙箱设计最具挑战性，但现在发现审计日志才是最难的。吴迪说。

这个难点并非技术本身，更多的是产品设计上，如何让专业的安全信息变得通俗易懂，用户不仅能看到日志，更要能看懂日志，理解当前的安全水准处在一个什么样的位置。

未来几个月，火山方舟计划进一步提升平台安全水位——从「不作恶( don't be evil )」提升到「无法作恶( can't be evil )」，从技术层面确保平台即使想做坏事也做不到。

例如，进一步升级审计日志系统，让用户能够全方位监督平台的每一次计算过程是否合规、安全。引入更先进的硬件可信技术，并邀请第三方机构进行独立审计和测试，通过技术手段和外部监督，从根本上保证平台行为的透明可信。

吴迪透露，火山方舟目前拥有一支独立的安全技术团队，由资深安全主管领衔，汇集了系统架构和信息安全领域的专家。

安全技术团队与负责模型推理等核心功能的系统工程团队保持着微妙的平衡：既能密切协作，又能独立进行安全评估，形成了有效的互助与制衡机制。

同时，火山方舟还建立了常态化的蓝军攻防体系，通过持续的安全测试来检验和强化系统防护能力。

长远来看，在一个快速变迁的技术世界里，构建一个既安全又不失性能的安全体系，有时就像在流沙上建造堡垒，极具挑战性。

多模态交互的出现使问题更加复杂——不同模态数据在规模和处理方式上差异显著，仅视频的加解密流量就远超文本处理的需求，吴迪举例说。

更深层的挑战来自模型推理系统本身的复杂性。它已经演变成一个庞大的分布式系统，涉及多样化硬件、推理优化方案和 RDMA 网络传输，而这些底层架构还在不断演进中。这种动态变化的环境，使得安全体系的构建和维护变得愈发具有挑战性。

然而，前景依然光明。火山方舟相信，生成式 AI 的市场规模有望达到当前的千倍，渗透各行各业的核心业务。

当它距离企业核心业务越近，除了性能、性价比，企业对数据安全和信任的要求也会水涨船高。

着眼未来，顺势而为，火山方舟希望载着越来越多的大模型玩家，加速驶向更远的节点。

....

陶哲轩强调了在数学应用和问题解决中需要找到合适的平衡点：既不过度简化，也不过度复杂化，避免过度优化和过度抽象导致的反效果。

刚刚，著名数学家陶哲轩在个人社交平台更新的几篇帖子，引起大家广泛的共鸣。

陶哲轩用浅显易懂的语言表达了自己对数学的理解与思考心得。

文中谈到了一个关于「度」的问题，陶哲轩表示在设计系统时，缺乏或者过度的数学分析可能都会适得其反，所以要适度。

有时，我们不需要太过复杂精深的专业知识，大道至简。

对于大多数任务，使用一些相对简单但通用的数学方法，往往比专门设计的算法效果更好。

陶哲轩还提到，在纯数学中，故意忽略一些直觉上看似非常重要的信息非常有帮助。

接下来是陶哲轩帖子全部内容。

掌握一点点的数学知识就能大有裨益。系统的设计不仅仅会因为缺乏足够的数学分析而受到限制，同样也可能因为过度的数学分析而受到阻碍。

一个常见的例子是网络安全中对密码的要求。从数学上讲，密码要求越复杂（例如，规定最小长度、特殊字符或不重复使用密码），密码就越安全。

然而，如果要求过于复杂，用户和服务提供商可能会寻找绕过复杂要求的方法，比如寻找简单的密码重置或恢复方式，或者将密码存储在不安全的系统中。这些做法反而可能降低整体系统的安全性，而不是提升它。

另一方面，只对单一指标（如用户使用密码直接登录系统）进行过度优化，可能会损害更广泛的目标。就如古德哈特定律（Goodhart's law）中所说的，「当压力施于其上以进行控制时，任何观测到的统计恒性都倾向消散。」

粗略的讲，在设计安全性时，直接输入方式的安全性应该加强到与其他输入方式的安全性相当，但超过这个程度的加强反而可能适得其反。

举个例子来说，如果一栋建筑的前门有锁，但窗户没有防护，那么再给前门加更多的锁就没有太大意义，这样做甚至可能导致一种危险的虚假安全感。另一方面，如果窗户比前门更难进入，那么在前门上至少加一把锁就很合理。

在人工智能领域，强化学习之父 Rick Sutton 的「苦涩的教训」（Bitter Lesson）就是这一原则的一个例子。

从直觉上来看，大家往往会认为针对具体任务量身定制算法是最自然的选择，在某些情况下，确实能取得不错的效果。

其实，对于大多数任务，使用一些相对简单但通用的数学方法，如梯度下降和反向传播，往往比专门设计的算法效果更好。通用方法不依赖于特定任务的领域知识，而是通过大量的数据和计算资源来训练模型，通常能带来更大的进展。

最近，我看到了有人为传感器网络开发更实惠的模数转换器（ADC），就是这条发现的证明。

传统上，ADC 电路基于经典电气工程原理设计，采用常微分方程（ODE）、共振、傅里叶变换等数学工具来构建高效电路。然而，在一些特定环境（如传感器网络）中，我们的目标是大规模、快速且成本低的方式实现模数转换，同时可以容忍一定的故障率。

在这种情况下，训练神经网络来设计 ADC 电路，不依赖任何专业领域的知识（如傅里叶分析），反而是更好的方法。

这并不是说领域知识毫无用处 —— 例如，物理信息神经网络在许多物理领域的表现可以远超标准神经网络 —— 关键在于了解在什么情况下，应该运用多少领域知识。

在纯数学中，一个有效的解题方法是故意忽略一些直觉上看似非常重要的信息。比如，在分析数论中，许多进展都是通过把像素数这样的「重要」数学对象转化为看起来更加简单、结构较少的形式来实现的。这样做可以让我们更容易找到解决问题的途径。

但抽象也需要把握一个度。如果抽象得过头，就会丢失关键信息，反而无法解决问题；而如果抽象得恰到好处，问题就会变得更加清晰，从而找到合适的技巧去解决它。在此过程中甚至可以做出一些看似不太合理的变换，让解题思路更加灵活起来。

我有时会开玩笑说，应用数学家只需要掌握每本纯数学研究生教材的前两章，之后的章节对他们可能帮助不大（甚至可能有负面作用）。

另一方面，正是寻找第 3 到第 12 章的过程，才使得前两章至臻完美、具有广泛实用性的瑰宝。

参考链接：

....

Claude都能操纵计算机了

受 ChatGPT 强大问答能力的影响，大型语言模型（LLM）提供商往往优化模型来回答人们的问题，以提供良好的消费者体验。

随着智能体研究日趋成熟，优化似乎有了新的方向。

人工智能著名学者、斯坦福大学教授吴恩达今天指出：「现在有一种趋势是优化模型以适应智能体工作流程，这将为智能体性能带来巨大提升」，并撰写一篇博客简单阐述了这种趋势。

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

继 ChatGPT 在回答问题方面取得突破性成功之后，许多 LLM 的开发都集中在提供良好的消费者体验上。因此，LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案，面向 ChatGPT、Claude、Gemini 等等。

但智能体工作负载不同，人工智能软件不是直接为消费者生成响应，而是应该在迭代工作流程中：

主要模型制造商也越来越多地优化用于 AI 智能体的模型。

以工具使用（或函数调用）为例。如果 LLM 被问及当前天气，它将无法从训练数据中获取所需的信息。相反，它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前，应用程序开发人员就已经使用 LLM 来生成函数调用，通过编写更复杂的提示来告诉 LLM 哪些函数可用，然后让 LLM 生成用于确定是否要调用函数的字符串。

在 GPT-4 之后，生成此类调用变得更加可靠，然后许多其他模型本身就支持函数调用。如今，LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。

最近，Anthropic 推出了升级版的 Claude 3.5 Sonnet，能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步，将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA（机器人流程自动化）应用程序。

随着智能体工作流程的成熟，我看到的是：

大多数 LLM 都针对回答问题进行了优化，主要是为了提供良好的消费者体验，我们已经能够将它们「移植」到复杂的智能体工作流程中，以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信，在未来几年内，在这个方向上将实现巨大的智能体能力提升。

原文链接：

....

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作，DiT 模型抛弃了传统的 U-Net 扩散架构，转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众，后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。

然而令人感到不解的是，U-Net 结构是之前最常用的扩散架构，在图像空间和隐空间的生成效果均表现不俗；可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此，北大和华为的研究者们产生了一个疑问：能否重新拾起 U-Net，将 U-Net 架构和 Transformer 有机结合，使扩散模型效果更上一层楼？带着这个问题，他们提出了基于 U-Net 的 DiT 架构 U-DiT。

论文标题：U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

从一个小实验谈开去

首先，研究者开展了一个小实验，在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而，如表 1 所示，在相似的算力比较下，U-Net 的 DiT（DiT-UNet）仅仅比原始的 DiT 有略微的提升。

在图 3 中，作者们展示了从原始的直筒 DiT 模型一步步演化到 U-DiT 模型的过程。

根据先前的工作，在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力，在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到，简单的下采样可以自然地滤除噪声较多的高频，强调信息充沛的低频。既然如此，是否可以通过下采样来消除对特征图自注意力中的冗余？

Token 下采样后的自注意力

由此，作者提出了下采样自注意力机制。在自注意力之前，首先需将特征图进行 2 倍下采样。为避免重要信息的损失，生成了四个维度完全相同的下采样图，以确保下采样前后的特征总维度相同。随后，在四个特征图上使用共用的 QKV 映射，并分别独立进行自注意力运算。最后，将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比，下采样自注意力可以使得自注意力所需算力降低 3/4。

令人惊讶的是，尽管加入下采样操作之后能够显著模型降低所需算力，但是却反而能获得比原来更好的效果（表 1）。

U-DiT：全面超越 DiT

根据此发现，作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力，作者提出了三个 U-DiT 模型版本（S/B/L）。在完全相同的训练超参设定下，U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中，U-DiT-L 在 400K 训练迭代下的表现比直筒型 DiT-XL 模型高约 10 FID，U-DiT-S/B 模型比同级直筒型 DiT 模型高约 30 FID；U-DiT-B 模型只需 DiT-XL/2 六分之一的算力便可达到更好的效果（表 2、图 1）。

在有条件生成任务（表 3）和大图（512*512）生成任务（表 5）上，U-DiT 模型相比于 DiT 模型的优势同样非常明显。

研究者们还进一步延长了训练的迭代次数，发现 U-DiT-L 在 600K 迭代时便能优于 DiT 在 7M 迭代时的无条件生成效果（表 4、图 2）。

U-DiT 模型的生成效果非常出众，在 1M 次迭代下的有条件生成效果已经非常真实。

论文已被 NeurIPS 2024 接收，更多内容，请参考原论文。

....

刚刚，奥特曼官宣开源

OpenAI 终于又要「Open」一回了！

今天凌晨，奥特曼发推宣布，OpenAI 将在未来几个月发布一款具备推理能力的强大新型开放权重模型。

OpenAI 希望与广大开发者、研究者和社区交流合作，探讨如何让这个模型发挥最大作用。OpenAI 非常期待将它打造成为一个非常出色的模型。

开放权重意味着语言模型的训练参数或权重是公开访问的，开发者可以使用它来分析和微调模型以执行特定任务，而无需原始训练数据。

奥特曼进一步称，OpenAI 正计划发布自 GPT-2 以来的第一个开放权重语言模型。OpenAI 已经考虑了很长时间，但其他优先事项耽误了进程。现在觉得做这件事很重要。

在发布之前，OpenAI 将根据自己的安全准备框架（Preparedness Framework）评估这个模型，就像对任何其他模型所做的那样。并且考虑到模型在发布之后可能会修改，OpenAI 将做额外的工作。

OpenAI 还有一些决策要做，所以将举办开发者活动来收集反馈，然后让开发者试用早期原型。活动将于几周后在旧金山开始，随后在欧洲和亚太地区举行。

下图为 OpenAI 希望用户反馈的部分问题：

另外，OpenAI 研究者 Steven Heidel 表示，这个开放权重模型将可以在用户自己的硬件上运行。

OpenAI 模型安全团队成员 Johannes Heidecke 称，「从预训练到发布，安全性是此次开放权重模型开发的核心重点。虽然开放模型带来了独特的挑战，但会以准备框架为指导，不会发布我们认为会带来灾难性风险的模型。」

在奥特曼公布开源模型的消息后，评论区一片沸腾。有人猜测是不是 o1-mini 要开源，有人好奇这个模型是在 GPT-5 之前还是之后发布，有人开始猜测这个模型的名称。

而就在奥特曼官宣开源模型之前的一个小时，他高兴地宣布，「26 个月前，ChatGPT 的推出是我见过的最疯狂的病毒式传播时刻之一，我们在五天内增加了 100 万用户。现在，我们仅在上一小时内就增加了 100 万用户。」这当然要归功于 GPT-4o 图像生成的火爆传播。

参考链接：

....

IDEA联合清华北大提出：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%

研究动机与主要贡献：

ChartMoE 是一个以 InternLM-XComposer2 模型为训练起点、引入 MoE Connector 结构的多模态大语言模型，具有先进的图表理解、图表重绘、图表编辑、重要部分高亮、转换图表类型等能力。ChartMoE 为图表（Chart）这种独特于自然图像的输入，设计了多阶段的图文对齐方式，每一个阶段产物都是 MoE Connector 中的一个专家，这样的训练方式和模型设计不仅能获得更全面的视觉表征、显著提高 MLLM 的图表理解能力，还可以在不加入通用数据的情景下，减少模型对通用知识的遗忘。

多阶段对齐训练的 MoE

然而，Table 这种结构化文本格式，其中仅包含了每个数据点的数值，以及 xy 轴的含义等信息，几乎不保留视觉元素信息，如：颜色、图表类型、图形元素的相对关系等。所以，ChartMoE 希望采用更多样、更全面的对齐方式，将 Chart 转译成三种结构化文本格式：Table、JSON、Python Code。

我们以开源数据集（ChartQA、PlotQA、ChartY）中的表格数据作为起始点，为每个图表类型人为定义了 JSON 键，通过 random 生成、GPT 生成等方式为每个键填上对应的值，从而构建出 JSON 数据。此后可以将 JSON 中的键值对填入到每个图表类型预定义好的代码模板中得到 Python 代码来生成图表，从而构成 (Chart, Table, JSON, Code) 四元组，通过这种方式，采集了约 900k 数据，称为 ChartMoE-Align。

获取到数据后，ChartMoE 采用 chart-to-table、chart-to-json、chart-to-code 三种方式进行图文对齐，每个任务分别训练一个独立的 MLP Connector，拼上初始的通用 MLLM 中的 MLP Connector，再加上一个随机初始化的 learnable router，就可以构成一个亟待吃下 SFT 数据的 MoE Connector，即：Diversely Aligned MoE。

对比 Diversely Aligned MoE 与 Random 初始化、Co-Upcycle 初始化（即把通用 Connector 复制 N 份）的 Training Loss，我们发现，Diversely Aligned MoE 能够有更低的初始 loss（因为已经更好地学到了对齐到后续 LLM 的 chart 表征），以及整体更平滑的训练曲线。

Training Recipes

ChartMoE 训练分为三个阶段：

ChartMoE 表征可视化

按每个 Visual Patch Token 选择的专家序号进行可视化，观察 Visual Patch 的 Top-1 的专家选择分布：

ChartMoE 专家分布可视化

我们分析了完全让模型自由学习，不加入 MoE balance loss 下的专家选择分布，和上文所述符合，模型倾向于选择通用专家和最富含信息的 Code 专家 Random 初始化、Co-Upcycle 初始化、加入 balance loss 的 Diversely-Aligned 初始化，我们均有进行专家选择分布的分析，以及严格控制变量下的 ChartQA 性能比较：

尽管前三者都会获得更均衡的专家分布，但性能是不如完全不加 balance loss 自由学习 Divesely-Aligned MoE 的，可能是因为：

我们额外分析了最终的 ChartMoE checkpoint，强行固定选择某个专家的性能：

可以看到，和专家选择分布基本保持一致，模型自己最知道哪个专家能获得好性能了。

ChartMoE Performance（Chart & 通用）

这里想先 show 一下通用领域，因为 chart 领域的 sota 在进行了细粒度的多样化对齐后，相对来说更加可以预见。在不使用通用领域数据的情况下，在通用领域中遗忘更少，可能是做下游领域 MLLM 更关注的事情。这会让我们有更好的预期：比如加入通用数据后，通用能力不掉！

我认为通用领域遗忘更少有两个原因：

通用领域

我们选择了 MME 和 MMBench 两个比较有代表性的通用领域的 benchmark，比较了 baseline（InternLM-XComposer2）、用 chart 数据 directly SFT、以及 ChartMoE 的性能，可以看到，Directly SFT 模型在通用领域掉点严重，ChartMoE 几乎不会掉性能，且在有些细分领域上还有增点

Chart 领域

对于 Chart 领域，我们选择了 ChartQA、ChartBench（主要是无数值标注的 Chart）、ChartFC&ChartCheck（Fact Checking 任务，回答支持或不支持），在这些 Benchmark 上，ChartMoE 都能达到非常好的性能，尤其是相对初始的 baseline 模型（InternLM-XComposer2）提升非常显著

Conclusion

在 ChartMoE 这个工作中，我们探索了通用 MLLM 使用 MoE 这种 sparse 的结构后在下游任务上的表现：

ChartMoE 是一个抛砖引玉的工作，我们相信后续也会有更多工作去探索下游任务中 Sparse 结构的表现！

....

在GSM8K上比GRPO快8倍！厦大提出，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。

之后，GRPO 会使用一个基于规则的奖励函数来计算每个完成结果的奖励，并计算每个完成结果的相对优势。

为了保证训练的稳定性，GRPO 还会计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比作为策略目标函数的一部分，这又会进一步提升强化学习的训练开销。GRPO 巨大的训练开销限制了其训练效率和可扩展性。而在实践中，提高训练效率是非常重要的。

总结起来，GRPO 训练的计算成本主要源自其核心设计：为了进行组内比较，会为每个提示词生成一大组完成结果。此外，GRPO 的前向计算会以完成数量的 3 倍的尺度扩展。

那么，问题来了：在这个强化学习过程中，每个完成结果的贡献都一样吗？

近日，厦门大学纪荣嵘团队研究发现，每个完成结果的贡献与其相对优势有关。也就是说，每个完成结果对策略模型训练的贡献并不相等。如图 1 所示，完成结果的数量增大时，准确度提升并不非常显著，但训练时间却会迅速增长。

基于这一见解，他们发现可以通过对完成结果进行剪枝来加速 GRPO。然后，他们提出了一种加速版的 GRPO：CPPO（Completion Pruning Policy Optimization / 完成剪枝策略优化）。并且他们也已经开源发布了该算法的代码。

顾名思义，CPPO 会根据优势对完成结果进行剪枝，这样一来就可以提升强化学习过程的速度。

具体来说，一开始，策略模型会针对每个问题采样一组完成结果。随后，通过奖励函数计算每个完成结果的相对优势。然后，CPPO 会修剪掉绝对优势值较低的完成结果，仅保留绝对优势较高的完成结果来计算损失。此过程可大大减少训练所需的完成结果数量，从而加快训练过程。

此外，他们还观察到，由于完成剪枝会导致 GPU 资源利用率不足，从而导致资源浪费。为了解决这个问题，他们引入了一种动态完成结果分配策略。该策略会用新问题的完成结果填充每个设备，从而充分利用 GPU 资源并进一步提高训练效率。

实验证明，他们的方法是有效的。当使用 Qwen-2.5 系列模型时（包括 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B-Instruct），在保证了准确度相当的基础上，CPPO 在 GSM8K 基准上的速度比 GRPO 快 8.32 倍，在 MATH 基准上快 3.51 倍。

或者用网友的话来说，快如闪电！

CPPO：完成剪枝策略优化

要了解 CPPO，首先必须知道 GRPO，其公式如下：

其中，q 是从数据集分布 P (Q) 中采样的问题，{o_1, o_2, ... , o_G} 是 G 个完成结果，π_θ 是策略模型，π_θ_old 是旧策略模型，π_θ_ref 是参考模型，ϵ 和 β 是超参数，A_i 是使用一组奖励 {r_1, r_2, ... , r_G} 计算的优势。

相比于 GRPO，CPPO 引入了一个选择性条件，该条件仅会包括表现出足够高优势的完成结果。CPPO 的目标公式如下：

其中 γ 是一个预定义的阈值，用于确保在梯度更新中仅保留绝对优势高于 γ 的完成结果。需要注意的是，当

，或者

时，clip 函数会被激活。

图 2 展示了 CPPO 的概况：

统一单/多 GPU 设置

在多 GPU 训练场景中，该团队观察到具有显著优势的完成结果的数量因设备而异。在这种情况下，整体训练效率会有设备处理最多完成结果数量的瓶颈 —— 这种现象称为「木桶效应（bucket effect）」。为了缓解这种情况，对于每台 GPU，该团队的选择是只保留每个问题具有最大绝对优势的 k 个完成结果，其中

其中 P ∈ (0, 1] 表示剪枝率。在此策略下修改后的 CPPO 为：

其中仅在具有最高绝对优势值的 k 个完成结果对应的索引集 I 上进行求和，即

CPPO 算法的流程如下：

CPPO 和 GRPO 之间的关键区别是：CPPO 不会将所有完成结果用于策略模型、参考模型和旧策略模型的前向计算。相反，通过仅保留具有高绝对优势的完成结果进行梯度更新，CPPO 可显著降低前向传递期间的计算开销，从而加速了训练过程。

通过动态完成结果分配进行并行处理

该团队还提出了一种新的动态完成结果分配策略，以进一步优化 CPPO 的训练效率。

由于 GPU 内存限制，传统方法（如 GRPO 采用的方法）面临固有的局限性。具体而言，单台设备每批最多可以处理 B 个问题，每个问题生成 G 个候选完成结果。剪枝操作之后，每台设备保留的完成结果总数减少到 B × k，进而导致 GPU 利用率不理想，并行计算能力未得到充分利用。

为了解决这种低效率问题，该团队的方法是将来自其他问题的剪枝后的完成结果动态分配到设备的处理管道中，如图 3 所示。

此策略通过不断用来自原始问题和新引入问题的高质量完成结果填充其内存，确保每个设备都能以满负荷运行。至关重要的是，所有新合并的完成结果都经过相同的严格剪枝过程，以保持一致性和相关性。

这种方法的好处有两个：

有这两大优势，CPPO 便可在保证训练质量的同时提高训练效率。

CPPO 的实验效果

使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 模型，该团队在 GSM8K 和 MATH 数据集上对 CPPO 进行了实验评估。此外，为了评估模型的分布外推理能力，他们还引入了 AMC2023 和 AIME2024 作为测试基准。

在 GSM8K 上的结果如表 1 所示，CPPO 在准确度和加速比上都明显优于 GRPO。值得注意的是，CPPO 在各种剪枝率下都达到了与 GRPO 相当甚至更高的准确度。在 87.50% 的剪枝率下，CPPO 的准确度达到 80.41%，比 GRPO 的 77.05% 高出 3.36%。

在效率方面，CPPO 大大加快了训练速度。在 93.75% 的剪枝率下，其加速比达到 8.32 倍。这些结果表明，CPPO 不仅能保持或提高准确度，还可显著提高训练效率。因此，CPPO 有潜力成为大规模推理模型训练的实用有效解决方案。

在 MATH 上的表现见表 2。可以看到，CPPO 可以很好地扩展到更大的模型 —— 在不牺牲准确度的情况下在 MATH 上实现了高达 3.51 倍的加速。例如，在 87.5% 的修剪率下，CPPO 保持了与 GRPO (75.20%) 相当的准确度，同时还将训练时间减少了 3.51 倍。

此外，在 AMC2023 和 AIME2024 基准上的评估表明，尽管 CPPO 仅在高绝对优势完成结果上进行训练，但它仍保留了模型在分布外任务上的泛化能力。因此，CPPO 不仅在增强推理能力方面匹敌甚至超越了 GRPO，而且还很好地减少了训练时间，使其成为一种更有效的替代方案。

该团队也研究了 CPPO 的稳定性和收敛性。图 4 展示了在 GSM8K 和 MATH 数据集上训练时的奖励曲线。

总体而言，奖励曲线证明 CPPO 在提高收敛速度的同时可保证 GRPO 的训练稳定性：CPPO 的奖励曲线不会崩溃或出现剧烈波动，这对于稳定训练至关重要。这些结果表明 CPPO 具有稳健而稳定的训练稳定性。此外，CPPO 的奖励曲线显示出了明显的上升趋势，能比 GRPO 更快地达到更高的奖励值。奖励值的更快增长表明 CPPO 的收敛速度更快。

你有兴趣在自己的强化学习训练流程中尝试这种更快的 CPPO 吗？

....

一脑多机！智源的新发布，让不同机器人轻松协作

3 月 29 日，智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体xx大小脑协作框架 RoboOS 与开源xx大脑 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建xxx开源统一生态加速场景应用提供底层技术支持。

开源链接如下：

xx多模态大脑模型 RoboBrain

为机器人操作任务设计的高质量异构数据集 ShareRobot

增强长程操作任务能力

打造感知 - 认知 - 决策 - 行动闭环

在xx场景中，长程操作任务是机器人执行复杂任务的核心能力之一。xx大脑 RoboBrain 融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力，通过将抽象指令映射为具象动作序列，增强长程操作任务的能力。

RoboBrain 由三个模块组成：用于任务规划的基座模型、用于可操作区域感知的 A-LoRA 模块和用于轨迹预测的 T-LoRA 模块。在推理时，模型首先感知视觉输入，并将输入指令分解为一系列可执行的子任务，然后执行可操作区域感知和轨迹预测。RoboBrain 采用多阶段训练策略，使其具备长历史帧记忆和高分辨率图像感知能力，进而提升场景感知和操作规划的能力。

RoboBrain 在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能。

在任务规划方面，RoboBrain 在不牺牲通用能力的前提下，在机器人规划评测集 OpenEQA、ShareRobot（自建）和 RoboVQA 上多个维度优于 GPT-4V、Claude3 等 6 个当时领先的闭源 / 开源 MLLMs。

RoboBrain 在xx规划评测基准上的性能

在可操作区域感知方面，RoboBrain 在 AGD20K 测试集上的平均精度超过了当时最先进的开源模型 Qwen2-VL，验证了其在指令理解和物体属性方面的卓越能力。

RoboBrain 在可操作区域感知基准上的性能

在轨迹预测方面，RoboBrain 预测的操作轨迹具有与真实轨迹较高的相似度，展现了其在轨迹预测中的高精度和稳定性。RoboBrain 的未来迭代版本会持续提高轨迹预测的能力。

RoboBrain 在轨迹预测基准上的性能

目前，RoboBrain 能够解读人类指令和视觉图像，以生成基于实时图像反馈的行动计划和评估，预测每一步的轨迹并感知相应的可操作区域。具体而言，RoboBrain 能够有效利用环境信息和交互对象的状态 —— 无论是从第一人称还是第三人称视角捕捉的图像 —— 生成针对不同类型机器人操作任务的任务规划，并基于人类指令和视觉信息，提供合理的可操作区域，并能在不同场景中表现出良好的泛化能力，生成既可行又合理的轨迹。

xx大脑 RoboBrain、小脑技能库以及跨机器人数据中枢，是跨本体框架 RoboOS 的核心要素。xx大脑 RoboBrain，负责全局感知与决策，构建动态时空感知、规划指导和反馈纠错机制；小脑技能库，负责低延迟精准执行，实现柔性与精密操作等；跨机器人数据中枢，负责实时共享空间、时间和本体记忆，为决策规划与优化协作操作提供信息支持，从而形成感知 - 认知 - 决策 - 行动的闭环。

一脑多机实现跨本体协作

从单体智能迈向群体智能

跨本体xx大小脑协作框架 RoboOS，基于 “大脑-小脑” 分层架构，通过模块化设计、智能任务管理和跨本体协作，为机器人提供高效、灵活、可扩展的底层支持，实现从单机智能到群体智能的跃迁。

在 RoboOS 的分层架构下，xx大脑 RoboBrain 的复杂场景感知与决策能力，可与小脑技能库的高效执行能力深度结合，确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型（如 LLM/VLM）与小脑技能（如抓取、导航）的 “即插即用”，目前，可支持松灵双臂、睿尔曼单 / 双臂、智元人形、宇树人形等不同类型的xx本体。

通过共享记忆系统（空间记忆 / 时间记忆 / 本体记忆），实现多个机器人之间的状态同步与智能协作，突破传统 “信息孤岛” 限制，实现跨本体协作控制。

RoboOS 可动态管理多机器人任务队列，支持优先级抢占与资源优化分配，确保复杂场景下实时响应，实现高并发任务调度。

此外，RoboOS 可基于执行反馈动态调整策略，结合环境变化，持续优化任务规划，提升鲁棒性，做到实时闭环优化。

，时长01:09

基于 RoboOS 及 RoboBrain 的多机器人跨本体协作递送任务 Demo

在 “递送苹果和水果刀” 的任务场景中，基于 RoboOS 及 RoboBrain，睿尔曼单臂机器人（转运）、宇树人形 G1（挑拣水果）、松灵双臂机器人（挑拣水果刀）分工协作。

整体任务流程是睿尔曼调用 “导航技能” 移动至餐桌前，宇树 G1 调用 “视觉抓取技能” 完成指定物体的挑拣，睿尔曼调用 “抓取技能” 提起果篮并导航至松灵餐桌前。紧接着，松灵调用 “抓取技能” 获取水果刀，并放置在果篮中心，睿尔曼依据 “空间记忆” 导航至办公桌位置，递送果篮后返回待命。

RoboOS 接收 “拿离杯子最近的水果，并递送一把水果刀” 指令后，递送 RoboBrain 进行任务拆解，并将拆解后的子任务分发给 3 台跨本体机器人。RoboBrain 通过 "空间记忆" 感知环境，确定果篮、苹果位置，并拆解任务为 “宇树 G1 挑拣苹果→睿尔曼传递果篮→松灵机器人抓取水果刀→睿尔曼返回”。

各机器人本体执行子任务过程中，由 RoboOS 提供端云协作能力，将任务规划为技能粒度，实现云端 RoboBrain 分发规划，端侧执行技能并实时反馈。RoboBrain 识别 “离杯子最近的水果位置”、“果篮抓取位置 affordance”、“水果刀抓取位置 affordance”、“果篮空闲位置 Pointing”，经由 RoboOS 递送指导各机器人本体完成任务。

“即插即用” 快速轻量化泛化部署

打造统一生态

RoboOS 作为面向多机器人系统的跨本体xx大小脑协作框架，专为解决当前xxx落地过程中的通用性适配与多机调度难题而设计。针对异构本体难以统一接入、任务调度效率低、缺乏动态错误反馈机制等痛点，基于 RoboOS 的 “大小脑协同” 的架构范式，云端的xx大脑 RoboBrain 负责统一的任务理解、规划决策与上下文感知，本体侧则接入轻量级的小脑执行模块，实现感知 - 认知 - 决策 - 行动的闭环协作。

该机制能够动态感知本体差异、灵活适配操作指令、自动修复异常行为，有效提升系统在复杂任务场景下的鲁棒性与泛化性。RoboOS 原生支持异构机器人本体的灵活接入，以 Profile 模板机制快速完成机器人能力建模与适配。

本体的小脑模块可调用包括开源技能库、自研低阶控制器等多种技能接口，形成一个支持模块复用、即插即用的运行体系，大幅降低开发门槛与接入成本。

在云端，RoboOS 提供完备的模型适配与 API 接入能力，兼容自研的多模态 VLM，作为可插拔的大脑决策引擎，从而在服务机器人、工业自动化、智慧物流、智能制造等领域支撑复杂任务的多机协作需求。

借助 RoboOS 的端云一体化协同能力与动态调度机制，整个系统不仅具备高度的扩展性与可迁移性，更为未来xxx的规模部署与生态构建奠定了通用操作系统级的基础。

RoboOS 基于智源研究院研发的并行训练与推理框架 FlagScale，原生支持多机器人系统的端云协同能力，打造xxx的统一底座。系统在设计上充分考虑 “多机器人 - 多模态 - 多任务” 场景，具备极高的可扩展性与低时延响应能力。

在端侧部署中，机器人注册即可自动与云端部署的 RoboBrain 大脑建立双向通信链路，通过高效发布 - 订阅机制实现实时任务调度与状态反馈，指令响应延迟低于 10ms，满足复杂动态任务的闭环控制需求。

面向机器人在长期运行中产生的海量感知与行为数据，RoboOS 提供基于内存优化的数据访问引擎，支持 TB 级别历史数据的内存随机访问能力，为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合 RoboBrain 的任务推理与策略优化模块，历史数据还可用于多机之间的协作知识共享，实现更强的智能演化与自主学习能力。

此外，FlagScale 作为底层支撑框架，支持大模型在多设备间的并行推理与多任务协同调度，可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统，全面释放xx大模型的系统潜力。

目前，智源研究院依托多模态大模型技术优势资源，正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业，积极建设xxx创新平台，重点开展数据、模型、场景验证等研究。

此次智源研究院发布的跨本体xx大小脑协作框架 RoboOS 及开源xx大脑 RoboBrain，将有机融合和广泛链接不同构型的xx本体与丰富多元的xx模型，加速xxx跨本体协作与规模化应用。

开放、协作、共享，是xxx生态繁荣的必经之路，智源研究院愿携手更多产业合作伙伴，共绘xxx生态蓝图。

....

大模型（LLMs）微调面

32.1 大模型训练loss突刺是什么？

32.2 为什么大模型训练会出现loss突刺？

32.3 大模型训练loss突刺如何解决？

1. 如果想要在某个模型基础上做全参数微调，究竟需要多

少显存？一般 n B的模型，最低需要 16-20 n G的显存。（cpu offload基本不开的情况下）

vicuna-7B为例，官方样例配置为 4*A100 40G，测试了一下确实能占满显存。（global batch size

128，max length 2048）当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。

2. 为什么SFT之后感觉LLM傻了?

SFT的重点在于激发大模型的能力，SFT的数据量一般也就是万恶之源alpaca数据集的52k量级，相比于

预训练的数据还是太少了。

如果抱着灌注领域知识而不是激发能力的想法，去做SFT的话，可能确实容易把LLM弄傻。

指令微调是为了增强（或解锁）大语言模型的能力。

其真正作用：

指令微调后，大语言模型展现出泛化到未见过任务的卓越能力，即使在多语言场景下也能有不错表现。

3. SFT 指令微调数据如何构建?

型性能；

万），防止较大的数据集压倒整个分布。

4. 领域模型Continue PreTrain 数据选取？

或者知识密度不如书籍和技术标准。

5. 领域数据训练后，通用能力往往会有所下降，如何缓解

模型遗忘通用能力？

动机：仅仅使用领域数据集进行模型训练，模型很容易出现灾难性遗忘现象.

解决方法：通常在领域训练的过程中加入通用数据集

那么这个比例多少比较合适呢？目前还没有一个准确的答案。主要与领域数据量有关系，当数据量没有那么多时，一般领域数据与通用

数据的比例在1:5到1:10之间是比较合适的。

6. 领域模型Continue PreTrain ，如何让模型在预训练过

程中就学习到更多的知识？

领域模型Continue PreTrain时可以同步加入SFT数据，即MIP，Multi-Task Instruction PreTraining。

预训练过程中，可以加下游SFT的数据，可以让模型在预训练过程中就学习到更多的知识。

7. 进行SFT操作的时候，基座模型选用Chat还是Base?

仅用SFT做领域模型时，资源有限就用在Chat模型基础上训练，资源充足就在Base模型上训练。（资源=

数据+显卡）

资源充足时可以更好地拟合自己的数据，如果你只拥有小于10k数据，建议你选用Chat模型作为基座进

行微调；如果你拥有100k的数据，建议你在Base模型上进行微调。

8. 领域模型微调指令&数据输入格式要求？

在Chat模型上进行SFT时，请一定遵循Chat模型原有的系统指令&数据输入格式。

建议不采用全量参数训练，否则模型原始能力会遗忘较多。

9. 领域模型微调领域评测集构建？

领域评测集时必要内容，建议有两份，一份选择题形式自动评测、一份开放形式人工评测。

任务形式更贴近真实场景。

10. 领域模型词表扩增是不是有必要的？

领域词表扩增真实解决的问题是解码效率的问题，给模型效果带来的提升可能不会有很大。

11. 如何训练自己的大模型？

如果我现在做一个sota的中文GPT大模型，会分2步走：1. 基于中文文本数据在LLaMA-65B上二次预训

练; 2. 加CoT和instruction数据, 用FT + LoRA SFT。

提炼下方法，一般分为两个阶段训练：

第一阶段：扩充领域词表，比如金融领域词表，在海量领域文档数据上二次预训练LLaMA模型；

第二阶段：构造指令微调数据集，在第一阶段的预训练模型基础上做指令精调。还可以把指令微调

数据集拼起来成文档格式放第一阶段里面增量预训练，让模型先理解下游任务信息。

当然，有低成本方案，因为我们有LoRA利器，第一阶段和第二阶段都可以用LoRA训练，如果不用

LoRA，就全参微调，大概7B模型需要8卡A100，用了LoRA后，只需要单卡3090就可以了。

12. 训练中文大模型有啥经验？

链家技术报告《Towards Better Instruction Following Language Models for Chinese: Investigating

the Impact of Training Data and Evaluation》中，介绍了开源模型的训练和评估方法：

还对比了各因素的消融实验：消融实验结论：

扩充中文词表后，可以增量模型对中文的理解能力，效果更好

数据质量越高越好，而且数据集质量提升可以改善模型效果

数据语言分布，加了中文的效果比不加的好

数据规模越大且质量越高，效果越好，大量高质量的微调数据集对模型效果提升最明显。解释下：

数据量在训练数据量方面，数据量的增加已被证明可以显著提高性能。值得注意的是，如此巨大的

改进可能部分来自belle-3.5和我们的评估数据之间的相似分布。评估数据的类别、主题和复杂性将

对评估结果产生很大影响

扩充词表后的LLaMA-7B-EXT的评估表现达到了0.762/0.824=92%的水平

他们的技术报告证明中文大模型的训练是可行的，虽然与ChatGPT还有差距。这里需要指出后续RLHF也

很重要，我罗列在这里，抛砖引玉。

13. 指令微调的好处？

有以下好处：

不同应用的准确度能直接从83%提升到95%、错误率可降低50%。解小学数学题目的正确率也能提

高2-4倍。（更准）

踩在巨人的肩膀上、直接在1750亿参数的大模型上微调，不少研发人员都可以不用再重头训练自己的AI

模型了。（更高效）

14. 预训练和微调哪个阶段注入知识的？

预训练阶段注入知识的，微调是在特定任务训练，以使预训练模型的通用知识跟特定任务的要求结合，

使模型在特定任务上表现更好。

15. 想让模型学习某个领域或行业的知识，是应该预训练还

是应该微调？

可以使用预训练和微调相结合的方式，先用篇章数据进行预训练以获取广泛的知识，再用问答对数据进

行微调，使模型更好的学习到特定领域的知识。

当然，GPT大模型的预训练和微调，从实现方式来讲是没有什么差别的，都是decoder only的语言模型

训练并更新参数，如果样本集小，没有大量的篇章文档数据，我认为只进行微调也能注入知识的，不必

太纠结预训练。而且特定领域跟预训练模型的分布差别不大，也不用二次预训练。

16. 多轮对话任务如何微调模型？

这里列举了 ChatGLM-6B 的生成对话的例子

response 为 ChatGLM-6B 模型的当前反馈

history 为 ChatGLM-6B 模型的历史记录的保存

说白了，就是 ChatGLM-6B 模型简单的把上一轮对话扔进下一轮的input里，这种方法好处是简单，缺

点是随着轮数的增加，history 存储的对话会越来越多，导致 max_length 增加，从而出现爆显问题。

解决方法：

对历史对话做一层文本摘要，取其精华去其糟粕

将历史对话做成一个 embedding

如果是任务型对话，可以将用户意图和槽位作为上一轮信息传递给下一轮

17. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

所谓的灾难性遗忘：即学习了新的知识之后，几乎彻底遗忘掉之前习得的内容。这在微调ChatGLM-6B

模型时，有同学提出来的问题，表现为原始ChatGLM-6B模型在知识问答如“失眠怎么办”的回答上是正确

的，但引入特定任务（如拼写纠错CSC）数据集微调后，再让模型预测“失眠怎么办”的结果就答非所问

了。

我理解ChatGLM-6B模型是走完 “预训练-SFT-RLHF” 过程训练后的模型，其SFT阶段已经有上千指令微调

任务训练过，现在我们只是新增了一类指令数据，相对大模型而已，微调数据量少和微调任务类型单

一，不会对其原有的能力造成大的影响，所以我认为是不会导致灾难性遗忘问题，我自己微调模型也没

出现此问题。

应该是微调训练参数调整导致的，微调初始学习率不要设置太高，lr=2e-5或者更小，可以避免此问题，

不要大于预训练时的学习率。

18. 微调模型需要多大显存？19. 大模型LLM进行SFT操作的时候在学习什么？

(1) 预训练->在大量无监督数据上进行预训练，得到基础模型-->将预训练模型作为SFT和RLHF的起点。

(2) SFT-->在有监督的数据集上进行SFT训练，利用上下文信息等监督信号进一步优化模型-->将SFT训练

后的模型作为RLHF的起点。

(3) RLHF-->利用人类反馈进行强化学习，优化模型以更好地适应人类意图和偏好-->将RLHF训练后的模

型进行评估和验证，并进行必要的调整。

20. 预训练和SFT操作有什么不同

下面使用一个具体的例子进行说明。进行预训练的时候会把这句话连接起来，用前面的词来预测后面出现的词。在计算损失的时候，问句中

的损失也会被计算进去。

进行SFT操作则会构建下面这样一条训练语料。

其中[BOS]和[EOS]是一些特殊字符，在计算损失时，只计算答句的损失。在多轮对话中，也是一样的，

所有的问句损失都会被忽略，而只计算答句的损失。

因此SFT的逻辑和原来的预训练过程是一致的，但是通过构造一些人工的高质量问答语料，可以高效地

教会大模型问答的技巧。

21. 样本量规模增大，训练出现OOM错

问题描述：模型训练的样本数量从10万，增大300万，训练任务直接报OOM了。

解决方案，对数据并行处理，具体实现参考海量数据高效训练，核心思想自定义数据集本次的主要

目标是使向量化耗时随着处理进程的增加线性下降，训练时数据的内存占用只和数据分段大小有

关，可以根据数据特点，灵活配置化。核心功能分为以下几点:

均分完整数据集到所有进程（总的GPU卡数）

重新训练时可以直接加载向量化后的数据。

22. 大模型LLM进行SFT 如何对样本进行优化？

对于输入历史对话数据进行左截断，保留最新的对话记录。

去掉样本中明显的语气词，如嗯嗯，啊啊之类的。

去掉样本中不合适的内容，如AI直卖，就不应出现转人工的对话内容。

样本中扩充用户特征标签，如年龄，性别，地域，人群等

23. 模型参数迭代实验

验证历史对话轮次是否越长越好，通过训练两个模型，控制变量max_source_length｜

max_target_length，对训练好之后的模型从Loss、Bleu指标、离线人工评估等角度进行对比分析。

问题：描述计算机主板的功能

回答：计算机主板是计算机中的主要电路板。它是系统的支撑。

输入：描述计算机主板的功能[BOS]计算机主板是计算机中的主要电路板。它是系统的支撑。[EOS]

标签：[......][BOS]计算机主板是计算机中的主要电路板。它是系统的支撑。[EOS]结论：从人工评估少量样本以及loss下降来看，历史对话长度1024比512长度好，后续如果训练可能上

线模型，可以扩大到1024长度。

24. 微调大模型的一些建议

1 模型结构:

模型结构+训练目标: Causal Decoder + LM。有很好的zero-shot和few-shot能力，涌现效应

layer normalization: 使用Pre RMS Norm

激活函数: 使用GeGLU或SwiGLU

embedding层后不添加layer normalization，否则会影响LLM的性能

位置编码: 使用ROPE或ALiBi。ROPE应用更广泛

去除偏置项:去除dense层和layer norm的偏置项，有助于提升稳定性

2 训练配置:

batch: 选用很大的batch size; 动态地增加batch size的策略，GPT3逐渐从32K增加到3.2M

tokens。

学习率调度:先warmup再衰减。学习率先线性增长，再余弦衰减到最大值的10%。最大值一般在

5e-5到1e-4之间。

梯度裁剪:通常将梯度裁剪为1.0。

权重衰减: 采用AdamW优化器，权重衰减系数设置为0.1Adamw相当于Adam加了一个L2正则项

混合精度训练:采用bfloat16，而不是foat16来训练。

3 训练崩溃挽救:

选择一个好的断点，跳过训练崩溃的数据段，进行断点重训。选择一个好的断点的标准: 损失标度

lossscale>0;梯度的L2范数<一定值 && 波动小

25. 微调大模型时，如果 batch size 设置太小会出现什么

问题？

当 batch size 较小时，更新方向（即对真实梯度的近似）会具有很高的方差，导致的梯度更新主要是噪

声。经过一些更新后，方差会相互抵消，总体上推动模型朝着正确的方向前进，但个别更新可能不太有

用，可以一次性应用（使用更大 batch size 进行更新）。

26. 微调大模型时，如果 batch size 设置太大会出现什么

问题？

当 batch size 非常大时，我们从训练数据中抽样的任何两组数据都会非常相似（因为它们几乎完全匹配

真实梯度）。因此，在这种情况下，增加 batch size 几乎不会改善性能，因为你无法改进真实的梯度预

测。换句话说，你需要在每一步中处理更多的数据，但并不能减少整个训练过程中的步数，这表明总体

地增加需要处理的数据。当 batch size 从 2048 翻倍时，达到同样性能所需要的 step 几乎没有任何改

善，但你需要花费两倍的计算资源。Google 的经验研究也有类似的观察，即在在固定的 epoch budget

下，当 batch size 达到临界值时，模型的性能会 batch size 的增加而降低。可以如下说明：

27. 微调大模型时, batch size 如何设置问题？

各种结果表明似乎存在着一个关于数据并行程度的临界点，通过找到这个临界点，我们可以有效的平衡

训练的效率和模型的最终效果。

OpenAI 发现最优步长:

注：B 为 batch size，Bnoise为噪声尺度在采用最优 step size 时，从含有噪声的梯度中获得的损失的最优改进现在变为：

从这些公式中我们可以得出两个结论：

左侧的图表说明了为什么使用更大的批次模型可以取得更多提升。但是当 batch size 太大时，我们会遇

到收益递减的问题（因为分母中的 1 开始占主导地位）。但是需要注意的事，这仅在学习率调整良好的

情况下有效。因此，OpenAI 建议将学习率调整到一个相对接近最优值的数值是理论能有效的前提。

在进行一些其他数学计算后，OpenAI 发现噪声尺度可以通过以下方式估计：

其中，H 是参数的真实 Hessian 矩阵，C 是相对于梯度的每个示例的协方差矩阵，g 是真实梯度。为了

进一步简化这个方程，OpenAI作出了一个（不切实际的）假设，即优化是完全 well-conditioned 的。

在这种情况下，Hessian 矩阵只是单位矩阵的倍数，噪声尺度简化就可以简化为以下形式：

他们经验上发现结果相当接近。该方程表明噪声尺度等于个别梯度分量的方差之和，除以梯度的

norm。OpenAI 使用以上结论在后续的 scaling law 工作中预测了模型的最优 batch size 大小。1. Learning rate as temperature

前面的结论有提到一个前提，就是模型的 LR 是调的比较好的。这是因为 OpenAI 发现噪声尺度基本符

合以下规律

在使用 SGD 和小 batch 进行更新时，可以大概近似为

这表明

尺度将被放大。

28. 微调大模型时, 优化器如何？

除了Adam和AdamW，其他优化器如Sophia也值得研究，它使用梯度曲率而非方差进行归一化，可能提

高训练效率和模型性能。

29. 哪些因素会影响内存使用？

内存使用受到模型大小、批量大小、LoRA参数数量以及数据集特性的影响。例如，使用较短的训练序列

可以节省内存。

30. 进行领域大模型预训练应用哪些数据集比较好？

通过分析发现现有的开源大模型进行预训练的过程中会加入书籍、论文等数据。主要是因为这些数据的

31. 用于大模型微调的数据集如何构建？

进行大模型微调时，数据是比较重要的，数据的高度决定模型效果的高度，因此数据的质量重要性大于

数据的数量的重要性，因此对于构建微调数据时的几点建议如下所示：

32. 大模型训练loss突刺原因和解决办法

参考：A Theory on Adam Instability in Large-Scale Machine Learning

32.1 大模型训练loss突刺是什么？

loss spike指的是预训练过程中，尤其容易在大模型（100B以上）预训练过程中出现的loss突然暴涨的

情况如图所示模型训练过程中红框中突然上涨的loss尖峰 loss spike的现象会导致一系列的问题发生，譬如模

再也无法drop back down，即模型再也无法收敛

PaLM和GLM130b之前的解决办法是找到loss spike之前最近的checkpoint，更换之后的训练样本来避

免loss spike的出现。

32.2 为什么大模型训练会出现loss突刺？

大模型训练使用的Adam优化器会导致 loss突刺。

首先回顾一下Adam优化器的结构（这里介绍的是较为传统的Adam优化器，现在nlp任务更偏向于使用

带有正则化项的Adamw变体）：

首先对Adam的有效性做了论述，其本质在于证明了Adam优化过程是对牛顿下降法（二阶导）的一个有

效逼近，因此在收敛速度上大幅度领先传统SGD(一阶导)，证明过程不做赘述，可以参考本文和Adam系

Adam算法是牛顿下降法的一个迭代逼近一切显得十分完美，但是理想很丰满，现实很骨感，收敛过程并不是一帆风顺的

首先我们想象一下 ut 这个更新参数的变化趋势进入正态分布的稳态之后，理想的更新参数变化趋势应该是方差越来越小，所有更新参数逐渐向0靠近。

这应该是一个单向的过程，即稳定的单峰状态（unimodal）不会再次进入非稳定的双峰状态

(bimodal)，但事实并非如此，更新参数会再次进入非稳定的双峰状态

本文在理论层面做了研究和解释，从中心极限定理（可以结合道尔顿板实验理解）出发，认为随机事件

的叠加进入单峰的正态分布的必要条件之一是各个随机事件事件之间应该是相互独立的，但是梯度变化

以及更新参数的变化并不能特别好的满足独立性这一条件，而这一点恰恰是导致更新参数振荡，loss

的理论有些晦涩，本文作者可能也了解这一点，之后开始直接点题，结合实验观察抛出了重要现象和结

本文作者对loss spike出现时模型的前后变化做了仔细拆解，发现下列一系列连续现象的出现导致了loss

spike：5.这个阶段模型处于非稳态，梯度变化幅度较大，每一次的梯度变化和更新参数变化事件之间又出现了

本文着重提了这个再次drop back down并不是一定出现的，也很有可能loss长期处于flat状态，再也无

法收敛）

与模型深层参数当前的状态形成了连锁反应造成了模型进入非稳态。同时一般情况即使出现loss spike也

会自动回复到正常状态，但也有可能再也不会

32.3 大模型训练loss突刺如何解决？

本文最后提到了防止loss spike出现的一些方法：

本比较高）

在 vt 等于 0 时候的值（这应该是个值得尝试的办法）

值得一提的是智谱华章在本文发表之前，在去年的GLM130B训练时似乎也观察到了浅层梯度变化和loss

接乘以缩放系数 a 来减小浅层梯度更新值其实这块我有个自己的想法，e 和 a 是否也可以做衰减，随着训练过程逐渐减小，来避免loss spike的现

另外假设我们能一次性加载所有样本进行训练（实际上不可能做到），是否还会出现loss spike的现象

最后目前流行的fp8，fp16混合训练，如果upscale设置的过小，导致梯度在进入优化器之前就下溢，是

upscale大小以及优化 e 大小是进一步提升模型效果的一个思路）

....

近日，2024 AAAS Fellow 名单正式公布！

AAAS Fellow 是科学家、工程师和创新者中的杰出骨干，他们在研究、教学、技术、学术界、工业界和政府管理以及向公众传播和解释科学方面的卓越成就得到了各学科的认可。符合提名资格的候选人是那些在科学或应用发展方面做出杰出贡献的科学家，并且在提名年之前至少连续四年担任美国科学促进会会员。

2024 年，AAAS 理事会选出了 471 名成员为 AAAS Fellow。这份名单是为了表彰那些在科学进步或科学应用服务社会方面做出努力，并在同行和同事中脱颖而出的成员。

其中，有三位华人学者入选「信息、计算与通信学科」Fellow 名单：前腾讯杰出科学家刘威、纽约城市学院 & 纽约城市大学教授田英利、埃默里大学教授熊莉。

接下来，我们将介绍这三位华人学者信息。

刘威，腾讯（前）

刘威是前腾讯杰出科学家，在人工智能领域建树颇丰。他本科毕业于浙江大学，2012 年获美国哥伦比亚大学计算机科学与电子工程博士学位。

他此前曾任 IBM 沃森研究中心研究科学家，2016 年 6 月加入腾讯 AI Lab，担任腾讯杰出科学家，负责计算机视觉、多媒体 AI，并作为技术负责人之一构建腾讯混元大模型。2024 年 11 月从腾讯离职后，据报道他在新加坡创业，专注于视频生成领域。

在学术方面，刘威长期专注于计算机视觉、机器学习、多模态等领域的基础研究与产品开发，已发表论文 300 多篇，总引用超 50,000 次，获得 Facebook 博士研究生奖学金、IEEE "AI's 10 To Watch" 等多项荣誉。

他活跃于国际学术界，经常参与权威期刊的副主编和编委工作，并在顶级会议中担任领域主席。2022 年 11 月，因其在大规模机器学习和智能多媒体领域的贡献，刘威入选 2023 IEEE Fellow。

田英利，纽约城市学院 & 纽约城市大学

田英利（Yingli Tian）是纽约城市学院（CCNY）电气工程系以及纽约城市大学（CUNY）研究生中心计算机科学系的杰出教授。她在计算机视觉、机器学习、人工智能、辅助技术等领域具有国际影响力。

田英利于 1996 年在香港中文大学获得博士学位，此前在天津大学获得学士和硕士学位。职业生涯始于卡内基梅隆大学的博士后研究，随后在 IBM T.J. Watson 研究中心工作七年，领导视频分析团队并获得多项奖励，包括 2007 年 IBM 杰出创新成就奖。

自 2008 年加入纽约城市学院后，田英利专注于通过计算机视觉和机器学习技术帮助视障人士、听障人士和老年人等特殊需求群体。她在面部表情分析、人类活动理解领域是先驱之一，已发表超过 200 篇论文，拥有 29 项专利，研究获得 NSF、NIH 等机构和行业赞助商的支持。

田英利是 IEEE Fellow、IAPR Fellow 和 AAIA Fellow，担任多个学术期刊的副主编，包括 IEEE Transactions on Multimedia 等重要期刊。

熊莉，埃默里大学

熊莉（Li Xiong）是埃默里大学计算机科学和生物医学信息学教授，在数据管理、机器学习、数据隐私与安全领域具有重要影响力。她在中国科学技术大学获得学士学位，随后在约翰霍普金斯大学获得硕士学位，并在佐治亚理工学院完成博士学位。

2005 年加入埃默里大学后，熊莉创立了 Assured Information Management and Sharing (AIMS) 实验室，专注于医疗保健、公共卫生和空间智能的可信和隐私增强型人工智能解决方案。她已发表 100 多篇论文，获得多项最佳论文奖，并担任多个顶级学术会议的重要职务和期刊副主编。

熊莉的研究获得 NSF、NIH 等机构支持，2022 年被选为 IEEE 会士，以表彰她在隐私保护和安全数据共享方面的贡献。

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域，高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景，反复验证算法的可靠性。

然而，传统仿真技术往往面临两大难题：首先是视角局限，依赖单一轨迹数据，如一条固定路线的摄像头录像，重建的场景只能在有限视角内逼真，无法支持车辆 “自由探索”。其次是动态失真，同一路口在不同时间可能停满车辆或空无一人，这些变化使得生成画面脱离现实。

为解决这一问题，上海创智学院联合香港大学等机构联合提出 MTGS （Multi-Traversal Gaussian Splatting）方法，通过多轨迹数据融合，构建既能还原真实道路细节又能动态响应环境变化的超高精度仿真场景。

日常通勤中，车辆往往会以不同的轨迹反复经过同一路段；而用于采集驾驶数据的车队也往往会在同一街区多次遍历，每辆车在不同时间从不同的角度记录了当前街区的信息。因此，使用多轨迹数据能获取到更多周围环境的信息。然而，实验发现，简单地堆叠数据并不能带来重建效果的提升，反而可能损伤单轨迹下重建的场景模型，原因之一是这些数据在天气、光照上有较大差异，无法很好地对齐。而 MTGS 的核心创新，正是将这些碎片化的 “数字拼图” 智能整合，使不同轨迹采集到的几何信息能互相补足，重建出几何信息更精准的驾驶场景。

基于多个轨迹的场景异质图

MTGS 将同一个场景中的元素集合在一个异质图中，并针对不同场景元素的特点分成三类节点，静态节点、外观节点、瞬态节点。这种 “分而治之” 的设计，使得 MTGS 既能还原道路的原有特征，又能灵活地呈现瞬息万变的车流与环境。

静态节点 - 所有轨迹共享的静态背景，如沥青路面、交通标志。

外观节点 - 通过球谐函数系数调整光照、阴影，适配多轨迹对应不同时段的天气变化和光照差异。

瞬态节点 - 各次轨迹独有的移动物体，如穿梭的车辆、临时停靠的快递车。

其中，静态节点和外观节点共同决定表征静态背景的高斯球，前者提供高斯球的位置、旋转四元数、尺寸、透明度和球谐函数的首个参数，后者则决定球谐函数的其他参数。这一设计源自球谐函数自身的特性：第一个球谐函数 Y_0,0 具备旋转不变性，可用于表征物体的本色或底色；其他球谐函数则会随着观察视角的变化而有所变化，更适合表征物体在不同轨迹不同视角上的色彩变化，如阴影、反光等细节。

同一轨迹中的外观对齐

除了多轨迹间的光照差异，同一轨迹内部也存在外观不对齐的情况，如部分相机过度曝光、不同相机间的色调差异。MTGS 创新性地利用激光雷达点云颜色作为 “锚点”，将同一空间点在同一时刻不同相机中的颜色对齐，并为每个相机学习独立的仿射变换，确保不同时刻采集的图片色调统一。

此外，为避免模型产生 “浮空碎片” 等失真现象，MTGS 还引入多重约束：（1）用激光雷达点云矫正三维形状，确保路沿、护栏等结构精确对齐；（2）使用 UniDepth 对图像进行深度估计，使用估计深度计算得到每个像素的法向量方向，从而通过相邻像素的法向量约束，让曲面过渡更自然（如车顶弧度）；（3）将移动物体的阴影从背景中分离，防止 “鬼影” 残留。这些技术让重建效果提升 46.3%，合成画面中的锯齿、重影等问题显著减少。

实测效果：数字与现实的 “像素级逼近”

在 nuPlan 大规模自动驾驶数据集上的测试显示，MTGS 在多项指标上刷新纪录。在画面质量方面，感知相似度（LPIPS）提升 23.5%。在几何精度方面，深度误差降低 46.3%，护栏间距、车道宽度等细节厘米级还原。在动态响应方面，支持每秒 60 帧的实时渲染，车流密度变化、行人突然穿行等场景流畅呈现。

....

大模型

视觉

#LivePortrait快手开源LivePortrait，GitHub 6.6K Star，实现表情姿态极速迁移近日，快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架，该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上，生成极具表现力的视频结果。如下动图所示：网友测试LivePortrait网友测试LivePortrait快手开源

大模型~~

在日常休闲中，我们常常会寻找各种方式来放松大脑。然而，也有一些活动，旨在轻松之余，也能给我们的思维带来有益的锻炼。近期，一款将数学计算与游戏机制相结合的小工具，引起了部分关注。这个工具界面简洁，规则清晰，它要求玩家利用屏幕上给定的四个数字，通过加、减、乘、除以及括号的组合，计算出指定的目标数字。其 ...

之前听说过一个故事，一个领导为了提高团队战斗力，把团队成员集中起来，搞封闭开发，重点还是在没有网的条件下。结果就是一个月过去了，产出基本为零。我发现，如果没有网，程序员基本上是写不出代码了。现在做什么功能之前，先到网上搜搜看，然后直接复制粘贴搞定。最实用的技术就是这么朴实无华。而大部分的代码都是在 GitHub 上找的，可以这么说，GitHub 基本上撑起了程序员一半的工资。那如果不想把代码 cl

本文内容为和AI大模型KIMI的对话记录，仅供参考。如何将文本内容通过org-babel插入org-mode文档，如果文本是orgtbl支持的表格（“|”分隔），自动对齐内容。摘要需求想在 Org-mode 里“指定一份纯文本文件 → 首次导入 → 再次执行自动更新”。方案给出两种零依 ...

xxHash3是一种超快速非加密哈希算法（Non-cryptographic Hash Algorithm），专为不同规模的输入数据优化设计。与传统哈希算法采用单一处理流程不同，xxHash3根据输入数据大小（小数据≤16字节、中数据17-240字节、大数据>240字节）动态切换处理策略，在保持高速运算的同时提升哈希质量。这种差异化设计使xxHash3在各种场景下均能达到接近内存带宽的处理速度，如...

THE END

c大模型~合集whaoaiot的技术博客

《时代》评全球百大人物：除了马斯克和奥特曼，还有名华人吴恩达李开复首席执行官埃隆马斯克

吴恩达《orveryone》练习英语翻译待更新看他沧桑

吴恩达《foreveryone》—loudtlasiscoverybeta文档

吴恩达和pen联合推出，《大模型通关课程手册》中文版人工智能写编程的木木

全文翻译了吴恩达《如何打造职业生涯》，附教程插件百度pdf如何打造ai职业生涯

完备的学习路线，最详细的资源整理（建议收藏）

genticworkflow加速gentic到来，gent成为重要实现方式翻译ai吴恩达工作流agent

全文翻译了吴恩达《如何打造职业生涯》，附教程

c大模型~合集whaoaiot的技术博客

机器学习课程不完全收录（持续更新）eansiang

吴恩达全新oursera课程“全民”重磅上线！腾讯云开发者社区

别再花钱买课了，到处都是国内可用且免费的工具学习资料

吴恩达撰文：建立在领域的技术职业生涯

斯坦福大学《机器学习》课程中文版内容（）腾讯云开发者社区

吴恩达最受欢迎课程机器学习ousera《achineearning》课程完整版百度网盘链接下载

吴恩达给所有人的课（全网百万观看量，附干货文档）非常详细收藏我这一篇就够了！人工智能ython怎么学啊