Company News

小型语言模型是代理人工智能的未来

原文：Small Language Models are the Future of Agentic AI，2025年6月02日，https://arxiv.org/pdf/2506.02153

原作者：Peter Belcak等8位，NVIDIA Research & Georgia Institute of Technology

编译者：唐隆基博士

编译者注：本文编译者曾在2024年元月发表的研究报告《全球生成式人工智能（GenAI）在供应链领域创新应用展望》中讨(tǎo)论(lùn)了(le)这(zhè)类(lèi)大(dà)模(mó)型(xíng)和(hé)行(xíng)业(yè)专(zhuān)业(yè)级(jí)的(de)小(xiǎo)模(mó)型(xíng)(SLM)，并(bìng)指(zhǐ)出(chū)就(jiù)工(gōng)业(yè)应(yīng)用(yòng)而(ér)言(yán)，SLM会(huì)更(gèng)省(shěng)成(chéng)本(běn)，更(gèng)具(jù)实(shí)用(yòng)价(jià)值(zhí)，并(bìng)且(qiě)更(gèng)少(shǎo)风(fēng)险(xiǎn)(如(rú)幻(huàn)觉(jué)等(děng))。此(cǐ)外(wài)，LLM的(de)一(yī)个(gè)趋(qū)势(shì)是(shì)其(qí)可(kě)定(dìng)制(zhì)化(huà)，即(jí)从(cóng)其(qí)产(chǎn)生(shēng)出(chū)定(dìng)制(zhì)的(de)专(zhuān)业(yè)SLM。但(dàn)我(wǒ)觉(jué)得(de)这(zhè)样(yàng)产(chǎn)生(shēng)的(de)模(mó)型(xíng)未(wèi)必(bì)完(wán)整(zhěng)和专业。直接创建专业SLM应该更专业完整。对于供应链行业的人工智能应用，希望创建如供应链一类的专业语言模型。Belcak 等人（NVIDIA Research）最新论文对SLM好处的科学论证震撼了我。该文的标题《小型语言模型是代理人工智能的未来》就指明了代理人工智能应用的一个正确方向。该文指出：“小型语言模型 (SLM)功能强大，本质上更适用，并且对于代理系统中的许多调用而言必然更经济，因此代表了代理人工智能的未来。我们的论证基于 SLM 所展现的当前能力水平、代理系统的通用架构以及 LM 部署的经济性。” 该文中还列举了案例，釆用障碍等，可供读者参考。为此全文编译如下，供读者学习参考。

摘要

大型语言模型 (LLM) 因其在各种任务上展现出接近人类的表现而备受赞誉，并因其进行一般对话的能力而备受推崇。然而，代理人工智能系统的兴起正催生出大量应用，在这些应用中，语言模型会重复执行少量专门的任务，且变化不大。

本文阐述了以下观点：小型语言模型 (SLM)功能强大，本质上更适用，并且对于代理系统中的许多调用而言必然更经济，因此代表了代理人工智能的未来。我们的论证基于 SLM 所展现的当前能力水平、代理系统的通用架构以及 LM 部署的经济性。我们进一步指出，在通用对话能力至关重要的情况下，异构代理系统（即调用多个不同模型的代理）是自然的选择。我们讨论了在代理系统中采用 SLM 的潜在障碍，并概述了一种通用的 LLM 到 SLM 代理转换算法。

我们的立场以价值声明的形式提出，强调了即使只是从 LLM 部分转向 SLM，也将对 AI 代理行业产生运营和经济影响的重要性。我们旨在激发关于如何有效利用 AI 资源的讨论，并希望推动降低当今 AI 成本的努力。我(wǒ)们(men)诚(chéng)邀(yāo)各(gè)方(fāng)对(duì)我(wǒ)们(men)的(de)立(lì)场(chǎng)提(tí)出(chū)贡(gòng)献(xiàn)和(hé)批(pī)评(píng)，并(bìng)承(chéng)诺(nuò)将(jiāng)所(suǒ)有(yǒu)此(cǐ)类(lèi)来(lái)信(xìn)发(fā)布在research.nvidia.com/labs/lpr/slm-agents上。

1.介绍

代理型人工智能的部署正在迅速增长。最近的调查显示，超过一半的大型IT企业正在积极使用人工智能代理，其中21%的企业在过去一年内就已采用【12】。除(chú)了(le)用(yòng)户(hù)之(zhī)外(wài)，市(shì)场(chǎng)也(yě)看(kàn)到(dào)了(le)人(rén)工(gōng)智(zhì)能(néng)代(dài)理(lǐ)的(de)巨(jù)大(dà)经(jīng)济(jì)价(jià)值(zhí)：截(jié)至(zhì) 2024 年(nián)底(dǐ)，代(dài)理(lǐ)人(rén)工(gōng)智(zhì)能(néng)领(lǐng)域的(de)初(chū)创(chuàng)资(zī)金(jīn)已(yǐ)超(chāo)过(guò) 20 亿(yì)美(měi)元(yuán)，估(gū)值(zhí)为(wèi) 52 亿(yì)美(měi)元(yuán)，预(yù)计(jì)到(dào) 2034 年(nián)将(jiāng)增(zēng)长(zhǎng)到(dào)近(jìn) 2000 亿美元【42，47】简而言之，人们越来越期待人工智能代理在现代经济中发挥重要作用。

大多数现代人工智能代理的核心组件是（非常）大型的语言模型【48，44】。正是 LLM 提供了基础智能，使代理能够做出战略决策，决定何时以及如何使用可用工具，控制完成任务所需的操作流程，并在必要时将复杂任务分解为可管理的子任务，并执行行动规划和解决问题的推理【48，14】。然后，典型的 AI 代理只需向托管这些模型的集中式云基础设施发出请求，即可与选定的 LLM API 端点进行通信【48】。

LLM API 端点专门设计用于使用一个通用的 LLM 来处理大量不同的请求。这种运营模式在行业中根深蒂固——事实上，它如此根深蒂固，以至于构成了大量资本押注的基础：尽管代理应用程序所依赖的 LLM API 服务市场规模在 2024 年估计为 56 亿美元【26】，同年对托管云基础设施的投资激增至 570 亿美元【72】投资与市场规模之间10倍的差距是可以接受的，因为人们认为这种运营模式将仍然是行业的基石，不会有任何实质性的改变，而且巨大的初始投资将在3-4年内带来与传统软件和互联网解决方案相当的回报【53】。

在本研究中，我们承认标准操作模型的主导地位，但口头上挑战了它的一个方面，即代理访问语言智能的请求——尽管相对简单——却通常由通才 LLM 的单一选择来处理。我们陈述（第2节）、论证（第3节）和辩护（第 4节）以下立场：小型而非大型语言模型是代理 AI 的未来。然而，我们认识到商业承诺和现在遗留的实践是造成目前相反状态的原因（第5节）。作为补救，我们提供了将代理应用程序从 LLM 迁移到 SLM 的转换算法大纲（第 6节），并呼吁进行更广泛的讨论（第7节）。如果需要具体化我们的立场，我们附上一组简短的案例研究，估计在选定的流行开源代理中 LLM 到 SLM 替换的潜在程度（附录 B）。

2.立场陈述

2.1 定义

为了具体化我们的立场，我们使用以下工作定义：

1. WD1：SLM是一种可以安装在常见消费电子设备上的 LM，它可以以足够低的延迟执行推理，以便在满足一个用户的代理请求时实用。

2. WD2：LLM是 LM，但不是SLM。

我们在附录 A中解释了这些定义的措辞，但请注意，它们的选择与我们立场的本质几乎没有关系。我们注意到，截至2025年，我们愿意将大多数参数规模低(dī)于(yú)100亿(yì)的(de)模(mó)型(xíng)视(shì)为(wèi)SLM。

我(wǒ)们(men)交(jiāo)替(tì)使(shǐ)用(yòng)“代(dài)理(lǐ)”和(hé)“代(dài)理(lǐ)系(xì)统(tǒng)”这(zhè)两(liǎng)个(gè)词。当(dāng)强(qiáng)调(diào)具(jù)有(yǒu)某(mǒu)种(zhǒng)代理性的软件整体时（例如，“正如流行的编码代理所见”），我们倾向于使用前者；当强调代理应用的系统性，即其各个组件的总和时（例如，“代理系统中并非所有语言模型 (LM) 都可以被语义语言模型 (SLM) 取代”）。为了简洁起见，我们专注于语言模型作为代理应用的基石，并未明确考虑视觉语言模型，但我们注意到，我们的立场和大多数论点也很容易扩展到视觉语言模型。

2.2 陈述

我们认为 SLM

1. V1 ：主要足够强大，可以处理代理应用程序的语言建模任务；

2. V2 ：本质上比 LLM更适合在代理系统中使用；

3. V3 ：由于体积较小，对于代理系统中的绝大多数 LM 用途而言，其必然比通用的 LLM更经济；

并且基于项目 V1、V2和 V3，SLM 是代理 AI 的未来。

我们立场的措辞是经过深思熟虑的。在声明中，我们希望传达这样的信息：如果遵循自然优先顺序，所描述的未来发展最终是SLM和LLM之间差异的必然结果。我们并非提出建议，亦非试图强加义务——我们发表的声明，我们认为这忠实地反映了社群在这种背景下的价值观。

2.3 细化

我们断言，LLM 在 AI 代理设计中的主导地位既过分，又与大多数代理用例的功能需求不符。虽然 LLM 提供了令人印象深刻的通用性和对话流畅性，但在已部署的代理系统中，大多数代理子任务都是重复性的、范围有限的、非对话式的——这就需要高效、可预测且成本低廉(lián)的(de)模(mó)型(xíng)。在(zài)这(zhè)种(zhǒng)情(qíng)况(kuàng)下(xià)，SLM 不(bù)仅(jǐn)能(néng)够(gòu)满(mǎn)足(zú)需(xū)求(qiú)，而(ér)且(qiě)通(tōng)常(cháng)更(gèng)受(shòu)欢(huan)迎(yíng)。它(tā)们(men)具(jù)有(yǒu)诸(zhū)多(duō)优(yōu)势(shì)：更(gèng)低(dī)的(de)延(yán)迟(chí)、更(gèng)低(dī)的(de)内(nèi)存(cún)和(hé)计(jì)算(suàn)需(xū)求(qiú)，以(yǐ)及(jí)显(xiǎn)著(zhe)降低的运营(yíng)成(chéng)本(běn)，同(tóng)时(shí)还(hái)能(néng)在(zài)受(shòu)限(xiàn)领(lǐng)域保(bǎo)持(chí)足(zú)够(gòu)的(de)任(rèn)务(wu)性(xìng)能(néng)。

我(wǒ)们(men)的(de)立(lì)场(chǎng)源(yuán)于(yú)对(duì)代(dài)理(lǐ)架(jià)构(gòu)中(zhōng)语(yǔ)言(yán)模(mó)型(xíng)使(shǐ)用(yòng)模(mó)式(shì)的(de)务(wu)实(shí)看(kàn)法(fǎ)。这(zhè)些(xiē)系(xì)统(tǒng)通(tōng)常(cháng)将(jiāng)复杂的目标分解为模块化的子任务，每个子任务都可以由专门的或经过微调的语言模型 (SLM) 可靠地处理。我们认为，坚持使用语言模型 (LLM) 来处理所有此类任务反映了计算资源的错配——这种错配在经济上低效，在环境上也不可持续。

此外，在需要通用推理或开放域对话的情况下，我们提倡使用异构代理系统。在这种系(xì)统(tǒng)中(zhōng)，默(mò)认(rèn)使(shǐ)用(yòng)状(zhuàng)态(tài)语(yǔ)言(yán)模(mó)型(xíng) (SLM)，并选择性且谨慎地调用逻辑语言模型 (LLM)。这种模块化组合——将状态语言模型的精确性和效率与逻辑语言模型的通用性相结合——能够构建既经济高效又功能强大的代理。

最终，我们观察到，将范式从以 LLM 为中心转变为以 SLM 为先的架构，对许多人来说不仅代表着技术上的改进，也代表着休谟式的道德应然。随着人工智能社区努力应对不断上升的基础设施成本和环境问题，在代理工作流程中采用并规范 SLM 的使用，对于促进负责任且可持续的人工智能部署至关重要。

3.立场论证

我们通过以下非排他性论据支持项目 V1、V2和 V3。

3.1 SLM已经足够强大，可用于代理

SLM 足够强大，足以取代代理系统中的 LLM。此论证支持了V1项。

过去几年，小型语言模型的能力取得了显著提升。尽管语言模型的缩放规律依然存在，但模型规模与能力之间的缩放曲线正变得越来越陡峭，这意味着新型小型语言模型的能力更接近之前的大型语言模型。事实上，最近的进展表明，精心设计的小型语言模型能够达到甚至超越此前只有更大型模型才能达到的任务性能。

下文引用的各项研究都与大型模型进行了广泛的比较，但并非所有基准测试所评估的能力对于它们在代理情境中的部署都至关重要。本文重点介绍了它们在常识推理（基本理解的指标）、工具调用和代码生成方面的能力（这两项指标都表明了它们在模型→工具/代码界面之间进行正确通信的能力；参见图 1【74，75】）。和指令遵循（能够通过代码←模型接口正确响应；【80】）。在每种情况下，如果作者提出，我们也会引用效率的提高。

微软 Phi 系列。Phi -2（2.7bn）在运行∼15×快点【34】，小型（70亿）【3】实现了与同代模型相当的语言理解和常识推理能力，代码生成分数高达 700 亿。
NVIDIA Nemotron-H 系列。2 /4.8/9bn 混合 Mamba-Transformer 模型实现了与同代密集 30bn LLM 相当的指令跟踪和代码生成精度，而推理 FLOP 仅为其数量级的几分之一【7】。
Huggingface SmolLM2 系列。SmolLM2系列紧凑型语言模型，参数规模从 1.25 亿到 17 亿不等【6】。在语言理解、工具调用和指令执行方面，每个人的表现都比 140 亿同时代人高，而与 2 年前的 700 亿个(gè)模(mó)型(xíng)相(xiāng)当(dāng)。
NVIDIA Hymba-1.5B。这(zhè)款(kuǎn) Mamba-attention 混(hùn)合(hé)头(tóu) SLM 展(zhǎn)现(xiàn)出(chū)最(zuì)佳(jiā)的(de)指(zhǐ)令(lìng)准(zhǔn)确(què)率(lǜ)和(hé) 3.5×比(bǐ)同等大小的 Transformer 模型【20】具有更高的令牌吞吐量在指令跟踪方面，它的表现优于更大的 130 亿模型。
DeepSeek-R1-Distill 系列。DeepSeek -R1-Distill 是一系列推理模型，规模在 1.5-80 亿之间，使用 DeepSeek-R1【16】生成的样本进行训练。它们展现出强大的常识推理能力。值得注意的是，DeepSeek-R1-Distill-Qwen-7B 模型的表现优于 Claude-3.5-Sonnet-1022 和GPT-4o-0513等大型专有模型。
DeepMind RETRO-7.5B：检索增强型 Transformer (RETRO) 是一个拥有 75 亿参数的模型，并配备了一个庞大的外部文本数据库，在语言建模方面实现了与 GPT-3 (175B) 相当的性能，同时使用的参数减少了 25 倍【8】。
Salesforce xLAM-2-8B。尽管规模相对较小，但这个 80 亿规模的模型在工具调用方面实现了最佳性能，超越了 GPT-4o 和 Claude 3.5 等前沿模型【78】。

值得注意的是，除了具有竞争力的现成性能之外，SLM 的推理能力还可以通过自洽性、验证者反馈或工具(jù)增(zēng)强(qiáng)在(zài)推(tuī)理(lǐ)时(shí)得(de)到(dào)增(zēng)强(qiáng)——例(lì)如(rú)，Toolformer（67 亿(yì)）通(tōng)过(guò)使(shǐ)用(yòng) API 优(yōu)于(yú) GPT-3（1750 亿(yì)）【61】。 10 亿(yì)至(zhì) 30 亿(yì)个(gè)模(mó)型(xíng)通(tōng)过(guò)结(jié)构(gòu)化(huà)推(tuī)理(lǐ)在(zài)数(shù)学(xué)问(wèn)题(tí)上(shàng)与(yǔ) 300 亿(yì)以(yǐ)上的 LLM 相媲美【81】。

总而言之，对于现代的训练、提示和代理增强技术而言，能力（而非参数数量）才是约束条件。SLM 现在已经能够为相当一部分代理调用提供足够的推理能力，这使得它们不仅切实可行，而且比 LLM 更适合构建模块化、可扩展的代理系统。

p202509/16/5poD9DvYwb.png

图1：具有不同代理模式的代理系统示意图。左图：语言模型代理。语言模型既充当人机交互 (HCI)，又充当执行任务的工具调用协调器。右图：代码代理。语言模型充当人机交互 (HCI) 的角色（可选），而专用的控制器代码负责协调所有交互。

3.2 在代理系统中，SLM更经济

在代理系统中，SLM 比 LLM 更经济。此论点支持第 V3条。

小型模型在成本效益、适应性和部署灵活性方面具有显著优势。这些优势在代理工作流中尤其重要，因为在代理工作流中，专业化和迭代改进至关重要。第3.1节详细介绍了所列的 SLM 与相关 LLM 的效率比较。这里，我们绘制了一幅更全面的图景来支持A2项。

推理效率：服务70 亿 SLM 需要10-30×比700 亿到1750 亿的 LLM 更便宜（在延迟、能耗和 FLOP 方面），可实现大规模的实时代理响应【66，64，33，49】。NVIDIA Dynamo 等推理操作系统的最新进展【21】明确支持云端和边缘部署中的高吞吐量、低延迟 SLM 推理。此外，由于 SLM 几乎不需要跨 GPU 和节点进行并行化，因此服务基础设施的维护和运营成本也更低（参见CA4和 A13 ）。
微调敏捷性：参数高效（例如，LoRA 【30】和 DoRA 【40】) 和 SLM 的全参数微调仅需要几 GPU 小时，允许在一夜之间而不是数周内添加、修复或专门化行为【66】。
边缘部署： ChatRTX【55】等设备上推理系统的进步展示在消费级 GPU 上 SLM 的本地执行，展示具有更低延迟和更强数据控制的实时、离线代理推理。
参数利用：起初，LLM 看起来像是一个整体，在其输出的生成过程中包含大量参数，这些参数代表着大量的压缩信息。然而，仔细观察就会发现，通过这些系统的大部分信号都是稀疏的，对于任何单个输入，它们只会用到一小部分参数【65，41】。这种行为在 SLMs【65，71】中似乎更为温和。这表明，由于 SLM 的参数中只有较小比例的参数对推理成本有贡献，且对输出没有明显影响，因此 SLM 可能从根本上更加高效。

模块化系统设计：【52】提出了支持复合代理系统的全面论证。本文指出，利用多个不同规模模型的方法与现实世界中代理任务的异构性非常契合，并且已经逐渐被纳入主流软件开发框架【25】。此外，在代理环境中新发现的模块化意识使得可以轻松添加新技能和适应不断变化的需求的能力，这与语言模型设计中对模块化的推动相一致【24，10，37】。

上述“类似乐高”的代理智能构成——通过添加小型专业专家而非扩大单体模型来实现横向扩展——能够构建出更经济、调试更快、更易于部署、并且更符合现实世界代理操作多样性的系统。当与工具调用、缓存和细粒度路由相结合时，SLM 优先架构似乎为经济高效、模块化且可持续的代理 AI 提供了最佳的发展路径。

3.3 SLM更加灵活

与LLM相比，SLM拥有更大的操作灵活性。这一论点支持了V2 和 V3。

由于规模较小，且预训练和微调成本相应降低（第3.2节），SLM 在应用于代理系统时本质上比大型模型更加灵活。因此，针对不同的代理例程训练、调整和部署多个专门的专家模型变得更加经济实惠且实用。这种高效性实现了快速迭代和调整，使其能够满足不断变化的用户需求，包括支持新的行为、满足新的输出格式要求以及遵守特定市场不断变化的本地法规【69，38，68】。

民主化：

当SLM的灵活性取代LLM时，一个尤其显著且理想的结果是随之而来的代理民主化。当更多个人和组织能够参与开发语言模型，并旨在部署到代理系统中时，代理的总体群体更有可能代表更多样化的观点和社会需求。这种多样性有助于降低系统性偏见的风险，并鼓励竞争和创新。随着越来越多的参与者进入该领域来创建和完善模型，该领域将更快地发展【35】。

3.4 代理仅公开非常狭窄的 LM 功能

代理应用程序是 LM 功能有限子集的接口。这支持V1和 V2项。

人工智能代理本质上是一个经过严格指导和外部编排的语言模型网关，具有人机界面和一系列工具，当正确使用时，可以做一些有用的事情【69】从这个角度来看，底层大型语言模型原(yuán)本(běn)被(bèi)设(shè)计(jì)成(chéng)一(yī)个强大的通才，但通过一系列冗长繁琐的提示和精心编排的上下文管理，却被限制在其庞大技能库的一小部分内运行。因此，我们认为，一个针对特定提示进行适当微调的语言语言模型 (SLM) 就足够了，同时还能兼具上述提高效率和灵活性的优势。

有人可能会反驳说，为了在特定任务上取得优异成绩，与通才型LLM谨慎对接是必要的，因为LLM对更广泛的语言和世界有更好的理解（AV1）。这将在第 4.1节中讨论。

3.5 代理交互需要紧密的行为协调

代理交互需要紧密的行为一致性。这与项目 V2一致。

典型的 AI 代理与代码有频繁的交互，无论是通过 LM 工具调用，还是通过返回由进行 LM 调用的代理代码解析的输出【48】。对于这些交互的成功至关重要的是，生成的工具调用和生成的输出必须符合工具参数的顺序、类型和性质以及调用语言模型的代码的期望对其施加的严格格式要求。在这种情况下，模型无需处理多种不同的格式（例如，工具调用使用 JSON/XML/Python，输出使用 XML/YAML/Markdown/Latex【50】），因为在代理应用中，为了保持一致性，只会选择一种方式。此外，模型偶尔出现幻觉错误，并且与代(dài)理(lǐ)系(xì)统(tǒng)“代(dài)码(mǎ)部(bù)分(fēn)”预(yù)期(qī)不(bù)同(tóng)的(de)格(gé)式(shì)进(jìn)行(xíng)响(xiǎng)应(yīng)，这(zhè)也(yě)是(shì)不(bù)可(kě)取(qǔ)的(de)。正(zhèng)因(yīn)为(wèi)如(rú)此(cǐ)，在(zài)人(rén)工智能代理的环境中，使用单一格式决策进行训练的 SLM，在其后期训练期间强制执行，或通过低成本的额外微调来鼓励，比通用的 LLM 更可取。

3.6 代理系统本质上是异质的

代理系统在选择所用模型时，自然允许存在异构性。这与V2条款一致。

语言模型本身可以是另一个语言模型调用的工具。同样，每次代理的代码调用语言模型时，原则上它可以选择任何语言模型。如图1 所示。我们认为，将不同大小和功能的多种语言模型结合起来，用于不同复杂程度的查询或操作，为引入 SLM 提供了一种自然的方式。在图 1 -左的上下文中，LLM 可用于具有根代理的模型，而 SLM 可用于下属 LM。在图 1 -右中，所有 LM 原则上都可以是专门的 SLM：一个用于对话性，另一个用于执行控制器定义的语言建模任务。

3.7 代理交互是收集数据以供未来改进的自然途径

代理交互是未来模型改进的良好数据来源。这从根本上支持了条目 V2。

如第3.4节所述，在代理过程中调用工具和语言模型通常伴随着仔细的提示，这些提示使语言模型专注于提供当时所需的狭窄功能。这些调用中的每一个本身都是未来改进的自然数据源（在必要假设没有处理不可保留的机密数据的情况下）。装饰工具/模型调用接口的监听器可以收集专门的指令数据，这些数据稍后可用于生成微调专家 SLM 并降低未来该调用的成本（参见图1中的记录器）。我们认为，这条途径是由代理的架构实现的【48】并生成高质量的有机数据（可以通过考虑工作流程的整体成功率进行进一步的后过滤），从而使生产专家 SLM 来代替 LLM 成为代理部署的自然一步，而不仅仅是辅助工作。

4.其他观点（辩护）

学术界和大众文学中表达了以下重要的替代观点。

4.1 LLM通才将始终拥有更通用的语言理解优势

1. AV1

设T为使用通用语言的单一任务，L和S分别为同代的大型和小型语言模型。L在T上的表现将始终优于S。

这种替代观点对第 V2条提出异议，并基于以下反驳：

1. CA1

大量的经验证据表明，大型语言模型在通用语言理解方面优于同代小型语言模型。LLM 的语言理解能力遵循缩放定律【15】。更大的规模使它们能够在一系列专门的自然语言任务中表现出更好的性能，包括文本生成、翻译和推理，优于（a）以相同的通用方式训练的小型模型和（b）专门为这些任务从头开始训练的小型模型【54】。那么可以说，否则就与 LM 缩放定律相矛盾【29，28】。

2. CA2

此外，最近的研究还声称 LLM 拥有一种“语义枢纽”机制，据推测，该机制使 LLM 能够以通用的方式整合和抽象来自各种模态和语言的语义信息【77】。如果真是这样，那么 LLM 可以被认为比小型模型更有效地跨语言和领域推广知识，而在同一项研究中，小型模型缺乏这种枢纽的存在能力【77】。因此可以说，虽然小型语言模型可能对于定义狭窄或高度专业化的任务有效，但由于缺乏内部化复杂抽象的空间，其有限的规模从根本上限制了它们在这些专业领域（如 LLM）中实现相同水平的通用语(yǔ)言(yán)理(lǐ)解(jiě)的(de)能(néng)力(lì)。

由(yóu)此(cǐ)可(kě)以(yǐ)得(de)出(chū)结(jié)论(lùn)：无(wú)论(lùn)定(dìng)义(yì)多(duō)么(me)狭(xiá)窄(zhǎi)，LLM 通(tōng)才(cái)模(mó)型(xíng)在(zài)语(yǔ)言(yán)任(rèn)务(wu)上(shàng)始(shǐ)终(zhōng)保(bǎo)持(chí)着(zhe)优(yōu)于(yú)同(tóng)代(dài)小(xiǎo)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)的(de)普(pǔ)遍(biàn)优(yōu)势(shì)。这(zhè)使(shǐ)其(qí)在(zài)代(dài)理(lǐ)应(yīng)用(yòng)中(zhōng)优(yōu)于(yú) SLM。

反(fǎn)驳(bó)。

上(shàng)述(shù)替(tì)代(dài)观(guān)点(diǎn)是(shì)反(fǎn)对(duì)使(shǐ)用(yòng) SLM 的(de)最(zuì)普(pǔ)遍(biàn)的(de)观(guān)点(diǎn)，即(jí)使(shǐ)只(zhǐ)需(xū)要(yào)执(zhí)行(xíng)狭(xiá)窄(zhǎi)的(de)语(yǔ)言(yán)任(rèn)务(wu)【2，67，27，1】。

我(wǒ)们(men)认(rèn)为(wèi)项(xiàng)目(mù) CA1太(tài)有(yǒu)限(xiàn)，无(wú)法(fǎ)攻(gōng)击(jī)项(xiàng)目(mù) V2，即(jí)因(yīn)为(wèi)

1. A8

流(liú)行(xíng)的(de)缩(suō)放(fàng)定(dìng)律(lǜ)研(yán)究(jiū)假(jiǎ)设(shè)模(mó)型(xíng)架(jià)构(gòu)在(zài)同(tóng)一(yī)代(dài)中(zhōng)保(bǎo)持(chí)不(bù)变(biàn)【29，28】，而(ér)最(zuì)近(jìn)关于(yú)小(xiǎo)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)训(xun)练(liàn)的(de)研(yán)究(jiū)表(biǎo)明(míng)，针(zhēn)对(duì)不(bù)同(tóng)模(mó)型(xíng)大(dà)小(xiǎo)考(kǎo)虑(lǜ)不(bù)同(tóng)的(de)架(jià)构(gòu)具(jù)有明显的性能优势【20，7】。

2. A9

小型语言模型（第3.3节）的灵活性可以解决这个问题。小型语言模型可以轻松地针对任务进行微调𝒯AV1 题达到预期信度水平。这在缩放定律研究中尚未得到解释。

3. A10

推理（或者更广泛地说，测试时计算扩展；参见3.2节）的成本显著降低。小型语言模型在保留其跨设备敏捷性优势的同时，可以合理地预期其在推理时能够扩展至所需的可靠性水平。

我们还认为CA2道具太过神秘，无法攻击V2道具，因为

1. A11

当语言模型需要处理的任务或输入很复杂时，所谓的“语义中枢”的效用就会显现出来。然而，先进的代理系统要么是整体设计的，要么至少是主动地被引导去分解复杂的问题和输入[48,14]。因此，我们持相反的观点，即在代理系统中调用小型语言模型将被适当地分解为非常简单的子任务，以至于由于中心而产生的任何一般抽象理解都没有多大用处。

4.2 由(yóu)于(yú)LLM推(tuī)理(lǐ)的(de)集中(zhōng)化(huà)，其(qí)成(chéng)本(běn)仍(réng)然(rán)较(jiào)低(dī)

1. AV2

代理应用中专用 SLM 的小型化所带来的每个令牌推理成本效益与规模经济相比相形见绌。

可以说，A2项中支持V3项的分析忽视了 AI 模型部署的更广泛业务：

1. CA3

与通用 LLM 端点相比，充分利用和适当平衡专家 SLM 推理端点的负载更加困难[66,22]。

2. CA4

推理基础设施的搭建成本以及人才的招聘和维护成本在推理成本计算中通常会被忽略，但如果（服务）语言模型的部署由代理服务开发者负责，则这些成本会更加突出。早期的行业报告指出，这些操作会产生相当高的成本[36,11,63]。

致谢。我们承认条款 AV2 的观点合理，但具体的经济考量将视具体情况而定。我们认为，关于条款 AV2 的最终裁决尚无定论，但有多个因素暗示条款 V3可能胜出：

1. A12

推理调度和大型推理系统模块化方面的最新改进为单片计算集群提供了前所未有的推理系统灵活性【82，56，46】，与CA3项中表达的传统立场相反。

2. A13

对推理基础设施设置成本的最新分析表明，由于潜在的技术原因，其成本呈持续下降趋势【79，4】。

4.3 同等可能的世界

1. AV3

利用 SLM 的代理世界和利用 LLM 的代理世界都是同样可能的世界，但“LLM 代理世界”在部署实践和优化方面具有相当大的领先优势，行业惯性已经将努力集中到这个方向的创新中。

致谢。我们承认AV3项具有明显的可能性，但我们坚持认为(wèi)， A1、A2、A3、A4、A5、A6和(hé) A7项(xiàng) 中(zhōng)所(suǒ)描(miáo)述(shù)的(de)优(yōu)势(shì)权(quán)重(zhòng)可(kě)能(néng)会(huì)推(tuī)翻(fān)当(dāng)前(qián)事(shì)态(tài)。

5.采用(yòng)障(zhàng)碍(ài)

我们不妨问问自己：如果A1、A2、A3、A4、A5、A6和 A7这几个项目确实引人注目，为什么新一代的代理人似乎只是延续使用通才LLM的现状？

我们认为，以下是目前广泛采用 SLM 的主要障碍：

1. B1

对中心化 LLM 推理基础设施的大量前期投资。如第一节所述，大量资本押注于中心化 LLM 推理将成为未来AI服务的主要范式。因此，业界在构建相关工具和基础设施方面速度更快，而忽略了在不久的将来，更去中心化的 SLM 或设备端推理也可能同样可行。

2. B2

在 SLM 的训练、设计和评估中使用通用基准。必须指出的是，SLM 设计和开发的大部分工作都遵循 LLM 设计的轨迹，在开发过程中重点关注相同的通用基准【43，57】。关于这一点，【20】指出，如果只关注衡量代理的代理效用的基准，所研究的 SLM 很容易胜过更大的模型。

3. B3

缺乏大众认知。尽管SLM在许多工业场景中更适用，但它们通常没有像LLM那样获得的市场营销力度和媒体关注。

我们注意到，B1、B2和 B3项是实际操作中的障碍，远非 SLM 技术在代理 AI 环境下(xià)的(de)根(gēn)本(běn)缺(quē)陷(xiàn)。借(jiè)助(zhù) Dynamo【21】等(děng)先(xiān)进(jìn)的(de)推(tuī)理(lǐ)调(diào)度(dù)系(xì)统(tǒng)，项(xiàng)目(mù) B1正(zhèng)在(zài)被(bèi)简(jiǎn)化(huà)为(wèi)仅(jǐn)仅(jǐn)是(shì)惯(guàn)性(xìng)效(xiào)应(yīng)。项目 B2在该领域越来越受到认可【20，34】，一旦SLM在代理应用中（ A2项）的经济效益得到更广泛的认识， B3项的落空也就自然而然了。尤其考虑到B1项的惯性，我们不会试图为这些障碍的消退或SLM的普及提供时间表。

6.LLM到SLM代理转换算法

代理应用程序的本质决定了它们最终能够在诸多接口上从使用 LLM 通用型模型切换到使用 SLM 专家型模型。在以下步骤中，我们将概述一种算法，该算法描述了一种轻松(sōng)实(shí)现(xiàn)底(dǐ)层(céng)模(mó)型(xíng)更(gèng)改(gǎi)的(de)可(kě)能(néng)方(fāng)法(fǎ)。

1. S1

安(ān)全的(de)使(shǐ)用(yòng)数(shù)据(jù)收(shōu)集。第(dì)一(yī)步(bù)是(shì)部(bù)署(shǔ)工具来记录所有非 HCI 代理调用，捕获输入提示、输出响应、各个工具调用的内容以及可选的延迟指标，以便后续进行有针对性的优化。在实施方面，建议设置基于角色的访问控制的加密日志记录管道【51】并在存储之前对所有数据的来源进行匿名化处理【70】。请参阅图1中的记录器以获取说明。

2. S2

数据整理和筛选。开始通过S1项的流程收集数据。一旦收集到足够多的数据（根据经验，1 万到 10 万个样本足以对小型模型进行微调【5，19】），有必要删除任何 PII、PHI 或任何其他特定于应用程序的敏感数据，这些数据可能会导致曾经用于生成 SLM 专家的用户帐户数据泄露。许多典型的敏感数据类型都可以使用流行的自动化数据集准备工具来检测、屏蔽或删除【60，58】。特定于应用程序的输入（例如法律或内部文件）通常可以自动解释，以混淆命名实体和数字细节，而不会损害一般信息内容【9，76，73】。

3. S3

任务聚类。对收集到的提示和代理操作采用无监督聚类技术，以识别重复出现的请求模式或内部代理操作【32，39，18】。这些集群有助于定义 SLM 专业化的候选任务。任务的粒度取决于操作的多样性；常见示例包括意图识别、数据提取、特定文档类型的摘要或根据代理可用工具生成代码。

4. S4

SLM 选(xuǎn)择(zé)。针对每个已确定的任务，选择一个或多个候选 SLM。选择(zé)标(biāo)准(zhǔn)包(bāo)括(kuò) SLM 的(de)固(gù)有(yǒu)能(néng)力(lì)（例(lì)如(rú)，指(zhǐ)令(lìng)跟(gēn)踪(zōng)、推(tuī)理(lǐ)、上(shàng)下(xià)文窗(chuāng)口(kǒu)大(dà)小(xiǎo)）、其(qí)在(zài)特(tè)定(dìng)任(rèn)务(wu)类(lèi)型(xíng)相(xiāng)关基(jī)准(zhǔn)测(cè)试(shì)中(zhōng)的(de)表现、其许可证以及其部署占用空间（内存、计算需求）。第 3.2节中的模型可以作为良好的初始候选。

5. S5

专用 SLM 微调。针对每个选定的任务和相应的 SLM 候选模型，根据S2和 S3中收集的精选数据准备一个特定于任务的数据集。然后，在这些专用数据集上对选定的SLM进行微调。PEFT 技术，例如 LoRA【31】或 QLoRA【17】可以利用这些优势来降低微调相关的计算成本和内存需求，使整个过程更易于理解。如果资源允许且需要最大程度的自适应，也可以考虑进行全面微调。在某些情况下，使用知识蒸馏可能会有所帮助，即训练专家级语义语言模型 (SLM) 来模拟更强大的通用级语义语言模型 (LLM) 在特定任务数据集上的输出。这有助于将 LLM 的一些更精细的功能迁移到 SLM。

6. S6

迭代和改进。可以定期使用新数据重新训练 SLM 和路由器模型，以保持性能并适应不断变化的使用模式。这形成了一个持续改进的循环，并根据情况返回到项目 S2或项目 S4。

7.征求讨论

代理人工智能行业显示出对白领工作及其他领域产生变革性影响的迹象。

作者认为，任何费用的节省或人工智能基础设施可持续性的改善都将成为这种转变的催化剂，因此探索所有这样做的选择是极其可取的。

因(yīn)此(cǐ)，我(wǒ)们(men)呼(hū)吁(xū)对(duì)我(wǒ)们(men)的(de)立(lì)场(chǎng)提(tí)出(chū)意(yì)见(jiàn)和(hé)批(pī)评(píng)，请(qǐng)发送邮件至agents@nvidia.com，并承诺将所有此类信件发布在research.nvidia.com/labs/lpr/slm-agents上。

编后注

本文省略了原文的参考文献表及附录，有兴趣的读者可参看厡文。此外该论文某些表达比较抽象，但对于从事代理人工智能(尽管它也包含单任务的代理，但通常是指能自主完成复杂任务的多代理AI系统)的工作者来说仍不愧为一份好高参。对于正在考虑建设代理人工智能的企业/组织来说，根据本文的建议，代理人工智能系统不排除使用LLM，但应”将范式从以 LLM 为中心转变为以 SLM 为先的架构”。因此，资本/企业/组织要加强SLM的投资和研究。以构建供应链代理人工智能系统为例，需要创建有关的行业SLM(或者说AI的专家模型)，例如供应链的专业SLM(如供应链管理LM，更细一点，如SCPLM，SCELM，釆购LM，物流LM等)。这是本文对我们最大的启发。