
作者来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特大学。第一作者汉·廷克斯(Han Tingxu)和合伙人王·齐特(Wang Zhent)分别是南京大学和罗格斯大学的博士生。他的研究重点是对模型以及安全且负责任的人工智能的重大推断。相应的作者是南京大学的Hwang Chunlong教授。大型语言建模技术(LLM)的持续开发提出了推理改进方法,例如思维链(COT),以改善复杂任务中的模型性能,例如解决数学问题以及逻辑问题和答案。通过指导模型逐渐思考,该模型的精度有效地提高了。但是,这种类型的方法也引起了新的挑战。 D The Generation Dthe Models的中间推理过程延长,生成许多冗余令牌,SI精致地增加了计算成本和推理阶段资源的消耗。在越来越多地朝着LLM实施实施的情况下,如何控制成本的同时保证推论能力已成为限制大型应用程序的核心问题。为了解决这一矛盾,来自南京大学,罗格大学和马萨诸塞大学的一个研究团队最近提出了基于代币的预算认可的LLM推理框架的新叙述,并显着压缩了结果的长度并减少了计算的时间,同时可以保证优势的精确度。历史的核心概念是在推理过程中引入“代币预算”限制机制,这导致该模型在有限的代币预算范围内完成了一个无效的Rencia。这种机制不仅提高了模型对资源局限的适应性,但也有助于它产生更简洁有效的推理路线。该结果最近被接受为ACL 2025调查,即自然语言处理的主要会议。文档标题:Token-预算 - 推理地址LLM地址:https://arxiv.org/pdf/2412.18547github:https://github.com/geniushtx/ gpt -4o and yi系列。但是,研究人员说,模型的中间推理过程通常很长,而且迭代性,并且产出令牌的数量呈指数增加,并发现它导致了大量计算和经济成本。特别是,在资源对有限优势的推断时,如何在执行任务的情况下,必须紧急解决“精度”和“资源效率”成为重要的问题(例如,教育响应,财务咨询,代码理解等)。本工作指南或培训模型的研究人员遵守推理过程g以任务的精度,达到推理和绩效效率之间的最佳承诺。研究人员首先探索该模型不断减少有关代币预算。在系统的实验中,观察到链的压缩和一般现象限制了令牌的思想 - 令牌的弹性(令牌的弹性)。这意味着,如果通知中令牌的预算限制太小,则该模型不仅难以满足预算,而且还可以消耗更多的令牌,这可能会导致总成本增加。 “压缩失败”的这种现象表明,在预算限制下,当前LLM的推理行为具有特定的不稳定性和非线性响应。为了实现这一目标,研究人员提出了一个基于识别o的叙述框架(推断LLM推断)框架快速工程:EP(估算和警告)和Tale-pt(训练后)(训练后)f培训后内部的令牌预算。理性令牌需要torqueto每个特定问题,并以一种方式将模型衍生在推理过程中的输入过程中,从而在不超过预算的情况下生成推理过程中的预算信息。此方法允许通过快速工程来动态控制令牌生成,而无需更改模型参数。实验结果表明,音调的EP显着降低了在多组数学推理数据中的代币使用,平均推断超负荷超过60%。与传统的婴儿床方法相比,节省并保持可比的精度或更好。基于对内部化令牌预算的识别(训练后) - PT-PT-PT-PT在模型推断通过监视调整(SFT)或Prioriatiad(DPO)中内部识别令牌预算的识别。 Tale-pt首先使用搜索算法要找到每个问题的最佳令牌预算,然后使用预算来生成复杂的推理路线,例如“客观结果”,这导致产生积极的结果,这些结果与未来推断中的预算限制保持一致。实验结果表明,如果是在使用SFT或DPO方法训练后,Tale-PP可以减少超过40%以上的平均推断所需的令牌数量,而推断的精度得以维持。结论本研究的重点是大型语言模型,以及在管理过程中代币的冗余主题提出了Tales框架,即未来的解决方案。引入“对令牌的预算认可”在推理的精度和一代效率之间取得了有效的平衡。值得一提的是,本文中提出的代币预算想法已经开始在行业中做出回应。最近推出的型号,包括Qwen3和Claude 3.7,还引入了类似的预算控制机制(如图7和8所示),以优化推理效率和产出质量。实验结果表明,叙述在多组常规数据和模型中表现出显着的压缩效果和良好的兼容性,进一步扩大了资源有限的场景中大型语言模型的应用限制。将来,预计该框架将被提升为更多类型的任务和多模式场景,并促进大型模型的推断,以便它们更可控制,高效和实用。