K8凯发中国官方网站诺基亚贝尔实验室与巴黎理工学院联手破解AI"格式桎梏"

发布日期：2026-06-04 12:38 来源：未知作者：admin 浏览次数：

这项由诺基亚贝尔实验室（Nokia Bell Labs）与法国巴黎理工学院旗下的巴黎电信学院（Télécom Paris， Institut Polytechnique de Paris）吞并开展的接头，以预印本样式发布于2026年5月，论文编号为arXiv:2601.07525v2，有风趣真切探究的读者可通过该编号检索好意思满原文。

**当AI被"格式紧箍咒"不休了想维**

你有莫得碰到过这么的情况：本分要求你写一篇作文，必须严格按照"起首-分论点一-分论点二-论断"的格式来，遣散你发现我方花了无数元气心灵探求格式，反而把该说的趣味没阐明晰？大讲话模子（也便是咱们平时所说的AI对话系统，比如ChatGPT这类器具）正面对着绝对一样的逆境。

这个逆境的根源在于，AI系统被要求同期完成两件事：一是好好想考问题，二是把谜底装进法例的格式盒子里。格式盒子越严格，想维空间就越受限。这项接头的中枢问题恰是：能不行让AI先把想维过程绝对放开，等想明晰了再套上格式外套？

接头团队给出的谜底是一个名为"In-Writing"的新框架。这个框架就像给AI瞎想了一套"先草稿后定稿"的职责经由，让它在想考阶段绝对解放施展，唯有在准备输出最终谜底时才启动格式敛迹机制。实验遣散标明，这种作念法在多项任务上的准确率最高可以比原有方法接济27%。

**一、AI回复问题为什么需要"格式"这件事？**

在知道这项接头之前，需要先搞明晰一个布景问题：AI为什么要在乎格式？

当咱们在职责或生涯中使用AI器具时，许多时间并不是豪爽聊聊天，而是需要AI输出结构化的内容。比如，病院系统需要AI给出圭表化的会诊代码，财务软件需要AI输出固定格式的数据，开发者器具需要AI生成妥贴特定语法例范的代码。这些场景的共同特色是：输出必须"合规"，不行有少量倾斜，不然后续系统根底无法处理。

用一个更直不雅的比方来说，这就像餐厅的后厨系统和前台点单系统之间的对接。主顾可能用多样方式说"我要一份宫保鸡丁，少辣"，但后厨收到的指示必须是圭表化的代码格式，比如"item_code: 0031， spice_level: 1"。如果AI输出的谜底像主顾点单一样减轻，后台系统根底不知谈该怎么处理。

正因如斯，接头东谈主员遥远悉力于让AI输出愈加范例、可判辨的内容。现在主流的方法大要分为三种路子，而这三种路子各自齐有昭彰的弱势，这也恰是本接头的起点。

**二、三条老路各有各的坑**

第一条路叫作念"当然生成"（Natural Generation），顾名想义，便是让AI像聊天一样减轻回复，不施加任何格式松手。这种方式的优点是AI的想维绝对解放，能充分伸开推理过程，推理质料每每格外可以。但缺陷也很昭彰：AI巧合间会把谜底藏在一大段翰墨中间，需要额外瞎想按序去"挖"出来，况且挖出来的遣散不一定准确。更热切的是，输出格式无法保证，关于需要结构化输出的工业场景简直莫得实用价值。

第二条路叫作念"硬敛迹解码"（Constrained Decoding），这是接头界为了处治格式问题而开发的本事。它的职责旨趣雷同于给AI戴上一副特殊的"滤镜"——在AI每生成一个词之前，系统会查验这个词是否妥贴事先设定的格式范例，如果不妥贴就径直屏蔽掉，将就AI只可选拔"正当"的词语。从格式保证的角度来说，这种方法相当可靠，输出的内容百分之百妥贴范例。但问题在于，这副"滤镜"同期也松手了AI的想维。接头发现，这种方法会让AI在推理阶段就受到敛迹，导致一些在普通情况下绝对正确的推理旅途被强行割断，最终遣散反而变差了。用打比方的方式说，这就像你在解数学题时，本分法例你只可使用"加法"和"减法"，是以你不得不毁灭更简陋的乘法解法，绕了一大圈才得到谜底，巧合间以致绕不追想。

第三条路叫作念"两阶段支援"（NL-to-Format），算是前两种方法的折中。具体作念法是先让一个AI用当然讲话给出好意思满的推理和谜底，然后再用另一个（时常更大、更贵的）AI把这个当然讲话谜底支援成需要的格式。这种方法在一定进度上兼顾了推理质料和格式范例，但代价是需要调用两次AI，老本翻倍，况且支援过程自己也可能出错，独特是在需要输出复杂多字段格式时，支援质料很不知道。更要命的是，如果第二个AI解读第一个AI的输出时出了舛误，最终谜底就会跑偏，而你以致不知谈问题出在哪一步。

还有一种叫作念CRANE的方法，它试图在推理过程中往来切换"解放模式"和"敛迹模式"，用特殊的分隔象征来分离哪些部分是AI在解放推理，哪些部分需要受到格式敛迹。固然这个想路有一定创意，但扩充起来格外复杂，况且切换的时机很难把控，试验遵守也受到了接头团队的质疑。

**三、"先打草稿，再誊正"的In-Writing框架**

面对这三条老路的多样弱势，接头团队提议了In-Writing。其核神色念可以用书道练习来知道：先在厕纸上减轻挥洒，把扫数见识齐纪录下来，比及想路绝对澄清之后，再拿出正经的格式纸，工机密整地誊写最终谜底。

具体的本事已毕方式是这么的：AI在回复问题时，率先参预"解放推理阶段"，这个阶段绝对莫得任何格式敛迹，AI可以用任何它以为合适的方式想考和抒发。当AI认为我方仍是想明晰了，它会输出一个特定的"触发词"（trigger token）。这个触发词就像是草稿纸上写下"定稿如下"四个字，标志着推理阶段的收尾和格式化输出阶段的运转。从触发词出现的那一刻起，系统才会启动格式敛迹机制，确保接下来的最终谜底绝对妥贴预定例范。

接头团队在原论文顶用了一个颇为逼真实类比：这种方法雷同于图像处理领域的"开荒画图"本事（inpainting），便是只对图像的特定区域进行处理，而不窜改其他部分。In-Writing相似只对"最终谜底输出"这个特定区域施加格式敛迹，让推理过程保捏好意思满息争放。

从数学角度来知道（别挂念，这里仅仅匡助知道，不需要的确作念缠绵），传统的敛迹解码会让格式要求影响到通盘推理过程，导致许多合理的推理旅途被提前湮灭。而In-Writing通过将推理阶段和格式化阶段绝对分离，使得推理过程绝对不受格式条目的抑制，唯有最终的谜底输出才需要甘心格式要求。这种分离带来的克己是双重的：推理质料不会因为格式敛迹而下跌，同期最终输出又能保证百分之百的格式合规性。

**四、触发词的选拔大有认真——"早醒"的喧阗**

接头团队在瞎想In-Writing时碰到了一个辣手的问题，他们将其称为"过早触发"（premature triggering）。

回到书道的比方：如果你在草稿纸上写了一半，一会儿以为我方仍是写好了，就匆忙切换到正经格式纸运转誊写，遣披发现还有许多内容没想明晰，这时间再想且归补充草稿就珍惜了。In-Writing面对的是雷同的问题——如果触发词选拔不当，AI可能在还没推理完的时间就误以为"该输出谜底了"，从而过早启动格式敛迹，把后续的推理过程也强行套进格式里，反而破裂了推理质料。

接头团队测试了两种触发词计谋。第一种叫作念"In-Writing-Base"，使用了两个触发词：一个是"句子收尾符"（``，即AI认为一段话仍是说完的信号），另一个是大括号"{"（JSON格式的运转象征，因为接头团队选拔用JSON这种结构化格式来包装最终谜底）。问题在于，AI在推理过程中可能随时产生大括号这个象征，比如在形容一个集会或者例如时，这就会不测触发格式敛迹，截断正在进行的推理。

第二种叫作念"In-Writing*"，只使用一个触发词，便是"句子收尾符"``。这个选拔的逻辑很浅显：``唯有在AI的确认为整段输出仍是完成时才会出现，它不会在推理半途减轻出现。因此，用``四肢唯独触发词，可以确保AI在绝对解放地推理收场并当然收尾之后，才运转格式化输出。实验遣散标明，这个浅显的诊疗简直绝对放手了过早触发的问题，独特是在需要复杂数学推理的任务上，In-Writing-Base可能因为过早触发而耗费突出30%的准确率，而In-Writing*则能知道保捏最优性能。

**五、实验瞎想：公正竞技场上的全面考试**

为了考证In-Writing的遵守，接头团队搭建了一个相当全面的测试体系，况且极端瞎想了一个对我方不利的条目，以此来阐明方法的鲁棒性。

在模子选拔上，团队测试了18个来自五个不同系列的开源讲话模子，参数领域从15亿到140亿不等，涵盖了Qwen（通义千问系列）、Llama、Gemma、DeepSeek以及SmolLM这些在业界平方使用的模子家眷。扫数测试齐在NVIDIA A40显卡上腹地运行，而非依赖生意API就业。

在测试任务上，K8凯发官方网站团队选拔了两大类共七个数据集。推理类任务包括：需要多步数学推理的小学数学题库（GSM8K）、将数字替换为变量以测试代数泛化才调的象征变体（GSM-Symbolic）、将单词终末一个字母拼接起来的字母衔尾任务（Last Letter Concatenation），以及掂量物品在一系列交换操作后位置的打乱物品任务（Shuffled Objects）。分类类任务包括：49类医学会诊数据集（DDXPlus）、5类金融文分内类（MultiFin）、体育相干句子的的确性判断（Sports Understanding），以及对格式相当敏锐的刻板印象多选题（NI-Task 280）。

独特值得眷注的是，接头团队在实验瞎想上有一个主动"铩羽"：他们沿用了之前其他接头团队的教唆词模板，而这些模板绝对莫得为In-Writing的输出格式提供任何勾引。换句话说，AI在推理完之后，绝对靠格式敛迹机制自动输出结构化谜底，而不是因为教唆词中仍是告诉它"请用JSON格式输出谜底"。这种瞎想使得测试条目对In-Writing相对不利，但遣散标明，即便在这种不利条目下，In-Writing依然推崇优异。

**六、数字背后的故事：实验遣散阐明了什么**

实验遣散揭示了几个相当有趣味的风光，每一个齐值得细细试吃。

第一个风光是"索要方式决定成败"。接头团队发现，在使用调换教唆词的情况下，当然生成（NL）、两阶段支援（NL-to-Format）和In-Writing*这三种方法试验上产生了绝对调换的推理过程，区别只在于终末一步如何从推理遣散中索要谜底。也便是说，AI预料的内容是一样的，但不同的"索要器具"带来了迥然相异的准确率。In-Writing*的结构化敛迹索要方式比用另一个大模子来解读的方式更准确，最高可以多索要出27%的正确谜底。这个发现相当热切，因为它标明在很厚情况下，准确率的互异并不来自AI的推理才调，而来自终末的谜底索要格式。

第二个风光是"大模子解读也会出错"。两阶段支援方法依赖一个更大的AI来解读第一个AI的输出，表面上应该很可靠。但实验中发现，解读模子巧合间会犯很奇怪的作假。在DDXPlus医学会诊任务上，解读模子巧合间会在正确谜底前边加上一大段解释性翰墨，比如"妥贴给定灵验会诊列表的最终谜底是……"然后才给出会诊称号，导致后续按序无法正确匹配谜底。更令东谈主担忧的是，在字母衔尾任务中，解读模子巧合间会"修订"第一个AI的输出——比如第一个AI在字母之间加了无须要的连字符，解读模子把这些连字符去掉了，巧合间这么的"修订"反而把作假谜底变成了正确谜底。这意味着两阶段方法巧合间不是在"索要"谜底，而是在"修改"谜底，这骨子上是一种不透明的操作，让东谈主无法信任最终遣散的来源。

第三个风光是"格式敛迹不是银弹"。接头团队通过详备分析发现，In-Writing固然推崇出色，但并非绰有余裕。在GSM8K数学题中，存在一些案例，AI在解放推理阶段得出的翰墨谜底是"52500好意思元"，但最终的格式化输出却只写了"52"。这阐明格式敛迹机制在将推理遣散"翻译"成结构化输出时，巧合间会截断或扭曲原始推理，这是改日需要不时翻新的标的。

在与CRANE方法的对比上，数字互异愈加权贵。以Llama 3.1-8B模子为例，CRANE在GSM-Symbolic任务上的准确率是33%，而In-Writing*达到了59%，差距高达26个百分点。接头团队还独专指出，这种差距与另一项独处接头的发现高度吻合：从GSM8K到GSM-Symbolic，同等才调的模子时常只会下跌约10%的准确率。CRANE框架导致了远超这个正常水平的性能下跌，阐明它的语法敛迹确乎对推理过程酿成了实质性伤害，而In-Writing*的下跌幅度则保管在正常范围内。

**七、判辨才调与遵守：两个谢却冷落的维度**

除了准确率除外，接头团队还从两个额外维度对比了多样方法的推崇：格式合规率（parsability）和词汇铺张遵守。

在格式合规率方面，In-Writing*在扫数测试场景中齐达到了100%的格式合规率。比拟之下，当然生成方法的格式合规率因模子大小和任务类型而互异悬殊，有些情况下以致不及40%。两阶段支援方法固然接济了格式合规率，但仍然无法保证100%，况且解读阶段使用的教唆词和模子对遣散影响极大，知道性较差。硬敛迹解码方法也能达到较高的格式合规率，但会影响推理质料，这是一个两难逆境。

在词汇铺张遵守方面，遣散格外令东谈主舒坦。In-Writing*比当然生成方法多铺张的词汇量相当有限，时常只多出5到20个词（这些额外词汇主如若JSON格式所需的括号、引号等结构性象征）。比拟之下，两阶段支援方法固然在面前测试中只多铺张了2到5个词，但这仅仅因为测试中的解读任务相对浅显；当需要索要的是复杂的多字段结构化输出时，第二个AI需要铺张的词汇量会急剧增多，况且这第二次推理自己便是一笔不小的缠绵支出。

还有一个细节值得眷注：接头团队在复核前东谈主数据时，发现了一些实验瞎想上的问题。比如，在打乱物品任务的教唆词模板中，有两个变体明明列出了七个选项（A到G），却在指示中作假地写谈"请从以下四个选项中选拔"。另外，少样本示例中有几个题目（比如"挪威男东谈主很败兴"的谜底果然是"种族"）和方针任务毫无关联，这些问题齐可能影响对比遣散的可靠性。这些发现提醒读者，在看待任何AI性能对比数据时，齐需要眷注实验瞎想自己的严谨性。

**八、重复分析：谁能弥补谁的不及？**

接头团队还作念了一项很有价值的"交叉分析"：在调换推理过程的基础上，In-Writing*和两阶段支援方法分别在哪些题目上收效，哪些上失败，两者的收效与失败是否重复？

以字母衔尾任务为例，SmolLM3-3B模子的分析遣散清晰：有53.5%的题目两种方法齐作念对了，有34%的题目两种方法齐作念错了，有0.7%的题目唯有两阶段支援作念对了，而In-Writing*作念错了，但有高达11.8%的题目唯有In-Writing*作念对了，而两阶段支援却失败了。这个散布阐明，In-Writing*简略弥补两阶段支援大部分的失败案例，而两阶段支援能弥补的In-Writing*失败案例却很少。

这种不对称性的来源是两种方法的根底互异：In-Writing*的格式敛迹机制除了索要谜底除外，还能对谜底进行隐性的"纠错"——如果AI在推理中输出了格式不对规的内容（比如在字母之间加了迷漫的空格），格式敛迹会在输出最终谜底时自动过滤掉这些作假，将正确的内容以范例格式呈现出来。这是一种免费附赠的纠错功能，而两阶段支援方法除非解读模子赶巧能识别并修正这类作假，不然无法赢得这个上风。

**局限性不秘籍：接头团队的坦诚**

接头团队在论文中明确承认了In-Writing面前版块的主要不及：通盘接头过程中，他们莫得对教唆词进行任何专门针对In-Writing的优化。测试中使用的扫数教唆词齐是为当然生成或两阶段支援方法瞎想的，内部时常包含雷同"请在终末用'answer is:'前缀给出谜底"这么的指引，这对In-Writing来说绝对莫得用。更进一步，跟着少样本示例数目的增多，AI会越来越倾向于严格顺从"answer is:"这个格式，反而在某些情况下裁汰了In-Writing和两阶段支援方法的索要准确率，因为AI给出的谜底格式越来越不像JSON结构，而是越来越像当然讲话前缀。这标明，如果专门为In-Writing瞎想优化的教唆词，其推崇很可能还会进一步接济。

此外，格式敛迹机制偶尔会在将推理遣散转动为结构化输出时产生作假，比如截断数字或污染象征，这是本事层面仍需翻新的问题。

归根结底，In-Writing提供了一个在推理质料和格式范例之间已毕双赢的澄清想路：不是让AI在想考时就戴上格式桎梏，而是让它先解放想考，然后通过一个精确的"终末一公里"格式敛迹将谜底装进合适的容器里。这个想路的老本极低（只多铺张5到20个词汇），带来的收益却格外可不雅——不管是准确率、格式合规率照旧系统复杂度的裁汰，齐有昭彰改善。

关于那些需要在职责中使用AI器具处理结构化输出任务的东谈主来说，这项接头意味着一种更可靠、更高效的AI部署想路行将成为可能。无须再纠结于"要准确率照旧要格式"，改日的AI系统绝对可以在单次调用中同期作念好这两件事。有风趣进一步了解本事细节的读者，接头团队已在GitHub（Nokia-Bell-Labs/InWriting）敞开了一齐代码，同期原论文arXiv:2601.07525也提供了好意思满的表面推导和实验数据。

Q&A

Q1：In-Writing框架和普通的AI回复方式有什么区别？

A：普通方式要么让AI绝对解放回复（格式没保险），要么从一运转就给AI套上格式桎梏（推理受限）。In-Writing的区别在于它把这两个阶段分开：先让AI绝对解放地把问题想明晰，等AI认为我方推理收场、产生一个特定的"收尾信号"之后，才启动格式敛迹，把最终谜底规规定矩地输出成需要的格式，两个阶段互不抑制。

米兰milan(中国)体育官方网站

Q2：过早触提问题是怎么产生的，怎么处治？

A：过早触发是指AI在还没推理完的时间，就误触发了格式敛迹机制，导致后续推理被强行截断。这个问题的根源是触发词选拔不当——如果用大括号"{"四肢触发词，AI在推理中随时可能用到这个象征，就会不测启动格式敛迹。处治决策是只用"句子收尾符"四肢唯独触发词，因为这个信号唯有在AI的确认为整段输出仍是完成时才会出现，简直绝对放手了过早触发的风险。

Q3：In-Writing多铺张的词汇量会不会权贵增多使用老本？

A：不会。实验数据清晰，In-Writing*比拟普通当然生成方式，只多铺张5到20个词汇，这些额外的词主如若JSON格式所需的括号和引号等结构性象征。比拟之下，两阶段支援方法需要再调用一个大模子来判辨谜底，举座缠绵支出远高于In-WritingK8凯发中国官方网站，况且第二次调用还需要把第一次的好意思满输出四肢输入，输入词汇量自己就很大。是以In-Writing的额外支出是格外细微且固定的。

上一篇：上一篇：K8凯发中国官方网站卡尼萨雷斯: 老佛爷说皇马永不出售但又给它标价, 这是矛盾

下一篇：下一篇：K8凯发俩彩民各中福彩25万+40万大奖接踵现身领奖

2026世界杯

K8凯发中国官方网站 诺基亚贝尔实验室与巴黎理工学院联手破解AI&quot;格式桎梏&quot;

K8凯发中国官方网站诺基亚贝尔实验室与巴黎理工学院联手破解AI"格式桎梏"