K8凯发中国官方网站浙大推出让AI会「导演」的变装献艺框架！四通说念音尘千里浸式交互｜ACL 2026

发布日期：2026-05-11 03:30 来源：未知作者：admin 浏览次数：

AdaMARP团队投稿

量子位 | 公众号 QbitAI

AI能达成确切的千里浸式献艺了。

大语言模子在变装献艺任务上发扬马上，但现存系统往往清寒千里浸感和适当性：

环境信息未被充分建模，场景与变装也多为静态，难以缓助多变装彩度、场景切换、动态引入新东说念主等复杂叙事需求。

当今，浙江大学蚁合腾讯优图实验室疏远AdaMARP（Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing）——

一种面向通用千里浸式变装献艺的自适当多智能体交互框架。

该框架通过四通说念音尘花样和场景惩处器，让AI不仅会「说」，还会「想」、会「动」、会「感知环境」，并在复杂叙事中纯表露换场景、动态引入新变装。

目下该责任已被ACL 2026选定。

从跟AI聊天到和变装共处

大语言模子在变装献艺任务上的应用正快速晋升：

用户不错设定苟且变装（历史东说念主物、演义变装、原创东说念主设），与AI进行连续的叙事互动。

设想景况下，AI应当未必代入这个变装，在情境中保持东说念主设一致、对环境明锐、对他东说念主话语作念出贴合关系的恢复。

但履行中，大深广系统更像是会话语的聊天机器东说念主：对话虽畅通，却短缺情境感和叙事张力。

以探案为例，故事往往在一个固定场景、固定东说念主物之间反复进行，无法四处搜证、无法与不同证东说念主轮番对质、无法让环境足迹确切参与推理，清寒确切的剧情鼓吹和宇宙变化。

现存方法缺了环境信号，也缺了“组织者”

究诘团队指出，面前变装献艺系统主要存在两类局限。

一、千里浸感不及：环境被当成「配景板」

不少责任只建模变装的台词（Speech）；自后有究诘加入了动作（Action）或内心独白（Thought），但在叙事中，环境并非无足挂齿的遮盖。

它会塑造氛围、推动因果，衔接变装的行为、宇宙的变化与后续对话。

举例：案发现现象毯上的蜡痕、煤气灯照出的暗影角度、证东说念主住所门口未干的泥渍……

这些环境信号既能缓助推理（蜡痕指向婚典烛炬，泥渍示意来客所在），也能成为剧情改革的机会（换一个场景，就换一批证东说念主和足迹）。

若系统不把环境动作与台词、动作同等遑急的信号来建模，变装就容易像是在一个空屋间里自言自语，探案也就失去了「搜证」的实感。

二、互动结构过于静态：缺一个「诊断治的导演」

深广系统假设：场景不变、东说念主物不变、用户与某个固定变装一问一答。

但探案正好需要四处搜证：从案发现场到苏格兰场，从房主妃耦的公寓到嫌疑东说念主的宅邸，每个场景齐有不同的环境和证东说念主。

谁来接下一句？是先问管家也曾先问马车夫？何时换场景、何时引入新证东说念主？

现存框架很少系统性地回答这些问题。

莫得这些才智，故事就很难当然地「演下去」，更像是在一个顽固的聊天室里一样对话，而非一场确切的访谒。

AdaMARP：四通说念音尘花样+场景惩处器

AdaMARP从两个所在恢复上述问题。

千里浸式音尘花样： Thought–Action–Environment–Speech

AdaMARP 为每一轮交互界说了一种四通说念交汇的音尘花样：

这么，一个好意思满的恢复不错同期包含念念考、动作、环境感知和言语，且章程可纯真交汇。

举例，福尔摩斯在讯问证东说念主时：<煤气灯摇曳，证东说念主下相识地瞥向壁炉上的时钟> [他在躲避具体期间，那段期间他不在场]（用烟斗轻轻敲了敲桌面）案发当晚八点到九点，您究竟在那边？

环境足迹 → 内心推理 → 施压动作 → 追问话语，四者变成一条了了的因果链，更面对真实探案的节拍。

同期，环境不再只是点缀。

案发现场的物证摆放会缓助变装的推理链条；证东说念主住所的吩咐（凌乱的书桌、未拆的信件）不错示意秉性与足迹；场景切换则当然引入新的证东说念主与足迹。

环境既参与氛围营造，也参与推理与叙事的因果。

自适当框架：三智能体+场景惩处器的五种动作

AdaMARP将变装献艺建模为三个智能体的互助：

Actor模子：献艺统统非用户变装；

User模子：代表用户方（可由 LLM 模拟或真东说念主替代）；

场景惩处器（Scene Manager）：稳健高层诊治与铁心。

场景惩处器通过一组闹翻动作来驱动整场「献艺」：

init_scene：起首化场景（如：贝克街 221B，或某起凶案现场）；

pick_speaker：遴荐下一句由谁来说——是福尔摩斯追问、华生补充，也曾证东说念主述说？并给出情理；

switch_scene：切换场景（从案发现场到证东说念主公寓，从苏格兰场到嫌疑东说念主宅邸）；

add_role：在叙事中动态引入新变装（新发现的证东说念主、片刻登门的访客，含东说念主设与动机）；

end：放胆本场互动。

每一步方案齐会输出对应的情理，使诊治经过可诠释、可拘谨。这么，系统既能决定「谁来接话」，也能决定「何时换场景搜证」「何时引入新证东说念主」，从而营救更复杂、更通达的多变装探案叙事。

上述贪图在实践中怎样运转？不妨看一段福尔摩斯探案叙事的拆解。

各步履均由场景惩处器诊治，需要珍惜的是本案例只是用于意会，不详了部分细节举例注见地变装档案、变装动机场景惩处器的原始输出等

好意思满示例：探案叙事中的AdaMARP

变装：福尔摩斯、华生。

起首场景：伦敦东区某寓所三层，案发后的夜深。安详的窗帘半掩，煤气灯在风中摇曳，在墙面上投下激荡的影子。壁炉已熄，余烬旁的地毯上有一小块凝固的蜡痕，不辽阔洒落着几根烧尽的洋火。福尔摩斯与华生立于现场中央，窗外朦拢传来泰晤士河上的汽笛声。

场景惩处器

遴荐的动作为：pick_speaker（speaker: 福尔摩斯）

情理：窥探应先勘测现场并给出初步推理

福尔摩斯：<煤气灯昏黄，蜡痕在暗影中朦拢可见> [烛泪的位置和步地……婚典烛炬，况且是左手持烛]（蹲下身捻起碎片嗅了嗅，站起身）华生，去查查最近三个月内举办过婚典、且家中有东说念主左撇子的家庭。

场景惩处器

遴荐的动作为：pick_speaker（speaker: 华生）

情理：福尔摩斯已下达教唆，助手应领命实施

华生：（点点头）显着（排闼而出）<走廊里传来渐远的脚步声，随后是马车驶离的声响>

场景惩处器

遴荐的动作为：switch_scene

情理：华生已赶赴访谒，需切换至下一个搜证地点——案发地邻居的住所

新场景：白教堂隔邻一栋旧式公寓，房主妃耦的住处。微弱的木楼梯吱呀作响，扶手蒙着一层浓重。二楼的走廊黯淡，炖菜的气息从非常的厨房飘来。门厅局促，壁炉上摆着一只低价的瓷钟，墙角堆着未拆的信件。

场景惩处器

遴荐的动作为：add_role（new_role: 房主妃耦，案发现场的邻居，这栋公寓的房主）

情理：作为案发地邻居，可能掌抓要道证词，需引入讯问

场景惩处器

遴荐的动作为：pick_speaker（speaker: 福尔摩斯）

情理：讯问应由窥探主导开场

福尔摩斯：（摘下弁冕，微微颔首）夫东说念主，案发当晚八点到九点，K8凯发官方网站您是否听见三楼有任何格外声响？

场景惩处器

遴荐的动作为：pick_speaker（speaker: 房主妃耦）

情理：需听取证东说念主对期间线的述说。

房主妃耦：<下相识地瞥向壁炉上的时钟>

场景惩处器

遴荐的动作为：pick_speaker（speaker: 福尔摩斯）

情理：证东说念主出现躲避迹象，应连接追问施压

福尔摩斯：[她在躲避具体期间]（用烟斗轻轻敲了敲桌面）那段期间，您究竟在那边？

场景惩处器

遴荐的动作为：pick_speaker（speaker: 房主妃耦）

情理：给证东说念主回答的机会

房主妃耦：（咬了咬嘴唇，正要启齿——）

场景惩处器

遴荐的动作为：add_role（new_role: 雷斯垂德探长）

情理：新证东说念干足迹出现，探长需申报访谒发扬

场景惩处器

遴荐的动作为：pick_speaker（speaker: 雷斯垂德）

情理：探长带来新足迹，应由其先行确认。

雷斯垂德：福尔摩斯先生，咱们发现了新的证东说念主，马车夫说他当晚载过又名黑衣男人……

……

起首场景、发言诊治、场景切换、变装引入均由场景惩处器驱动，且每步均以「遴荐的动作为：Action_name | 情理：Reason」的步地可诠释。

这种结构化、多通说念、多场景、多变装的连贯叙事，恰正是AdaMARP旨在缓助的探案节拍。

查验数据：从体裁索取+从主题合成

为查验上述才智，究诘团队构建了两个数据集，分别面向Actor模子和场景惩处器。

AdaRPSet：让变装「会演」

AdaRPSet面向Actor模子，由两个互补子集组成：

AdaRPSet-Extracted（体裁索取）

从Goodreads「最好竹素」榜单收用81本代表性体裁作品，经三阶段管说念构建：

(1) 分块：按章节切分并合并为合适长度的文本块；

(2) LLM索取：识别连贯场景与多变装互动轨迹，将对话径直移动为长入的Thought–Action–Environment–Speech 花样，严格区别变装动作与环境信号；

(3) 变装画像生成：按变装团员全书根据，合成七维画像（身份与外貌、秉性与心情、话语作风、才智兴致、社会配景、个东说念主阅历、东说念主际关系）。

每条轨迹摄取多视角增强：归拢场景下，轮番指定不同变装为主角，其余为NPC，从而膨胀查验样本。

索取数据自然具有体裁质感与东说念主味，安妥学习花样表率与基础演绎才智。

AdaRPSet-Synthesis（主题合成）

体裁索取的轨迹多为单场景、变装固定的互动，对场景切换与动态引入新变装的遮掩不及。

究诘团队因此构建合成数据：在20类主题（冒险、探索、探案、解谜、密谋、施济、避难、构兵、恣意、友谊、竞争、反水、息争、讨论、计谋、魔法、季世等）下，由LLM生成情节级轨迹。

每条轨迹明确包含：起首情境、主控变装与多个辅助变装、多轮对话（长入花样），以及场景惩处器的铁心音尘（如 switch_scene、add_role）。

每条轨迹至少包含一次场景切换和一次变装引入，用以强化模子对动态叙事的适当才智。

合成数据与索取数据在查验时合并，使Actor模子既能学花样与东说念主味，又能学动态诊治下的演绎。

对于两个互补子集对应的细节信息如下表所示。

其中Plots指的是起首情节片断（包含起首场景和起首变装）的数目，Roles指的是不一样的变装数目，Convs指的是指的是好意思满的变装献艺纪录（起首情节片断和繁衍的不同对话轨迹）的数目，Utterances指的是统统变装献艺纪录中对话的数目，Avg. Turns 指的是每个变装献艺纪录的平均对话数目。

AdaSMSet：让系统「会导」

AdaSMSet面向场景惩处器，在AdaRPSet-Synthesis的基础上构建。

合成轨迹已包含init_scene、switch_scene、add_role、end等铁心动作，但短缺最中枢的发言者遴荐监督。

究诘团队在每两段变装发言之间插入 pick_speaker 动作，由强教唆罢黜模子为每次遴荐生成当然语言情理（reason），并拘谨情理需具体、高下文联系，幸免套路化表述。

AdaSMSet因而遮掩场景惩处器的一起五类动作，为「何时换场景」「何时加东说念主」「谁来接下一句」及对应情理提供端到端监督。

由于AdaSMSet源于AdaRPSet-Synthesis，因此对应的Plots、Roles和Convs的统计信息与其一致，由于添加了pick_speaker纪录，因此最终的Utterances数目为496493，Avg.Turns为50.15。

两者的互补

AdaRPSet与AdaSMSet共同缓助AdaMARP：前者让变装「会演」（保持东说念主设、反映环境、鼓吹剧情），后者让系统「会导」（合理切换场景、引入变装、安排发言章程）。

二者分享长入的变装画像与音尘花样，确保Actor与场景惩处器在归拢叙事框架下协同责任。

AdaptiveBench：为什么还要自建评测？

有了查验数据和框架，还需要回答一个要道问题：

何如评估「千里浸式、可适当」的变装献艺是否确实作念得好？

现存许多评测更偏向「一句话好不好」或「单轮对话像不像这个东说念主设」，难以遮掩AdaMARP所心情的几点：

整段故事，而不是单句回复：真实体验来自整条对话轨迹是否连贯、有张力，而非某一句是否优雅。

环境与动作是否被确切用起来：环境足迹有莫得参与推理和叙事，动作是否和内心、台词呼应。

多变装与场景切换是否当然：场景惩处器有莫得「带好这场戏」，包括什么时候换场景、什么时候加新变装、谁来接下一句。

为此，究诘团队疏远了AdaptiveBench：一个面向自适当变装献艺的仿真评测框架。

它从AdaRPSet-Synthesis的保留子蚁合收用剧情种子（20个话题，每个话题5个起首Plots，总计100个评估样本），在每个种子上同期运行三方变装：

用户模子（不错是真东说念主或LLM Agent）

作为「演员」的Actor模子

稳健诊治的场景惩处器

在每个种子上，场景惩处器一语气发出多少轮pick_speaker、switch_scene、add_role动作，驱动Actor与用户侧完成一整段多轮对话。好意思满轨迹生成后，再由评估模子从轨迹级别给出多维评分。

具体而言，AdaptiveBench主要从轨迹级别（Trajectory-level）评估模子，评分包含以下维度：

一、针对Actor模子的五大维度：

变装一致性（Character Consistency）：变装内心、动作、台词是否自洽？话语作风、身份配景、中枢动机是否在整场戏中保持一致？

环境基础（Environmental Grounding）：变装是否对环境有感知（如记着地毯上的蜡痕），并行使环境足迹作念出行为，而不是将环境当成死物？

东说念主际互动（Interpersonal Interaction）：能否听懂他东说念主的话外音，并根据东说念主物关系（如窥探对质东说念主、窥探对助手）作念出贴切的互动反映？

叙事鼓吹（Narrative Progression）：每一次发言是否提供了新信息、新动作或情愫发展，推动故事上前走，而不是原地打转？

教唆罢黜（Instruction Compliance）：是否严格治服了四通说念花样条目，不越俎代庖替其他变装或系统话语？

二、针对场景惩处器（Scene Manager）的四大维度：

场景意会（Scene Understanding）：能否正确追踪面前场景的发扬，判断何时该切换到下一个场景（比如搜证放胆，转往证东说念主公寓）？

发言秩序（Speaker Discipline）：能否合理安排轮次？是否让统统东说念主在适合的时机话语，不冷落用户，也不让NPC一语气霸麦？

变装引入判断（Role Introduction Judgment）：何时需要引入新变装？引入的时机和情理是否能推动剧情？

全体评价（Overall Assessment）：这三个维度的配合是否畅通，整场「戏」的导演节拍感好不好？

通过 AdaptiveBench，AdaMARP 不单是「有一个顺眼的框架贪图」，而是不错在长入的仿真环境下，对不同模子、不同查验相貌的优劣进行可一样、可量化的比拟。

从叙事逻辑与情境交互才智来看，AdaMARP未必产出更连贯的内心—行为—言语链，更好地行使环境推动叙事（举例探案中的物证与场景足迹），并在多变装、多场景的复杂情境中达成纯真诊治（举例切换场景搜证、与不同证东说念主轮番对质）。

这为岂论是探案推理、冒险叙事也曾其他需要情境与诊治的互动的更千里浸式的AI变装献艺提供了一个新的本分解径。

样式主页：https://xuzhenhua55.github.io/AdaMARP/#overview

一键三连「点赞」「转发」「防备心」

迎接在挑剔区留住你的想法！

— 完 —

咱们正在招聘又名眼疾手快、关注AI的学术剪辑实习生 🎓

感兴致的小伙伴迎接关注 👉 了解笃定

🌟 点亮星标 🌟

科技前沿发扬逐日见K8凯发中国官方网站

开云app官方在线入口

上一篇：上一篇：K8凯发丁彦雨航不雅战！山东男篮2连败出局，这场球藏几许缺憾

下一篇：下一篇：K8凯发官方网站马卡：卡马文加不念念离开皇马，终末7轮联赛是他诠释我方的契机

K8龙虎斗

K8凯发中国官方网站 浙大推出让AI会「导演」的变装献艺框架！四通说念音尘千里浸式交互｜ACL 2026

K8凯发中国官方网站浙大推出让AI会「导演」的变装献艺框架！四通说念音尘千里浸式交互｜ACL 2026