K8凯发中国官方网站 百度最强模子来了!五大场景深度实测,搜索才调隆起


智东西
编译 | 刘煜
剪辑 | 陈骏达
智东西5月9日报谈,本日,百度推出新一代基础模子文心5.1。百度称,文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2,使用业界同限度模子约6%的预教学资本,结束同级别模子基础遵守率先。不外,百度并未明确证明这一“6%资本”的具体对标模子范围与口径。
在LMArena 5月7日更新的文本生成大模子名次榜中,文心5.1人人总排名第14。与前边OpenAI、xAI的模子比拟,得分存在轻飘差距。

图源:LMArena官网
文心5.1在Agentic、常识、推理、领导奉命才调测试中,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro张开了横向性能对比。
Agentic才调测试中,文心5.1器用调用数学推理才调发扬可以,得分略低于Gemini-3.1 Pro排名第二。多轮器用配合交互才调弱于Claude-Opus-4.6居于第二位,与另外两个模子才调差距较小。
在深度搜索Agent任务中,文心5.1较其他三款模子仍有差距,电子表格器用操作仅率先DeepSeek-V4-Pro,大幅过期Claude-Opus-4.6与Gemini-3.1 Pro。

图源:百度文心公众号
常识、推理、领导奉命才调测试中,文心5.1举座处于中等水平。高阶学科常识推理(GPQA)和复杂领导奉命(AdvanceIF)发扬较好,仅次于Gemini-3.1 Pro,率先另外两款模子。
纯数学推理(AIME26)和通用常识问答(MMLU-Pro)在四款模子中均排名末位,与头部模子差距相对显著。

图源:百度文心公众号
这次文心5.1推出距离文心5.0郑再版上线已时隔三个多月。文心5.1模子发布时,登顶LMArena榜单里国内大模子搜索才调榜首位。

图源:百度文心公众号
实质评测中,咱们从创意写稿、数学推理、信息整合、电子表格操作、编程才调五个维度对文心5.1模子进行了详细体验。
其中,创意写稿与电子表格数据分析咱们均采用文心5.1念念考模子进行二次实测。比拟文心5.1快速模子,念念考模子产出的内容叙事立场更有质感、时势调性更缜密当然,也未出现基础性逻辑与翰墨不实;在表格数据分析任务上,念念考模子的举座发扬相同更出色。
文心5.1对概率题的解答门径严谨、谜底准确;濒临洞开式拖沓需求,能自主拆解任务、输出表格对比和场景匹配,信息整合才调可以;但在编程场景中短板隆起,生成的代码无法正常运行,实用编程才调仍有欠缺。
文心5.1模子的体验聚拢为:
https://yiyan.baidu.com
以下是咱们的完满体验过程:
一、五大场景实测:文心5.1创作、数理、办公、科普才调全面考证
案例一:创意写稿才调测试,试验文心5.1故事架构与文体创作才调
针对文心5.1的创意写稿才调,咱们起先用文心5.1快速模子进行了测评。
领导一:请为一个悬疑故事写出前三章大纲,每章150字傍边。

总体来看这个悬疑故事的大纲挺完满,叙事结构比较规整,逻辑端倪也明晰。东谈主物活动动机比较合理,陈迹拓荒具象可落地,临了的身份回转颠覆感比较强,伏笔呼应也相对完满。不外,与咫尺市面上的流行的悬疑推理演义还有一定差距,关于模子自己来讲,这个水准还可以。
尔后咱们用调换的领导,对文心5.1念念考模子进行评测。

可以看到,第二篇在切入点、恐怖感上更有新意。关于短篇惊悚故事,这篇的“轮回替身”更妥当直秉承尾,有《恐怖游轮》的轮回压迫感。不外平时租客为何能查物业记载这少量可能是个bug。
咱们接着让文心5.1快速模子写了一篇科幻类型的轻飘说。
领导二:写一篇500-600字的科幻轻飘说。

这篇科幻演义篇幅把控精确,叙事结构完满闭环,东谈主物时势描画比较缜密,举座翰墨证明、故事完成度也挺高。但这个叙事框架比较老例,同期出现了东谈主物身份杂沓词语,比如著述主角之一是“爸爸”,可在中间的对话中却说成了“姆妈”。
关于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,阑珊出东谈主预感的设定更动。
调换的科幻轻飘说领导也给了文心5.1念念考模子。

可以看到,这一篇亦然围绕“意志上传”这还是典科幻母题张开的。不外两篇著述在叙事重点、时势落点、科幻设定和审好意思取朝上存在显著互异。比第一篇更好少量的是,这一篇莫得出现显著的东谈主设杂沓词语问题。
从时势共识和叙事感染力看,第一篇相对更好。从科幻构念念的新颖度和玄学深度看,第二篇后来居上。
案例二:给高考数学题,看它能不可按门径算解析
用户在使用AI贬责数学问题时,痛点比较明确:怕AI莫得逻辑硬算,也悲伤AI虚拟解题门径和不实谜底。
于是,我给了文心5.1一谈2025新高考一卷的上数学题,看它是否能信得过贬责用户遭逢的数学问题。
题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为?

文心5.1给出了十足正确的解答,无论是使用引导变量法,开云kaiyun中国官网入口如故用漫步法进行交叉考证,都门径完满,何况末端准确。
案例三:问两款大模子怎么选,看它能不可替平时东谈主作念信息整合
平时用户可能不会分歧主流大模子强弱,也不知谈按自身场景该怎么选用。对标文心5.1官方Agent才调里T³-bench多轮器用配合、深度信息检索整合的中枢维度,咱们抛出拖沓需求,望望文心怎么解答。
问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么坚贞和短板,平时东谈主该怎么选、各自妥当拿来干什么。

可以看到,文心5.1的举座回应发扬优秀。起先粗略自主拆解任务逻辑,无需东谈主工指引,自觉多维度逐层解说对比,信息维度全面且细分精确,体现出可以的信息检索与归纳才调。
同期贴合了平时东谈主使用风气,作念成表格对比、场景匹配、分东谈主群保举,临了还点明两款模子的粉饰短板和使用误区,给到求实的组合使用提议。
案例四:电子表格与职场数据分析才调测试
职场运营、门店护士、电商运营日常高频刚需即是职工绩效统计、数据筛选、功绩排名、均值分析,常用到的是Excel表格来进行办公。于是咱们测试了文心5.1快速版块的电子表格器用操作才调。
需求为:我是门店运营,统计了本店10名销售东谈主员确当月个东谈主成交功绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。
你按照Excel分析数据帮我处理:整理成次序职工功绩数据表,计较全员功绩平均值、中位数,筛选出功绩高于平均值的优秀职工,临了引诱举座数据作念浅易的团队绩效分析。
末端是,文心5.1在这个电子表格操作以及数据分析任务中,完成度挺高。不外莫得将所特殊据放在一张表格里。
于是咱们连接给出领导:帮我作念成一份直不雅的Excel表格,包含所特殊据,同期可复制。文心5.1给的反应比最初更精简了,但领导“一份”可能给该模子带来了会通短处。
于是咱们再调整领导为:把这些数据仅用团结张表格来表示。

临了,文心5.1给出的末端还可以,固然官方测试中表格操作才调排名靠后,但在文本形态的职场数据分析场景里,实质体验并莫得额外差劲,能完成基础需求。
该模子末端输出比较趔趄,于是咱们用调换的领导测试文心5.1念念考模子。末端表示,这次模子输出的第一份末端更为破坏次序,K8凯发官方网站何况更为明晰直不雅。与文心5.1快速模子第三次输出的末端实在一样。
案例五:
咱们使用文心5.1念念考模子,让它制作了一个大型沙盒游戏与微型跑酷游戏。
领导一:制作一个单文献HTML的3D横版格斗游戏,场景为被霸天虎入侵的残败城市舆图,敌东谈主为类东谈主型赛博坦机器东谈主,包含兵器反冲力遵守,采用低多边形立场并带有卡通好意思学。游戏启动时,玩家位于街谈上,周围有建筑废地;游戏中应包含可被击倒的细节物品,如汽车、树木、石块/瓦砾和自动售货机。玩家可以弃取5种擎天柱阵营扮装进行游戏,并与5种霸天虎变种敌东谈主斗争,这些敌东谈主会不断生成,游戏为无穷时分的沙盒模式。

文心5.1念念考模子针对该领导生成了700余行代码,但实质运行时,该游戏粗略正常掀开,但界面出现两个防碍bug,也没法对游戏里的敌东谈主进行膺惩,无法操作。
领导二:制作一个单文献HTML的横版跑酷游戏,不依赖外部资源。主角是别称畴昔都市快递员,在霓虹城市屋顶之间不断前进。游戏采用低多边形立场,举座偏亮堂卡通好意思术。
条件:
-玩家可进行超过、二段跳和下滑
-舆图自动上前回荡,包含屋顶缺口、告白牌、电箱、无东谈主机等扼制
-路上有可收罗的能量电板和金币
-玩家可以拾取临时谈具,举例护盾、加快和磁铁吸附
-敌东谈主为巡逻无东谈主机和机械警卫,碰撞后会扣血-分数把柄生计时分、迁移距离和收罗物计较-淑戏失败后可再行启动
-需要有启动界面、暂停功能和浅易UI(血量、分数、速率)
-系数内容写在一个HTML文献中,代码可径直运行

针对第二个领导,该模子耗时3分钟生成600余行代码,但无法掀开,界面一派暗澹。可见,该模子在复杂游戏编程与代码可运行性上仍存在显著短板。
二、弹性教学结束降本,架构与后教学历程同步纠正
文心5.1是在文心5.0基础上进一步优化获得的版块。它莫得重新再行教学,而是从文心5.0教学好的子模子矩阵中,挑出一个遵守最佳的子结构径直使用,因此申斥了预教学资本。
其背后的主要时候更新,是一套叫Once-for-All的弹性教学方法。
传统作念法想适配不同限度的模子,得分别预教学好几次;而文心5.0只在一次预教学里,通过动态采样同期优化大都不同尺寸的子模子,最终变成一个覆盖多种参数限度、不同计较资本的子模子矩阵。
也即是说,这套方法让文心5.1在教学阶段就把不同模子一次性准备好,上线时径直挑一个最合适的来用,毋庸每次再行练。
基于上头的弹性教学方法,文心5.1在参数和资本上的实质变化如下:
1、总参数目压缩到文心5.0的1/3傍边;2、激活参数目压缩到约1/2;3、预教学算力资本仅为同限度业界模子的6%。
比拟文心5.0,文心5.1推理资本显著下跌,同期在同参数限度下,预教学模子遵守在同限度模子中发扬更佳。

文心5.0弹性教学暗意图(图源:百度文心公众号)
这次更新,文心5.1在其教学模样上作念了三方面改换:
起先是分离式架构。往时教学、推理、奖励计较、智能体轮回四个枢纽耦合在一齐,一个枢纽慢了会遭殃系数这个词系统。
咫尺百度将它们十足远离,各自落寞部署、落寞扩缩容。比如推理算力不够就只扩推理,毋庸动其他模块。各模块之间通过高性能会聚传数据,末端流和数据流分开,活水线可以叠加试验,教学举座耗时更短。
其次是FP8训推方面。由于模子教学时和推理时用的精度不一致,会导致遵守下跌,尤其在MoE结构里路由偏差更显著。
于是文心5.1用了长入FP8低精度算子库,并对Rollout Router Replay时候作念了优化。末端是在开启该时候后,教学推理耗时实在莫得增多,但要害盘算KL散度下跌50%,教学更厚实。
临了是异构弹性诊治方面。集群里会存在许多CPU算力闲置,文心5.1把这些CPU长入池化,用来跑代码沙箱、考证器这类逻辑计较密集但不需要GPU的任务。栽种了资源哄骗率,也裁汰了教学迭代时分。
传统大言语模子的后教学是串行历程:先作念监督微调(SFT),再作念多阶段夹杂强化学习。
这种模样存在两个问题:一是慢,一个阶段等一个阶段拖慢举座迭代;二是才调会“打架”,想在一次教学里同期栽种代码、推理、对话等多个才调,往往栽种一个另一个就下跌。
文心5.1的作念法是把人人教学和才调会通远离,分四步走:
第一阶段长入SFT。先用高质地的多规模领导数据作念一次基础微调,让模子具备基本的领导奉命和器用调用才调,手脚后续才调延迟的开头。
第二个阶段,并行教学多个规模的人人模子,比如对代码、推理、智能体等地点分别落寞教学。每个地点用我方专属的奖励信号和算法,相互不烦躁。
第三个阶段是在线政策蒸馏(OPD)。把上一步教学好的多个人人模子当针织,长入SFT模子当学生。学生按照我方的政策采样,通过token级KL方法同期学习多个针织的才调,把不同人人的才调会通进团结个模子里。
临了是通用在线强化学习。并不是系数任务都妥当用蒸馏来会通,比如洞开式聊天、创意写稿这类高熵漫步的任务,蒸馏反而遵守低,输出会变得过于平滑。是以这类任务不作念蒸馏,而是在蒸馏后的模子上单独作念在线强化学习,保证对话各样性、领导奉命才和谐东谈主类偏好对王人。
可以浅易转头为,代码、推理这类详情趣强的才调,通过蒸馏从人人模子融进主模子;聊天、写稿这类需要各样性的才调不妥当蒸馏,单独作念强化学习。两套模样配合,既裁汰了教学周期,又幸免了才调相互遭殃。

文心5.1后教学Pipeline暗意图(图源:百度文心公众号)
在百度文心里面评测中,文心5.1的创意写稿才调接近Gemini-3.1 Pro。此前文心5.0系列模子已屡次登上LMArena文本榜和视觉会通榜,稳居国产模子第一梯队。
结语:低资本结束性能追逐,才调尚有栽种空间
文心5.1最引东谈主注见解不是某一项才调的跃升,而是它试图回应的问题,能否用更低的教学资本,换来接近头部模子的详细水准。
从百度文心败露的数据看,在常识推理、领导奉命和创意写稿上,它确乎站到了同量级模子的第一梯队;但在器用调用深度、电子表格操作和纯数学推理上,与Claude-Opus-4.6、Gemini-3.1 Pro等模子之间仍存在可量化的差距。
从实质体验来看,文心5.1在数学题解答、生活化常识科普等面向平时用户的场景中发扬比较厚实,信息整合和逻辑拆解才调也可圈可点。创意内容存在套路化问题,高阶表格办公才调相对偏弱,部分场景需要反复调整领导才调达到梦想遵守。
纵不雅行业,主流模子冉冉呈现才调互异化、使用场景分层化的发展趋势。对平时用户而言,熟练的基础模子粗略申斥内容创作、问题解答、数据整理的门槛,栽种日常使用遵守;对时候厂商而言,低资本、高性能的迭代决议K8凯发中国官方网站,也将为国产大模子轻量化落地、限度化应用提供了可行旅途。
开云app登录入口