2 九戒 16小时前 177次点击
真的是多模态大模型,速度非常快,即问即答毫无延迟,而且还有真人般的语气,呼吸节奏,逻辑超强。相比较起来豆包就好像手动挡,文心一言5.0就是自动挡。
或者是唱歌给我听,或提供情绪价值
如果方便的话,楼主能不能分享一下这个模型的语音设置的教程呢?一直没咋整明白。
我选豆包是因为它操作方便而且无障碍做的比较好对于盲人来说平时这些就够用了我又不写代码编程什么的,要那么强的逻辑干什么你爱用什么就用什么,没必要通过采豆包来抬高另外一个
百度 文心一言 5.0 测评
原创
toyamanao
大模型观测员
2025年11月13日 23:03
广东
7人 听过
短的结论:两万亿喂出个小胖子
基本情况:
百度作为国内最早跟进大模型的团队,从ChatGPT 3.5,GPT-4时代就开始对标,基本是晚OpenAI 3到6个月推出版本号相同的文心模型。不出所料在GPT-5发布3个月后,百度也发布了文心5.0。
但与之前不同的是,文心4.5 从各方面看都是一个训练粗糙,赶工上架的产品。而文心5.0 一定程度打破了大众对百度的偏见,百度也可以做出国产第一梯队的大模型。
从性能来看,文心5.0 较之前X1.1 提升了近80%,与两周前热门明星MiniMax M2 相当。训练语料也疑似回炉重造,输出比先前干净了太多。算是对得起5.0 的大版本号。
以下重点对比文心一言X1.1 与性能相近的MiniMax M2。
改进:
•
指令遵循
:在直接指令相关问题上,文心5.0 可以做到稳定高分,极限表现优于M2。但下限也会犯离奇错误,比如#30 日记整理题规定了日期格式,文心5.0 在3 Pass中输出了三种不同的格式,其中1 Pass甚至每个日期格式都不同,相当叛逆。
•
基本计算
:先前X1.1 已经具备不错的简单计算能力,文心5.0 则在稳定性上有所提升,对于K12 范围的计算问题,可以给出稳定无误差答案。但对更杂的计算,正确性弱于M2。
•
输出干净
:在测试文心X1.1 时提到,X1.1 的训练语料疑似混入了太多了蒸馏数据,加上效果较差的翻译,导致X1.1 的思维链和输出都充斥着离奇的中文表达,这一定程度上严重拖累了X1.1 的推理性能。而这些问题在文心5.0 基本不存在,虽然5.0 的思维链还是有小比例混杂英文,但最终输出没有再出现混杂现象,整体可读性变好。
不足:
•
幻觉偏高:
文心5.0 整体幻觉水平偏高,不是第一梯队该有的表现。比如#29 数学符号还原问题,思维链明确输出“找不到答案”,最终输出还是自称找到了答案。在#43 目标数问题中,3 Pass 都有重复使用数字,使用不存在数字问题。#41 乱序字符问题,文心5.0 假装自己理解了文本,一本正经的输出“乱码”答案。在直接考察长上下文的题目中,文心5.0 表现与第二梯队推理模型接近,错误率高。
•
低洞察力
:洞察力决定了大模型是否有能力充分利用模型参数和知识量优势,输出超越普通人的知识洞察,文心5.0 在这方面还达不到第一梯队模型该有的表现。以#46 字母组合为例,文心5.0 没有洞察到字母规律,依旧使用暴力穷举。#32 干支问题,也没有归纳出规律。
•
死循环
:死循环问题在25年6月以前的国产第二梯队模型中还比较常见,但在最近3个月发布的新模型中已绝迹。文心5.0 重新出现了小概率(低于3%)死循环现象,导致大量的无意义Token消耗。
•
多轮能力
:在标准猜词测试中,文心5.0 基本跑不到第7轮,都会在前面的轮次出现遗忘上文,忘记规则等问题。前面提到的死循环问题,在多轮中更容易触发。
赛博史官曰:
自从国产大模型进入万亿参数时代,才不过3个月,百度就将参数翻倍。但有Kimi K2 Thinking的珠玉在前,百度的2万亿参数模型显得有些虚胖。甚至在常规的知识问答中,文心5.0 那不太足够的硬推理能力也没有充分发挥知识量优势,输出寡淡,既没有性格,也没有观点。
但这个不完美的“小胖子”,或许就是百度绝地反击的冲锋号,百度比任何团队都更需要证明自己在大模型时代也属于一极。
他能陪我打视频陪我屏幕共享吗