非专业人士谁能看得懂

5 江船夜雨听笛 1天前 234次点击

之前不是有人出来反驳我说,我自己都在用着人家的大模型,却忽悠网友们不要用吗?

来,这是差距,咱们来对比一下。

这是问题。

glm-5.2好像已经对订阅用户开放了,他们的这个是多模态吗?还是文本模型?

看看某豆包怎么答的?

智谱GLM-5.2的代码能力提升挺明显的,有官方报告和第三方评测。相比上一代GLM-4.7,它在内部Claude Code评估集里,前端、后端和长程任务的平均性能提升了20%以上,代码一次通过率提高约20个百分点,在SWE-bench-Verified这类权威编程测试中,得分77.8,是目前开源模型里最高的,已经超过Gemini 3.0 Pro了,真实编程场景的体验接近Claude Opus 4.5。

问一下,如果我非专业人士是不是就被忽悠了,忽悠的挺瘸的,你看你看,这数据报道拿的挺准的。

真是准到他姥姥家去了,有没有?

来,这是清华智谱系列的回答,自己对比一下。

GLM-5.2昨天(6月13日)刚全量推送,目前官方还没有公布具体的benchmark跑分数据,DataLearner的模型卡也标注"评测数据待官方公布"。所以现在无法给出5.2相比5.1的量化提升幅度。

官方目前只做了定性描述,核心三点:智谱迄今最强开源模型、真正可用的1M上下文、长程任务继续领先。

作为参考,GLM-5.1的主要成绩:SWE-Bench Pro 58.4%(开源第一,全球第二)、AIME 2026 95.3%(全球第一)、Terminal Bench 2.0 63.56%、BrowseComp 79.36%。

从已知信息看,5.2相比5.1的改进方向集中在三块:编程能力进一步提升、长文本任务稳定性增强、多步工具调用可靠性提高。上下文窗口从5.1的200K扩展到1M,最大输出128K。

具体跑分要等官方技术报告或第三方独立评测出来才能确认。

小杠精们你就出来杠吧哈,你就杠吧。

等你被忽悠瘸了的时候你才知道什么叫做后悔莫及。

共 30 条评论
江船夜雨听笛 [楼主] 1天前
0 
哦,对了,下面还有一段没贴。 GLM-5.2 是纯文本模型,不支持多模态。知乎上有实测文章明确提到"GLM 5.2还是没有多模态,依然是个纯文本模型"。 智谱的多模态能力放在了另一条线上,即GLM-5V-Turbo,那个才是能原生处理图片、视频、文本的多模态Coding基座模型。 GLM-5.2本身聚焦的是Agentic Coding方向,支持1M上下文,已面向GLM Coding Plan全量用户开放(Lite/Pro/Max/团队版),API也已上线,模型遵循MIT协议开源。
爱比较 1天前
0 
豆包喜欢迎合用户,而且是所有的AI里面最喜欢迎合用户的,没有数据就瞎编数据,主打一个不客观纯主观。
0 

这个是GPT。

从目前公开的信息来看,GLM-5.2 本身主要被定位为代码与推理模型(语言模型),而不是一个以多模态为卖点的模型。智谱公布的重点特性包括:

100万(1M)Token上下文窗口

面向编程和 Agent 任务优化

High / Max 两档推理强度

下周开放 API 和开源权重(MIT 协议)

目前我没有找到智谱官方明确说明「GLM-5.2 支持图片输入」的资料。公开介绍几乎都在强调代码能力、长上下文和 Agent 能力,而不是视觉能力。

不过智谱确实有专门的多模态系列,例如:

GLM-5V-Turbo —— 支持图像、文档、网页、GUI 等多模态输入。

GLM-5 系列则主要是语言与代码方向。

因此可以简单理解为:

模型 类型

GLM-5.2 以文本、代码、推理为主

GLM-5V-Turbo 多模态(图片+文本等)

如果你说的是智谱 ChatGLM 官网或者 Z.ai 订阅里刚开放的「GLM-5.2」,那么大概率是文本/代码模型。即使未来聊天界面允许上传图片,也不一定是 GLM-5.2 本体在处理图片,可能是切换到了视觉模型。

如果你是在智谱的某个具体产品(例如 Z.ai、ChatGLM 网页版、GLM Coding Plan)里看到 GLM-5.2,。我可以帮你判断那个界面实际调用的是纯文本模型还是多模态模型

0 
可不可以详细的讲一讲这是啥?我是一脸懵逼。
江船夜雨听笛 [楼主] 1天前
0 
简单来说就是同样的问题,豆包在捏造数据,胡说八道,讲的有模有样。
0 

求大佬解答,纯文本模型这个是哪一个软件啊?需要去哪里下载?叫什么名字?他是不是在文本创作方面非常厉害?

0 

很正常,豆包就是给用户提供情绪价值的,不管数据对不对,它总要有一个。

你真的很无聊,一个适用于情感支持的AI,一个是用于查数据的AI,有可比性吗?领域都不同好吧,定位也不同,没有可比性,就像你让程序员去写歌一样荒谬
江船夜雨听笛 [楼主] 1天前
0 
你跟那豆包一样无知。什么叫查数据的AI?来你来给我科普科普。
总的来说就是有些AI他查数据的能力比较强,比如说它结合网络搜索以后就能输出数据,而且跟你手上那款AI的效果一样的,而豆包主打情感支持,就像你看到的,他说出来的数据可能因为要提供情感价值的缘故,会变得很不靠谱,但如果你把它用作情感支持的话,是完全没有问题的,我就试过,虽然也比较的不靠谱吧。但效果还是要比其他AI好一些,比如说你如果让千问或者元宝做情感支持,那么他的情感细腻程度是达不到豆包的那种级别的
江船夜雨听笛 [楼主] 1天前
0 
恶补点知识吧。什么叫查数据的大模型?我硬是没搞明白,所有模型的数据都是固定的。截止某个日期的。他们没给提供好的搜索工具,模型就是在胡说八道,就是在捏造事实,这是基本逻辑你要懂。而不是说有些模型就是为了搜索数据而生的,你这个是个谬论,是个错误的想法。
我的意思很简单,就是有些模型它的侧重点就是在数据方面,而有些模型的侧重点在情感方面
江船夜雨听笛 [楼主] 1天前
0 
我之前说什么来着?你但凡听我的好好阅读一下我帖子主题呢。谁家的大模型那么牛逼,能把数据训练到昨天?显然在我们这里对比的两家大模型,他们都没有昨天的数据,基本上都是实时获取的,所以你这个说有一些专攻数据的大模型这个说法他是不成立的。同样的起点之下,承认此模型很差,并没有任何的问题。
0 
我只是想说,每个模型都有自己的优点,你要是觉得不好用,完全可以换别的模型来用嘛,你不需要去攻击用那个模型的人,这没有意义啊
我也赞同这个观点。
按你这个逻辑,所有的模型数据都是一样的,那你能不能说专门专注语音模型的模型,可以用来处理语言文本?
江船夜雨听笛 [楼主] 1天前
0 
你在混淆视听?什么是文本?什么是语音?什么是多模态,什么是向量模型,你搞明白了吗?同样是文本输出模型,你不行就是不行,你为什么非得拉语音模型出来踩一脚?那我说你几百万的电单车,他就是没有3000块钱的三蹦子好用,你有意见吗?
可他根本没说过呀,你这个例子很浅显的好吗,他如果真的这样说过,那你就把证据拿出来吧
江船夜雨听笛 [楼主] 1天前
0 
你语速放慢再放慢再放慢,你看看我主题说的什么?
只能说模型的基座可能一样,但数据我觉得是不一样的,每个模型的数据都会有差别。更何况不同领域的模型,它们之间的数据就更不同了。
那我们就抛开不同领域的模型不谈,就按你这个逻辑,所有语言模型的数据假设都是一样的,那我就问你一个问题,你敢用豆包写代码吗?豆包写的代码你敢用吗?
江船夜雨听笛 [楼主] 1天前
0 
你这就自相矛盾不对吗?豆包写的代码你也知道不敢用。所以在代码不行,在其他领域也不行,那按你这种说法,不同领域的模型,那人家一个专攻代码的模型,直接吊打你一个通用文本大模型,你不感觉惭愧吗?这难道不是值得吐槽的点?哦,不对,纠错一点,人家是专攻代码的文本大模型,吊打你一个通用多模态大模型,
那你这个逻辑也说不通。你说专业专攻代码的模型能吊打通用大语言模型,那它们是同一个东西吗?按你这个逻辑,你刚才那一段话好像就是在说代码也是我们人类能够理解的语言一样。那你和别人说话怎么不用一长串代码说话呢?
江船夜雨听笛 [楼主] 18小时前
0 
不懂你就学,代码是文本,文本懂不懂?不懂你就可以学,好好补充知识。
那你在帖子中说的可是大语言模型,你怎么不说是大文本模型呢?
你这个观点漏洞太多了,不想跟你沟通,沟通起来很累。
浅念 7小时前
0 
不管怎么说吧,不管是什么方面的,模型数据错误了,就是错误,幻觉就是幻觉,且幻觉率高也是大家公认的,你总不能说这是一款主打陪伴的模型,主打情感知识的模型,它就可以不在乎数据的准确性。也就是说披着这层外衣,你可以容忍他的任何错误,只要他的情感功能存在就行了,是吗?显然不是吧。另外关注每一个大模型的数据是没有意义的,因为这个模型发布时间是不在任何一个大模型的训练截止日期的,也就是说从元数据大模型是没有办法识别到GMl5.2发布这件事情的。所以你们说每个大模型的数据不一样,或许是不一样,但这有什么意义呢?对于这件事而言,他们依靠的都是在线搜索,然后整合信息,这就抹平了所谓的数据差异。拿数据差异那套说事是不管用的。你们对大模型有多少了解呢?仅凭一些数据差异就能说明一切吗
建议你好好把韩愈的师说给读上个100遍,再背上个100遍。那里面怎么说的来着?闻道有先后,术业有专攻。
波斯猫 1天前
0 

其实我认同他说的这些模型,所有的数据其实都是一样的,只是他们基于联网搜索的时候,没有提供比较好的搜索工具给他,那么在没有好的搜索工具给他的情况下,那么你说他不就是在搜索时拿到假数据,又或者说他们完全就没有搜索。,还有情感支持的这个模型。那么就能捏到事实吗?就能给假消息假数据吗?,你但凡你要说,嗯我没有办法回答你这个问题。,那我也认了,可偏他没有这么说,他直接就给你乱胡编乱造了。,所以懂了吧,其实这些模型全部都一样,只是看他们的微调怎么调。数据有多少?使用了什么搜索工具?不是说什么情感支持模型,查数据的模型这样的

添加一条新评论

登录后可以发表评论 去登录