5 江船夜雨听笛 1天前 234次点击
之前不是有人出来反驳我说,我自己都在用着人家的大模型,却忽悠网友们不要用吗?
来,这是差距,咱们来对比一下。
这是问题。
glm-5.2好像已经对订阅用户开放了,他们的这个是多模态吗?还是文本模型?
看看某豆包怎么答的?
智谱GLM-5.2的代码能力提升挺明显的,有官方报告和第三方评测。相比上一代GLM-4.7,它在内部Claude Code评估集里,前端、后端和长程任务的平均性能提升了20%以上,代码一次通过率提高约20个百分点,在SWE-bench-Verified这类权威编程测试中,得分77.8,是目前开源模型里最高的,已经超过Gemini 3.0 Pro了,真实编程场景的体验接近Claude Opus 4.5。
问一下,如果我非专业人士是不是就被忽悠了,忽悠的挺瘸的,你看你看,这数据报道拿的挺准的。
真是准到他姥姥家去了,有没有?
来,这是清华智谱系列的回答,自己对比一下。
GLM-5.2昨天(6月13日)刚全量推送,目前官方还没有公布具体的benchmark跑分数据,DataLearner的模型卡也标注"评测数据待官方公布"。所以现在无法给出5.2相比5.1的量化提升幅度。
官方目前只做了定性描述,核心三点:智谱迄今最强开源模型、真正可用的1M上下文、长程任务继续领先。
作为参考,GLM-5.1的主要成绩:SWE-Bench Pro 58.4%(开源第一,全球第二)、AIME 2026 95.3%(全球第一)、Terminal Bench 2.0 63.56%、BrowseComp 79.36%。
从已知信息看,5.2相比5.1的改进方向集中在三块:编程能力进一步提升、长文本任务稳定性增强、多步工具调用可靠性提高。上下文窗口从5.1的200K扩展到1M,最大输出128K。
具体跑分要等官方技术报告或第三方独立评测出来才能确认。
小杠精们你就出来杠吧哈,你就杠吧。
等你被忽悠瘸了的时候你才知道什么叫做后悔莫及。
这个是GPT。
从目前公开的信息来看,GLM-5.2 本身主要被定位为代码与推理模型(语言模型),而不是一个以多模态为卖点的模型。智谱公布的重点特性包括:
100万(1M)Token上下文窗口
面向编程和 Agent 任务优化
High / Max 两档推理强度
下周开放 API 和开源权重(MIT 协议)
目前我没有找到智谱官方明确说明「GLM-5.2 支持图片输入」的资料。公开介绍几乎都在强调代码能力、长上下文和 Agent 能力,而不是视觉能力。
不过智谱确实有专门的多模态系列,例如:
GLM-5V-Turbo —— 支持图像、文档、网页、GUI 等多模态输入。
GLM-5 系列则主要是语言与代码方向。
因此可以简单理解为:
模型 类型
GLM-5.2 以文本、代码、推理为主
GLM-5V-Turbo 多模态(图片+文本等)
如果你说的是智谱 ChatGLM 官网或者 Z.ai 订阅里刚开放的「GLM-5.2」,那么大概率是文本/代码模型。即使未来聊天界面允许上传图片,也不一定是 GLM-5.2 本体在处理图片,可能是切换到了视觉模型。
如果你是在智谱的某个具体产品(例如 Z.ai、ChatGLM 网页版、GLM Coding Plan)里看到 GLM-5.2,。我可以帮你判断那个界面实际调用的是纯文本模型还是多模态模型
求大佬解答,纯文本模型这个是哪一个软件啊?需要去哪里下载?叫什么名字?他是不是在文本创作方面非常厉害?
很正常,豆包就是给用户提供情绪价值的,不管数据对不对,它总要有一个。
其实我认同他说的这些模型,所有的数据其实都是一样的,只是他们基于联网搜索的时候,没有提供比较好的搜索工具给他,那么在没有好的搜索工具给他的情况下,那么你说他不就是在搜索时拿到假数据,又或者说他们完全就没有搜索。,还有情感支持的这个模型。那么就能捏到事实吗?就能给假消息假数据吗?,你但凡你要说,嗯我没有办法回答你这个问题。,那我也认了,可偏他没有这么说,他直接就给你乱胡编乱造了。,所以懂了吧,其实这些模型全部都一样,只是看他们的微调怎么调。数据有多少?使用了什么搜索工具?不是说什么情感支持模型,查数据的模型这样的