Opus现实打脸GLM5“教课书“式架构

📅 发布时间：2026/7/5 8:27:21 👁️ 浏览次数：

本人不是标题党因此先上图心急的朋友可以直接看截屏中的总结部分故事是这样的我在写完昨天的《顶极模型大比拼到底谁才是真正的编程之王》一文后就说过一定要与Opus结对试试这个大模型在编程上的实力是不是与它做评测时说得那牛X毕竟Opus对MindX给出的评测报告非常的忠恳其实吧昨天没好意思将它对MindX评测的具体内容贴出来是因为评分实在是太低了。Seed2.0, GLM5, Gemini 给出的都是8分(10分满以上的高分只有Opus给出的分数根本就不及格所以昨晚我就和Opus结对从晚上8点干到早上的5点左右才硬生生地将MindX拉上了及格线。维度上次评分当前评分变化架构设计78↑1核心创新99→领域建模44→代码质量67↑1测试覆盖46↑2安全性47↑3应用体验57↑2技术深度56↑1前端质量57↑2构建/DevOps78↑1可扩展性67↑1可观测性36↑3综合评分6.8 / 10上次 5.4↑1.4在重新做昨天的4项评估后GLM5给的评分变化不大毕竟已经8.5/10了所以我就让GLM5与Seed2给出了在新评估的基础上的重构意见。然后将它们的重构意见给Opus看问它有什么看法就得到了上述的图。这能看出了什么其实并不是想证明谁强谁弱首先GLM5是开发了MindX大量代码的主力模型之一Opus只是碰巧有朋友支持暂时给我感受一下。我是想延续昨天的话题从代码与架构本身上来研判两大模型的特性这样也能给其它朋友带来一些实际使用的参考。首先讲讲与Opus这充满燃烧的Tokens的一晚吧感觉它最大的特点就是“慢、准、稳”。它属于我用过付费模型中最为龟速的但Opus做结论是比较严谨与慎重几乎没有怎么出过错昨晚是对的MindX是属于大规模的重构涉及的模块广度都几乎横跨整个项目了, 而且干的都是苦活累活为的是要解决它昨天评测时的一句话/* by 01022.hk - online tools website : 01022.hk/zh/htmlescapechar.html */ MindX 是一个有野心、有创意的项目。仿生大脑的认知分层架构是真正的差异化优势功能覆盖面14 渠道、30 技能、训练系统在同类开源项目中属于领先水平。 Go 嵌入式数据库的技术选型使得部署极其简单单二进制文件这对个人助理产品是正确的选择。但项目当前处于功能先行、工程补课的阶段。最突出的三个短板是 1. **可靠性不足**LLM 调用无重试、渠道无断路器、WebSocket 无重连在真实使用场景中会频繁出现不可恢复的错误 2. **性能隐患**向量搜索全表扫描 O(n)随着记忆积累会成为明显瓶颈 3. **工程规范性**分层违规、错误处理不一致、测试覆盖不均、安全漏洞需要系统性补课如果我是用户看到这样的评价我不会使用这个项目因为说得太可怕了短板也太明显了当然这已经是过去式了MindX已经没有这个短板了现在评分上不了8只是因为测试的配套不足导致的代价是10多个小时的盯屏和100k tokens的燃烧。先不管Opus和GLM的血统与出身只从客观出发我是站Opus这边的。因为我也发现国产编程大模型都有着一些共同的问题模式滥用 —— 为了解决一些小问题会很热衷于使用设计模式来解决导致代码量膨胀得很快当然Tokens也烧得疯狂。这一点千问是重灾但它代码质量一直不行就是垃圾生成器所以我一直不提它。测试水平低下 —— 几乎没找到一个国内模型写测试是有水平的是所有全部都是小白水平连设定运行检查期望值这种标准三步走都不会反正每次测试到最后除了让它们生成个方法名其它的我都是手搓的实在是太拉了这可能跟国人从来不喜欢写测试很有关这样大模型就没有什么高质量的源码参考速度高 —— 国内模型的运行速度一定是全球最快的没有之一。但质量是良莠不齐理解力也得看具体场景高级场景有点够呛。而Opus除了速度几乎没有上述的这些问题开篇的这个截图其实很是说明问题。方案一是对复杂性的分解GLM选择的是更为复杂的方案Seed2.0选择附议Opus却认为没有这个必要因为成本与产出不正比。这波打的可是架构师基本功啊只有初级水平时才会范为了模式而模式的低级错误的(有经验的老架构一定知道被现实毒打过都会偏向谨慎)。这可能与中西方走了一条完全不同的发展方式一个是以量盖面一个是以质取胜方案三又是一种在复杂算法的策略问题GLM并没有评估实际情况直接选最好的。Opus为这个问题烧了2K多的Tokens后选最适用的。这波选择就真是体现水平了并且提出的理由字字珠玑条条在理我也无法反驳。毕竟谁斗最大得益者都会是我嘛嘻嘻我是挺享受这种看代码“吃瓜”的过程的。结论今天可不是吃瓜贴是有干货的。我的最终目的是找到一种既快又稳而且最省的方式来与编程大模型结对。如果条件允许我会这样来分配大家可以参详一下更欢迎在评论区发表各自不同的看法毕竟有效的讨论会有新思路。Doubao-Seed-2.0 - 可作为后端主力中正有速度代码质量尚可出错几率低GLM5 - 前端主力审美与速度拉满后端与架构水平还有待提高Opus - 最严格的老师用于评估制定开发方案或者重构方案编写测试。补充我今天会将全部新的评测照例push到源码库内包括今天话题中的三份具体重构方案。有兴趣的朋友可以去源码里面扒一下。

相关新闻

最新新闻

日新闻

周新闻

月新闻