
昨日,xAI 正式发布新一代旗舰模型 Grok 4,马斯克还强调其是目前世界上最聪明的 AI。
据悉,本次 Grok 4 共有两个版本:Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。其中 Heavy 支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。
性能表现上,Grok 4 在《人类最后的考试(HLE)》中,不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%;而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。
常规的基准测试中,Grok 4 Heavy 在博士级难度的问题集 GBQA 中取得满分成绩;而在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼——都远超当前排名第二的模型。
另外,Grok 4 还在知名分析机构 Artificial Analysis 的 7 个推理相关基准评估中位列第一(得分为 73),是目前推理能力综合得分最高的模型,紧随其后的则是 OpenAI 的 o3-pro(估算值)71 分。
性能虽好,但 Grok 4 的价格可谓是真的「不讲武德」:最高可去到 3000 美元/年档位(约合人民币 21524 元)。目前,Grok 4 和 Grok 4 Heavy 已全面上线。
|