Grok 4强势发布!马斯克:它是在所有学科同时达到博士后水平的唯一存在
“地表最强AI模型”——Grok 4,来了!
北京时间7月10日,马斯克旗下人工智能公司xAI正式发布新一代AI模型Grok 4。在发布直播中,马斯克宣称,“‘博士级通才’已不足以描述Grok 4,它是在所有学科同时达到博士后水平的唯一存在。”
老马相信,Grok 4可以在今年内实现科学新突破性发现。
没错,Grok 4正是那个在“人类最后测试(HLE)”中霸榜第一的逆天模型,目前已向X Premium+订阅者开放。
年费超2万元,目标“重写人类知识库”
据xAI介绍,Grok 4系列模型分为两个版本,Grok 4的订阅费为30美元/月,更强大的Grok 4 Heavy版本的费用为300美元/月。
掐指一算,最强版本的Grok 4年费已经超过2万元人民币,究竟是否物有所值?
根据测试,Grok 4 Heavy在HLE考试中斩获44.4%的高分,远超此前排名第一的Gemini 2.5 Pro(26.9%)。
HLE测试横跨100个学科,包含2500道博士级试题(数学/理论物理/语言学等)。如今的得分意味着Grok 4在复杂知识体系和深度思考能力上已实现明显突破,成为了AI大模型能力的新标杆。
xAI介绍,Grok 4的出现将一改“大模型只是知识复读机”的刻板印象。这次的目标,是让Grok 4能力发生质变,超越人类专家水平,通过自主深度思考解决现实复杂问题,重写人类知识库。
在直播中,xAI团队用“黑洞碰撞模拟计算”和“世界赛预测胜率”的问题举例,Grok 4 几乎通过可视化完整呈现了两个黑洞的引力波模拟效果,体现Grok 4对多源数据的采集和分析能力,以及该模型对现实问题的自我深度思考及推理能力。
从训练技术方案来看,Grok 2到Grok 4的计算训练量提升了100倍,通过数据筛选和算法优化实现了训练效率的突破提升。
在全球最顶超算集群Colossus的加持下,再加上强化学习(RL)的投入增加,让Grok 4的推理能力较前代再提升10倍。
xAI介绍,从Grok 2到Grok 4,采用的技术范式有所不同,分别为token 预测、预训练计算、预训练 + RL、和RL 计算。
此外,Grok 4在语音能力上也有所加强,相较于上代速度快了 2 倍,并支持唱歌和低语模式,让不少重视交互性体验的用户眼前一亮。
霸榜顶尖基准测试,网友直呼“AGI已来”
说了这么多,Grok 4到底有多强?不如一起看看最新出炉的基准测试结果。
除了开头提到的“人类最后测试(HLE)”,Grok 4 Heavy在HMMT(哈佛-麻省理工数学竞赛)、USAMO(美国数学奥林匹克竞赛)、GPQA(博士级基准测试)等高质量测试中,表现同样惊艳,包揽第一位置。
其中,在AIME25(美国数学邀请赛)中,Grok 4 Heavy更是取得了满分成绩。
有“AGI试金石”之称的ARC-AGI基准测试,主要用于测试模型在全新未知情境中的即时推理和学习效率,Grok 4达到SOTA顶尖水准。
另就大模型性能评估平台 Artificial Analysis 发布的基准测试成绩表明,Grok 4 已然成为当前领先的 AI 模型,总成绩高达 73 分,领先于 o3、Gemini 2.5 Pro、DeepSeek R1 0528等模型。
不少网友直呼,“看到Grok 4,感觉AGI(通用人工智能)已来。”
在发布会结尾,xAI也公开了Grok 4发布后的未来产品计划,8月将上线编程模型,9月将上线多模型智能体,10月晚些会发布视频生成模型,重点优化视觉能力。
AI竞赛仍在继续,期待值已被老马安排的“年度大戏”拉满。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
感动 | 同情 | 无聊 | 愤怒 | 搞笑 | 难过 | 高兴 | 路过 |
- 上一篇:Hugging Face开源顶级模型:双模式推理+1…
- 下一篇:没有了!
相关文章
-
没有相关内容