高中生用「我的世界」评测SOTA模型！Claude暂时领先DeepSeek紧随其后

来源：牛宝体育登录官网发布时间：2025-05-06 14:26:18

AI频频刷新基准测试纪录，却算不清「strawberry」里到底有几个字母r，在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起，例如由一名高中生开发的MC-Bench，用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式，或许更贴合人类对AI直观、创造性能力的实际期待。

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？

对于现如今的LMMs来说，通过种种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。

但是对于人类来说依靠直觉和下意识就能回答的问题，LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩，但却无法数清楚「strawberry」中有多少r。

比如可以在Chatbot Arena进行上提问投票，选出面对相同问题时的「最佳模型」。

但是这种依靠Chat模式的评测依然不太直观，于是各种各样的创意评测就诞生了。

像MC-Bench这样的创意评测，优势很明显：普通人也能轻松参与，像「选美」一样简单直接。

而是作为有史以来最畅销的电子游戏，即使对于没玩过Minecraft游戏的人来说，仍旧能选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的，除了Adi Singh外，贡献者还有7位，包括了「提示词创意官」、技术主管和开发者们。

主场优势 (Overfitting to benchmarks)：传统的 AI 基准测试往往基于特定类型的任务设计，这些任务对 AI 模型来说相对固定且简单，这种过拟合就像一名「只会背题」的学生。

测试任务过于狭窄：传统的测试任务多集中于单一维度的能力评估，如语言理解、逻辑推理、数学计算。

缺乏真实环境与开放性：传统的基准测试通常使用高度抽象化或理论化的环境，而这些环境往往不能反映现实世界中问题的开放性和不确定性。

难以衡量通用性与泛化能力：传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。

对于为何选择游戏，选择Minecraft，Adi Singh觉得「游戏可能仅仅是一种测试能动性推理的媒介，比真实的生活更安全，也更适合测试目的，因此在我看来更为理想」。

从Adi Singh个人网站来看，他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」，Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如，gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。

再比如，claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型，根据提示「韩国友谊之钟」生成。

Aid an McLaughlin同时给出了他认为最佳的人工智能基准应具有：

在Claude 3.7 Sonnet发布时说过，模型降低了在数学、竞赛和编程方面的特化程度，有「更好」的思考能力。

甚至还在Twitch上直播了Claude玩游戏的全过程，能够正常的看到它如何学习、思考并采取行动。

传统基准测试的评估结果多采用单一的客观分数（如准确率），忽视了人类实际感受和主观评价的维度。

在生成式AI中，美学感知、创造力、直观性往往更重要，但这一些因素很难在传统的标准化测试中体现出来。

也许类似MC-Bench这样的创意评测会给未来的AI评测带来新的「范式」。