你的位置：开云官网登录入口 www.kaiyun.com > 新闻 > 云开体育测试几个有代表性的大模子-开云官网登录入口 www.kaiyun.com

云开体育测试几个有代表性的大模子-开云官网登录入口 www.kaiyun.com

时间：2025-07-27 10:05 点击：175 次

近日，我国“深度求索”公司发布的具备深度念念考和推理才气的开源大模子DeepSeek-R1受到了全全国的关怀。

在DeepSeek-R1之前，好意思国OpenAI公司的GPT-o1，Athropic公司的Claude，Google公司的Gemini，王人堪称具备了深度念念考和推理才气。这些模子在专科东说念主士和吃瓜网友的琳琅满意见测试中，阐述的确是惊采绝艳。

极度引起咱们意思的，是Google的专用模子AlphaGeometry在公认高难度的外洋奥林匹克数学竞赛中取得了28/42的收货，获取银牌。学生时间咱们也构兵过奥数，深知能在此类外洋奥赛中获银牌的选手，无一不是从小就体现出相当数学资质，且一齐辛劳熏陶的妙手。大要达到这个水平的AI，称其为具备了浩大的念念考才气并不外分。

自打那之后，咱们就一直意思意思，这些浩大的AI，它们的物理水平又怎样？是不所以后就毋庸招贪图生和博士后了？

1月17日，中国科学院物理所在江苏省溧阳市举办了“天目杯”表面物理竞赛。咱们命题组完成了这份试卷的出题使命。七说念题除一说念外，王人不是从现成的题库或考题中改编节选的，咱们三个对这套试卷比较悠闲，以为它既不像传统磨练题相同盯着个别学问点考，也不像高中竞赛题相同需要好多手段和熟识度，而更像实质科研中遭受的具体本领问题。

竞赛前的某天，咱们和几个一又友一说念吃饭，其中一位AI的重度用户知说念了咱们出了这份题，就问有莫得测试过AI的阐述？咱们以为这个提议很有意旨真谛，于是决定在竞赛后，测试几个有代表性的大模子。

所谓来得早不如来得巧。1月20日，当咱们刚纵容竞赛回到北京，正赶上DeepSeek-R1发布引爆了AI圈，它当然成了咱们测试的首选模子。此外咱们测试的模子还包括：OpenAI发布的GPT-o1，Anthropic发布的Claude-sonnet。底下是咱们测试的方式：

1.通盘测试由8段对话完成。

2.第一段对话的问题是“开场白”：移交需要完成的任务，问题的形式，提交谜底的形式等。通过AI的陈述东说念主工说明其集中。

3.按序发送全部7说念题缠绵题干，在收到陈述后发送下一说念题，中间无东说念主工响应意见。

4.每说念题缠绵题干由翰墨式样和图片式样两部分构成（第三、五、七题无图）。

5.图片式样是纯文本方式，式样的文本全部生成自GPT-4o，经东说念主工校对。

6.每个大模子所拿到的翰墨材料是透顶疏浚的。

上述进程后，关于每个大模子咱们获取了7段tex文本，对应于7说念问题的解答。以下是咱们接受的阅卷方式：

1.东说念主工改动tex文本至不错用Overleaf器具编译，收罗编译出的PDF文献看成答卷。

2.将4个模子的7说念问题的解答划分发送给7位阅卷东说念主构成的阅卷组。

3.阅卷组与“天目杯”竞赛的阅卷组透顶疏浚，且每位阅卷东说念主负责的题目也疏浚。例如：阅卷东说念主A负责悉数东说念主类和AI答卷中的第一题；阅卷东说念主B负责悉数东说念主类和AI答卷中的第二题，等等。

4.阅卷组汇总悉数题目得分。

后果怎样呢？请看下表。

后果点评：

1.DeepSeek-R1阐述最佳。基础题（前三题分数拿满），第六题还得到了东说念主类选手中未见到的满分，第七题得分较低似乎是因为未能集中题干中“讲明”的含义，只是重述了待讲明的论断，无法得分。搜检其念念考进程，是存在不错给进程分的门径的，但终末的谜底中这些门径王人莫得体现。

2.GPT-o1总分与DeepSeek收支无几。在基础题（二题、三题）中有诡计失实导致的失分。比拟于DeepSeek，o1的答卷更接近于东说念主类的作风，因此以讲明题为主终末一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”，在前两题中连出昏招打了0分，但后续阐述跟o1相当接近，连扣分点王人是访佛的。

4.若是将AI的收货与东说念主类收货比拟较，则DeepSeek-R1不错参加前三名（获特优奖），但与东说念主类的最高分125分仍有较大差距；GPT-o1参加前五名（获特优奖），Claude-sonnet前十名（获优秀奖）。

终末想聊几句阅卷的主不雅感念。率先是AI的念念路是果真好，基本上莫得无法下手的题，以致好多时分一下子就能找到正确的念念路。但跟东说念主类不同的是，它们在有正确的念念路后，会在一些很浮浅的失实内部打转。比如通过看R1的第七题念念考进程，就发现它一早就知说念要用简正坐标来作念，能猜度这一步的考生险些100%求解出了正确的简正坐标（一个浮浅的矩阵对角化费事），然而R1似乎是在反复的规划和试错，到终末也莫得得到简正坐场所抒发式。还有即是悉数的AI似乎王人不睬解一个“严实”的讲明究竟意味着怎样的条款，似乎认为能在式样上凑出谜底，就算是讲明了。AI如同东说念主类，也会出现许多“未必”失实。比如在负责的长入测试前，咱们暗里尝试过屡次，好多时分Claude-sonnet不错正确解出第一题的谜底，但负责测试的那次它就偏巧作念错了。出于严谨，咱们也许应该对吞并说念题测试屡次然后取平均，但委果是有点繁重……

云开体育

上一篇：体育游戏app平台以致还有“水精如意”在月下跳舞时误伤夫东谈主的情节-开云官网登录入口 www.kaiyun.com
下一篇：没有了

体育游戏app平台以致还有“水精如意”在月下跳舞时误伤夫东谈主的情节-开云官网登录入口 www.kaiyun.com

蛇年到，如若问你：“最驰名的一条蛇是谁？” 老一辈东谈主可能会说是白素贞，关联词影响年轻东谈主最多的，可能是《葫芦昆玉》里的蛇精。动画片里的蛇精有个法宝——如意，想必内行也很闇练。《葫芦昆玉》里的蛇精碰巧，趁过年，就和内行聊聊“如意”，也祝愿内行事事如意。如意的出身从搔背之器到祝愿之宝如意的雏形不错追究到战国时候，最早算作一种爪杖，用于搔持背部，照管“如东谈主之意”的小烦懑。古东谈主仿此形制作念成执持物时，便称此种执持物为“如意”。考古发现标明，当前已知最早的爪杖什物出土于1977

查看更多->

云开体育测试几个有代表性的大模子-开云官网登录入口 www.kaiyun.com

近日，我国“深度求索”公司发布的具备深度念念考和推理才气的开源大模子DeepSeek-R1受到了全全国的关怀。在DeepSeek-R1之前，好意思国OpenAI公司的GPT-o1，Athropic公司的Claude，Google公司的Gemini，王人堪称具备了深度念念考和推理才气。这些模子在专科东说念主士和吃瓜网友的琳琅满意见测试中，阐述的确是惊采绝艳。极度引起咱们意思的，是Google的专用模子AlphaGeometry在公认高难度的外洋奥林匹克数学竞赛中取得了28/42的收货，获取银

查看更多->

云开体育运动三年自然气产量保握30亿立方米以上-开云官网登录入口 www.kaiyun.com

央视新闻音信，从中国海油（600938）获悉，我国首个超深水大气田“深海一号”累计坐褥自然气超100亿立方米，坐褥凝析油超100万立方米云开体育，运动三年自然气产量保握30亿立方米以上。

查看更多->

云开体育测试几个有代表性的大模子-开云官网登录入口 www.kaiyun.com

官方网站

联系邮箱

联系地址