MIT 科技评论:讯飞星火被评为中国“最聪明”的大模型

国内“千模大战”谁是最聪明的大模特? 《麻省理工科技评论》中国版最新发布的大规模模型评估报告给出了答案。

报告显示,在8个一级类别600道题的测试和盲评中,讯飞Spark认知模型V2.0在6个类别中得分率排名第一,在本次评测中表现出色,登顶本次评测榜首以81.5分(百分比量表)的成绩,荣获“最聪明”的国内大型模型称号。

图:大模型评测综合得分率

WechatIMG529

图:4大型号能力雷达图

《麻省理工科技评论》从研发和商业化能力、外界态度、发展趋势等维度全面检验中国大型模型的能力,力求评价“最聪明”的国产大型模型。 “讯飞星火”、“百度文心一言”、“商汤讨论”、“阿里同义千问”被选为中国大型模型平台代表,进行系统、科学的评价。

本次评测使用的测试集共600题,涵盖语言专业、数学专业、综合理科、综合文科、逻辑思维、编程能力、综合知识、安全共8个一级类别,以及126个二级类别。级别类别。 ,290个三级标签,并针对问题的丰富性和多样性进行了优化。

题型方面,为了兼顾定量和定性评价测试,设置了“单选”、“多选”、“填空”、“简答”四种题型,共有145道题。题、138题、136题和181道分别。 大型模型评估体系采用盲评估方法,客观评估国产大型模型的智能程度。

作为“最聪明”大模型的基础能力,语言评测包括对话理解、多语言、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等61个二级类别。 简短的答案是主要的。 结果显示,讯飞星火以85.73%的评分率排名第一,明显高于平均水平。

图片 10

图:特殊语言测试得分率

_中国诗词大会及评_合肥讯飞科技有限公司

数学专项评估是“最智能”大模型不可或缺的评估维度。 本次评价包括代数、几何、解方程、复杂数学、统计学等9个小类,以选择题为主。

其中,讯飞Spark以77.75%的评分率排名第一,远高于56%的平均评分率,其他平台的评分率基本持平。 报道称,在大型模型普遍“数学不好”的情况下,讯飞星火的成就是相当罕见的。 分类中评分率第一,远超其他平台,初步判断擅长几何和场景应用。

图片 11

图:数学专项考核得分率

作为体现大模型“智能”不可或缺的“硬核”部分,科学综合评价包括表格问答、化学、生物、物理、医学5个二级类别。 题型以单选题和简答题为主。

在评测结果中,讯飞Spark以78.50%的得分率排名第一。 此外,讯飞星火在科学综合类二级分类评价中80%得分第一,化学、生物更为突出。

图:理科综合评价得分率

逻辑思维也是“最聪明”大模型的重要体现。 本次逻辑思维测评从逻辑推理和思维链条方面设计了很多题,包括类比、常识推理、空间定向、演绎推理、逻辑谬误检测、因果关系等。 推理等19个小类题型相对平均,其中填空题最多,选择题最少。

在逻辑思维题中,讯飞星火以81.25%的得分率排名第一,明显高于平均分72.6%。 此外,讯飞星火在逻辑思维二级分类问题中以63.2%的占比排名第一。 逻辑思维对于大型模型真正理解物理世界非常重要。

图片 13

图:逻辑思维测试得分率

编程能力是大模型比较高级的能力。 本次编程能力测评包括六个二级分类:ASCII、ASCII码识别、代码、代码纠错、计算机。 大型模型的代码生成能力主要以简答的形式来评价。 和正确率,其他都是以客观题的形式考察。

中国诗词大会及评__合肥讯飞科技有限公司

结果显示,讯飞星火80%的评分率明显高于平均71%,其他平台的评分率基本持平。 值得一提的是,讯飞Spark在很多人关心的代码生成简答题中得分率高达82%,远远高于其他平台,表现相当可观。

图:编程能力测评综合得分率

综合知识作为相对难度较大的评价维度,对大模型的“智能”也有着较高的要求,涉及的话题也较为复杂,包括百科问答、常识、科学知识、事实题等13个二级类别。还有答案、作业技巧、谜语,题型以选择题为主。

在知识综合评价中,讯飞星火以80.61%的得分率排名第一,以84.6%的得分率排名二级分类第一,初步展现了其在百科问答和历史人文方面的“过硬”。

图片 8

图:综合知识考核得分率

报道指出,在本轮大型模型评测中,讯飞星火以81.5分的成绩获得第一名,成为“最聪明”的国产大型模型。

讯飞寻火在编程能力、科学综合、逻辑思维、数学专业、语言专业、综合知识六个一级类别中排名第一。 在本次评测中表现非常全面,尤其是在代码生成方面,在数学能力、科学能力和逻辑能力上都有明显优势,是本次“最聪明的理科生”。

值得一提的是,从题型来看,讯飞星火以主观简答题得分率为83.98%排名第一; 讯飞星火以客观题得分率为75.7%排名第一。 无论是主观体型还是客观体型,它都表现良好。

此外,就在8月12日,在新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总销量跻身国内主流大模型之列。得分1013分。 在评测榜单中排名第一,并在四大评测维度中智商指数和工具效率指数两个维度排名第一。 《报告》认为,讯飞星火“在提高工作效率方面优势明显”。

刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力。 在技​​术取得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富:有智能编码助手。 、可轻松构建轻应用的教育数字基础应用开发助手、帮助教师一键设计教学活动、生成课件的星火教师助手、针对英语学习者口语练习的星火语言伴侣2.0、讯飞AI学习机。 升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴。 此外,科大讯飞与华为联合发布Spark一体机,让每家企业都有机会打造专属大机型。

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

您可能还会对下面的文章感兴趣: