据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
69成品视频入口新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
139.47MB
查看841.53MB
查看40.7MB
查看957.10MB
查看515.58MB
查看659.92MB
查看695.78MB
查看251.57MB
查看805.48MB
查看549.72MB
查看218.76MB
查看385.11MB
查看896.95MB
查看335.33MB
查看752.40MB
查看723.46MB
查看119.24MB
查看552.17MB
查看186.12MB
查看213.22MB
查看457.84MB
查看531.98MB
查看212.21MB
查看545.92MB
查看949.13MB
查看573.60MB
查看863.63MB
查看383.25MB
查看767.31MB
查看465.10MB
查看374.39MB
查看751.29MB
查看968.13MB
查看270.24MB
查看886.50MB
查看491.24MB
查看989.66MB
查看373.98MB
查看317.54MB
查看848.22MB
查看468.99MB
查看279.19MB
查看727.45MB
查看577.56MB
查看633.57MB
查看375.35MB
查看218.41MB
查看633.53MB
查看749.65MB
查看441.29MB
查看322.47MB
查看935.51MB
查看895.67MB
查看791.33MB
查看880.25MB
查看515.75MB
查看695.48MB
查看426.56MB
查看701.59MB
查看249.81MB
查看776.76MB
查看176.31MB
查看744.52MB
查看832.28MB
查看404.43MB
查看619.14MB
查看624.32MB
查看530.24MB
查看821.30MB
查看612.71MB
查看726.40MB
查看365.86MB
查看273.42MB
查看984.14MB
查看723.35MB
查看284.18MB
查看939.19MB
查看709.93MB
查看729.20MB
查看940.64MB
查看379.58MB
查看257.63MB
查看627.17MB
查看484.74MB
查看826.34MB
查看101.99MB
查看417.53MB
查看439.59MB
查看961.32MB
查看401.96MB
查看715.68MB
查看136.85MB
查看747.15MB
查看164.36MB
查看854.63MB
查看231.21MB
查看392.38MB
查看719.69MB
查看423.38MB
查看745.33MB
查看551.31MB
查看574.43MB
查看925.47MB
查看892.70MB
查看
372 汕头le
鼓励放宽车辆限购💷
2025-07-01 19:40:32 推荐
910 188****9179
你最欣赏繁花的哪个方面💻
2025-06-29 0-1:27:43 不推荐
152 152****6719
人为什么会抑郁💿
2025-06-29 02:52:17 推荐
74 高尔夫大赛
第一次见男朋友家长送什么显得有诚意📂
2025-06-30 17:51:53 推荐