SuperCLUE：中文大模型基准测评2024年上半年报告（附下载地址）

mouse_0232

8 月前

• 国内外大模型差距进一步缩小：国内外大模型差距进一步缩小：OpenAI最新模型GPT-4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。
• 国内开源模型崛起：本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。
• 各任务表现：在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。
• 端侧小模型表现惊艳：端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。

阅读完整报告（星球内用户在2024年7月7日已可下载）