阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o和Claude-3.5

  • 来源:
  • 2024-08-09

Qwen官方网站消息,8月8日,阿里发布了Qwen2-Math(1.5B/7B/72B)系列。Qwen2-Math是一系列基于Qwen2 LLM构建的专门用于数学解题的语言模型,数学推理能力全球第一。

Qwen团队表示,Qwen2-Math是基于Qwen2大型语言模型构建的一系列专业数学语言模型,其数学能力显著超越了开源模型甚至闭源模型(例如GPT-4o)。希望Qwen2-Math能够为解决复杂的数学问题做出社区贡献。

Qwen团队表示,一系列数学基准评测结果表明,阿里最大的数学专用模型Qwen2-Math-72B-Instruct超越了最先进的模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B。

Qwen团队介绍,Qwen2-Math的基础模型以Qwen2-1.5B/7B/72B为起点,然后在精心设计的数学专业语料库上进行预训练。该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由Qwen2合成的数学预训练数据。

团队使用中英文的数学基准评测对Qwen2-Math-72B-Instruct进行评估。除了常用的GSM8K和Math基准评测,还加入了更具挑战性的考试,例如,OlympiadBench、CollegeMath、中考、高考等。