https://sputniknews.cn/20250130/1063886616.html

中国阿里云发布Qwen2.5-Max，模型性能超越DeepSeek-V3

俄罗斯卫星通讯社

1月29日，阿里云通义千问旗舰版模型Qwen2.5-Max正式发布。阿里云表示，新模型展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。 2025年1月30日, 俄罗斯卫星通讯社

2025-01-30T08:05+0800

中国

人工智能

模型

https://cdn.sputniknews.cn/img/103102/65/1031026569_0:23:1500:867_1920x0_80_0_0_c5ab5c917e694b44d51d3bed0df6a667.jpg

阿里云称，Qwen2.5-Max在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本性能进行了评估测试。据悉，指令模型是所有人可直接对话体验到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。基座模型反映模型裸性能，由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型，通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。评估结果显示，在所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。目前，Qwen2.5-Max已在阿里云百炼平台上架，模型名称qwen-max-2025-01-25`，企业和开发者都可通过阿里云百炼调用新模型API。同时，也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max，直接与模型对话，或者使用artifacts、搜索等功能。据路透社报道，选择在大年初一发布Qwen 2.5-Max是较为特殊的时间点，也显示了深度求索（DeepSeek）过去三周迅速崛起，给中国境内外竞争对手带来压力。深度求索1月20日发布推理模型DeepSeek-R1后，字节跳动旗下豆包更新版大模型1.5-pro于22日正式发布。据悉，1.5-pro模型增强了综合能力，在知识、代码、推理、中文等多个测评基准上，综合得分优于GPT-4o、Claude 3.5 Sonnet 等模型。

https://sputniknews.cn/20250129/1063876261.html

俄罗斯卫星通讯社

feedback.cn@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

2025

俄罗斯卫星通讯社

feedback.cn@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

新闻

cn_CN

俄罗斯卫星通讯社

feedback.cn@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

1920

1080

true

1920

1440

true

https://cdn.sputniknews.cn/img/103102/65/1031026569_75:0:1403:996_1920x0_80_0_0_3a1870ff9ab051dceebad3dfc9256dd3.jpg

1920

true

俄罗斯卫星通讯社

feedback.cn@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

俄罗斯卫星通讯社

中国, 人工智能, 模型

中国阿里云发布Qwen2.5-Max，模型性能超越DeepSeek-V3

2025年1月30日, 08:05

CC0 / Gerd Altmann / 中国阿里云发布Qwen2.5-Max，模型性能超越DeepSeek-V3

中国阿里云发布Qwen2.5-Max，模型性能超越DeepSeek-V3 - 俄罗斯卫星通讯社, 1920, 30.01.2025

CC0 / Gerd Altmann /

1月29日，阿里云通义千问旗舰版模型Qwen2.5-Max正式发布。阿里云表示，新模型展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。

据悉，指令模型是所有人可直接对话体验到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

基座模型反映模型裸性能，由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型，通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。评估结果显示，在所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。

目前，Qwen2.5-Max已在阿里云百炼平台上架，模型名称qwen-max-2025-01-25`，企业和开发者都可通过阿里云百炼调用新模型API。同时，也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max，直接与模型对话，或者使用artifacts、搜索等功能。

据路透社报道，选择在大年初一发布Qwen 2.5-Max是较为特殊的时间点，也显示了深度求索（DeepSeek）过去三周迅速崛起，给中国境内外竞争对手带来压力。

深度求索1月20日发布推理模型DeepSeek-R1后，字节跳动旗下豆包更新版大模型1.5-pro于22日正式发布。据悉，1.5-pro模型增强了综合能力，在知识、代码、推理、中文等多个测评基准上，综合得分优于GPT-4o、Claude 3.5 Sonnet 等模型。