闲社 › 开发社区 › 模型社区 › 实测对标DeepSeek-V3，阿里Qwen3深度复盘：编程、推理、 ...

mailman

发帖数42
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-22 [新手指南]

【新手教程】Windows 本地部署 ComfyUI 完

前言 ComfyUI 是目前最灵活的 AI 图像生成工具之一，基于节点式工作流设计，让你像搭

2026-06-22 [技能分享]

【教程】零基础部署Cognee：给AI Agent装上

【教程】零基础部署Cognee：给AI Agent装上永久记忆的知识图谱实战发布时间：2026-0

2026-06-22 [资源工具]

【AI工具】GitHub本周爆火：Agent-Reach、O

引言：开源AI工具正在爆发最近刷GitHub Trending，发现AI Agent和视频生成工具正在

2026-06-22 [开发社区]

【开发】GitHub今日爆火：AI Agent时代来临

引言今天刷GitHub Trending，发现一个明显的趋势正在加速——AI Agent正在从概念走

2026-06-22 [模型社区]

【大模型】最新！GPT-5.4化身AI化学家攻克

引言：当大模型走出聊天框，开始真正"做实验" 最近OpenAI连发多篇重磅研究，其中最让

2026-06-22 [模型社区]

本地跑千亿模型新突破？LLaMA.cpp实测Q4_K_

兄弟们，最近社区里讨论最多的就是“本地部署大模型还能省多少显存”。我昨天刚实测了

2026-06-22 [模型社区]

实测对标DeepSeek-V3，阿里Qwen3深度复盘：

兄弟们，今天刚测完阿里新出的Qwen3，直接把结论甩出来：编程和推理能力有惊喜，但长

2026-06-22 [新手指南]

【新手教程】Docker + Ollama 一键部署本地

【新手教程】Docker + Ollama 一键部署本地大模型：从零开始搭建AI开发环境最近不少

2026-06-22 [技能分享]

【教程】用 headroom 压缩 LLM 上下文：节

前言调用大模型 API 时，上下文长度直接决定成本。headroom 是 GitHub 上 4.5 万星

2026-06-22 [资源工具]

【AI工具】Claude 4 深度评测：Sonnet与Opu

引言 2025年5月，Anthropic正式发布了Claude 4系列模型，包括Claude 4 Sonnet和Claud

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 AI技术新风向：3D重建、模型革新与智能硬件的融合

4 深入浅出：架构设计的艺术与挑战🤓

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 整理了一些学习资料

7 整理了一些学习资料

8 分享一些实用的开发工具

9 分享一些实用的脚本工具

10 推荐几个好用的软件资源

实测对标DeepSeek-V3，阿里Qwen3深度复盘：编程、推理、长文本谁更强？

[复制链接]

mailman 显示全部楼层 发表于 3 小时前 |阅读模式

兄弟们，今天刚测完阿里新出的Qwen3，直接把结论甩出来：编程和推理能力有惊喜，但长文本处理还有优化空间。

先说硬核数据。Qwen3在HumanEval编程测试中达到82.4% pass@1，比DeepSeek-V2的78.9%高了近4个点。我用了个实际场景——让它用Python写一个带交叉验证的xgboost调参脚本，Qwen3直接输出了完整代码，包括GridSearchCV的参数范围设置，而且没出现花括号漏匹配这种低级错误。DeepSeek-V2在这里输了个伪代码框架，需要手动补全。

推理方面，用了个逻辑谜题测试：“三个人中一个小偷，A说B偷的，B说C偷的，C说不是我”。Qwen3准确推理出B说谎，答案正确；DeepSeek-V2第一步就绕进去了。

但长文本实测暴露了问题。我丢给它一份63页的金融研报PDF，要求总结关键数据和风险提示。Qwen3在35页之后开始出现关键信息遗漏，尤其是表格里的具体增长率数值。DeepSeek-V2在50页左右才开始衰减。如果你的项目经常需要处理超长文档，建议还是用DeepSeek或者搭配RAG方案。

总结：编程和逻辑推理场景，Qwen3是目前国产开源模型里的第一梯队；长文本和复杂指令跟随，还得再观望两个小版本。