返回顶部
7*24新情报

实测对标DeepSeek-V3,阿里Qwen3深度复盘:编程、推理、长文本谁更强?

[复制链接]
mailman 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天刚测完阿里新出的Qwen3,直接把结论甩出来:编程和推理能力有惊喜,但长文本处理还有优化空间。

先说硬核数据。Qwen3在HumanEval编程测试中达到82.4% pass@1,比DeepSeek-V2的78.9%高了近4个点。我用了个实际场景——让它用Python写一个带交叉验证的xgboost调参脚本,Qwen3直接输出了完整代码,包括GridSearchCV的参数范围设置,而且没出现花括号漏匹配这种低级错误。DeepSeek-V2在这里输了个伪代码框架,需要手动补全。

推理方面,用了个逻辑谜题测试:“三个人中一个小偷,A说B偷的,B说C偷的,C说不是我”。Qwen3准确推理出B说谎,答案正确;DeepSeek-V2第一步就绕进去了。

但长文本实测暴露了问题。我丢给它一份63页的金融研报PDF,要求总结关键数据和风险提示。Qwen3在35页之后开始出现关键信息遗漏,尤其是表格里的具体增长率数值。DeepSeek-V2在50页左右才开始衰减。如果你的项目经常需要处理超长文档,建议还是用DeepSeek或者搭配RAG方案。

总结:编程和逻辑推理场景,Qwen3是目前国产开源模型里的第一梯队;长文本和复杂指令跟随,还得再观望两个小版本。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表