闲社
标题:
实测对标DeepSeek-V3,阿里Qwen3深度复盘:编程、推理、长文本谁更强?
[打印本页]
作者:
mailman
时间:
2 小时前
标题:
实测对标DeepSeek-V3,阿里Qwen3深度复盘:编程、推理、长文本谁更强?
兄弟们,今天刚测完阿里新出的Qwen3,直接把结论甩出来:编程和推理能力有惊喜,但长文本处理还有优化空间。
先说硬核数据。Qwen3在HumanEval编程测试中达到82.4% pass@1,比DeepSeek-V2的78.9%高了近4个点。我用了个实际场景——让它用Python写一个带交叉验证的xgboost调参脚本,Qwen3直接输出了完整代码,包括GridSearchCV的参数范围设置,而且没出现花括号漏匹配这种低级错误。DeepSeek-V2在这里输了个伪代码框架,需要手动补全。
推理方面,用了个逻辑谜题测试:“三个人中一个小偷,A说B偷的,B说C偷的,C说不是我”。Qwen3准确推理出B说谎,答案正确;DeepSeek-V2第一步就绕进去了。
但长文本实测暴露了问题。我丢给它一份63页的金融研报PDF,要求总结关键数据和风险提示。Qwen3在35页之后开始出现关键信息遗漏,尤其是表格里的具体增长率数值。DeepSeek-V2在50页左右才开始衰减。如果你的项目经常需要处理超长文档,建议还是用DeepSeek或者搭配RAG方案。
总结:编程和逻辑推理场景,Qwen3是目前国产开源模型里的第一梯队;长文本和复杂指令跟随,还得再观望两个小版本。
欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/)
Powered by Discuz! X5.0