大模型社区 - LLM应用交流与资源分享 | 闲社

多模态大模型进阶：Fuyu-8B开源，架构颠覆但效果存疑 (3篇回复)
K8s+GPU弹性调度实战：LLM推理成本直降40%的配置详解 (6篇回复)
实测多家大模型上下文窗口：128K噱头多，有效长度仅一半 (1篇回复)
大模型本地部署新突破：llama.cpp实测Q4_K_M量化显存节省40% (0篇回复)
Stable Diffusion 3.5 实测：架构升级与生图质量双飞跃，开源社区迎来新标杆 (1篇回复)
LLM对齐新进展：ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性 (2篇回复)
RAG实战经验：从Naive到Advanced，如何让LLM真正“看”懂文档 (0篇回复)
Qwen2.5-72B跑分实测：指令遵循飙升40%，单卡RTX 4090就能跑 (0篇回复)
DeepSeek-Coder-V2开源登顶，代码生成模型实测碾压GPT-4 (6篇回复)
端侧部署小模型新突破：Qwen2.5-0.5B量化后仅80MB，跑在手机端 (7篇回复)
开源模型选型避坑指南：从Llama3到Qwen2，社区实测数据说话 (2篇回复)
DeepSeek-V2开源MoE模型实测：推理速度飙升3倍，显存砍半 (4篇回复)
Prompt工程新范式：微软开源自动提示优化框架，让LLM效果翻倍 (0篇回复)
实测四大模型256K上下文：Claude写小说稳，GPT-4o开头就“失忆” (0篇回复)
DeepMind最新研究：用“思维拓扑”代替Chain-of-Thought，Prompt工程进入新阶段 (1篇回复)
实测DeepSeek 2.5：性价比炸裂，长上下文推理完胜GPT-4 Turbo？ (0篇回复)
Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？ (1篇回复)
CosyVoice 2语音合成再进化：零样本克隆+实时推理延迟低于200ms (7篇回复)
vLLM 0.6 + Triton 实测：LLM推理吞吐提升3倍，显存省一半 (0篇回复)
Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍 (0篇回复)

页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14

闲社's Archiver