DeepSeek V4 到底改变了什么
2026 年 4 月 24 日,DeepSeek 把 V4 放出来了。
同时发的是两件事:模型权重,和一份叫《Towards Highly Efficient Million-Token Context Intelligence》的技术报告。没有发布会,没有直播,跟 2025 年春节那次一样——一篇论文,一组 benchmark,代码和权重直接丢 GitHub。
当时在 X 上看到截图的第一反应不是惊讶,是「又来了」。
2024 年底 V2 的时候大家还在讨论「中国能不能做前沿 AI」。2025 年 1 月 R1 出来,讨论变成了「开源能不能追上闭源」。现在 V4 出来,讨论已经变成了「为什么它这么便宜还能这么强」。
这个变化只用了不到两年。
一个背景数字
DeepSeek + Qwen,2025 年 1 月在 AI 模型市场的份额是 1%。
到 2026 年 1 月,这个数字是 15%。
这是 AI 历史上最快的采用曲线。不是靠营销,是靠「开源 + 便宜 + 不差」的组合拳。
V4 出来之后,这条曲线还会更陡。
V4 在技术上做了什么
先说最核心的一件事。
V4 不是 R1 那样的「推理模型」。R1 的特点是让模型在回答之前先想一阵子,也就是现在大家熟悉的 chain-of-thought。R1 出来后一夜之间所有大厂都在做 reasoning model,因为你发现「让它多想几步」居然比「把模型做大」更有效。
V4 的逻辑不一样。
V4 要解决的问题是「让它想的时候别那么贵」。
这是 DeepSeek 一直以来的主线——从 V2 的 MoE(Mixture of Experts)、V3 的 Multi-Token Prediction 到 V4 的注意力层优化,每一代的核心命题都是「能不能用更少的算力做差不多的事」。
这次 V4 在注意力机制上动了刀:
- 每 token 推理 FLOPS 降低了 73%
- KV 缓存内存负担降低了 90%
对用户来说,这两个数字翻译成人话就是:「它支持 1M token 上下文,但跑起来比上一代 128K 的模型还快」。
1M 上下文是什么概念?大约相当于三本《三体》全塞进去,它还能准确找到第 387 页的那句话。
而且 384K 最大输出,意思是一次能吐出来的内容也翻了几个数量级。
这两个数字加在一起解决的是 agent 场景最头疼的问题:上下文越长,模型越慢、越贵、越容易忘事。V4 的解法不是「把窗口做大」,是「让长窗口不再是一个成本问题」。
价格:1/6 到 1/9
V4 Pro 的定价是 $1.74/M token。
同期 GPT-5.5 是 $5/M,Claude Opus 4.7 也是类似水平。
也就是说 V4 Pro 的输出价格大约是竞品的 1/3 到 1/9(看具体比哪个模型、哪个方向)。
我自己的账单上能看到这个差距。一个月的 Claude 订阅买 200K token 的配额,同样的钱在 DeepSeek API 上能跑 120 万 token。对于经常调 API 的人,这不是「略便宜」,是「换了预算结构」。
当然便宜的前提是「质量差不多」。如果便宜但差很远,没人会用。
那就看 benchmark。
Benchmark 上到底怎么样
先说不好的。
Aider 多语言编程基准上,V4 Pro 排第三,排在 Claude Opus 4.7 和 GPT-5.5 之后。差距不大,但有。
SWE-bench 上也是类似的情况:V4 Pro 在前三,但没拿第一。
也就是说在最顶尖的 coding 能力上,V4 还没超过 Anthropic 和 OpenAI 的最强模型。
然后说好的。
在 LiveCodeBench、AIME 数学推理、GPQA 科学推理这些基准上,V4 Pro 和 Claude Opus 4.7、GPT-5.5 基本打平。有些项目略高,有些略低,但不在统计显著的范围外。
对于一个价格差了几倍的模型,打平就已经是赢了。
而且这不是 DeepSeek 第一次这么干。R1 出来的时候也是类似的剧本:不是最强,但是够强;不是第一,但是够用。真正的杀伤力在于「够用 + 开源 + 便宜」这三件事放在一起。
开源这件事为什么重要
有一个细节经常被忽略。
V4 是 MIT 许可。
MIT 意味着你可以用它做任何事——微调、蒸馏、商用部署、塞进产品里卖——不需要经过任何人同意。对比之下,Meta 的 Llama 虽然也开源,但带了一堆商业限制。
对开发者的实际影响:
- 你可以把 V4 部署在自己的服务器上,数据不出自己的机房
- 你可以微调自己的版本,不需要向 DeepSeek API 付费
- 你可以把它当成一个基座,往上搭自己的系统
我认识几个在做 toB 产品的朋友,之前一直用 GPT API,因为数据合规的原因不敢把客户数据传给 OpenAI。V4 出来后他们可以直接在阿里云或者自己的 GPU 集群上跑,成本砍了 70%。
这不是「开源精神」,这是实打实的商业选择。
对写代码的人意味着什么
如果你是写代码的,V4 最直接的影响是三个:
1. Copilot/Cursor 类工具的成本会继续降
现在大部分编程助手背后调的其实还是 OpenAI 或 Anthropic 的模型。V4 的性价比意味着中间层服务可以用更低的成本提供差不多的体验,竞争会让定价更友好。
2. 自建 agent 的门槛更低了
V4 的 1M 上下文 + 低延迟让 agent 循环(反复调 API)的成本不再是个天文数字。以前跑一个完整 agent session 可能要 $3-$5,现在 $0.5 左右就搞定了。
这对 personal agent、企业内部工具、小团队实验来说,是质的变化。
3. 模型的选择不再是二选一
Claude 现在最大的优势不是 benchmark,是「准确不废话」的能力和工具使用的稳定性。GPT 的优势是生态和多模态。DeepSeek 的优势是便宜、开源、推理能力不错。
实际上现在最佳策略不是押一个,而是混用:复杂代码用 Claude,长上下文推理用 V4,多模态任务用 GPT。
但也要说它不好在哪
DeekSeek 目前不是完美的。
第一,多模态能力还不够。V4 目前还是文本为主,虽然纯文本能力已经足够好,但在需要看图、识图、生成图的场景上不如 GPT。
第二,工具调用稳定性。Claude 在 function calling 上的成功率仍然是最高的。DeepSeek 偶尔会漏参数,格式不够稳定。
第三,对齐和安全性还在追赶。这不是能力问题,是 engineering 积累的问题。Anthropic 在这方面做了很多年,DeepSeek 还需要时间。
第四,中国大陆以外推理延迟波动。V4 Pro 在 DeepSeek 官方 API 上很快,但第三方接入的延迟不稳定。
这些都是真实存在的问题,但不影响一个判断:
DeepSeek V4 是目前性价比最高的通用大模型,没有之一。
最后
2025 年 R1 出来的时候,很多人说这是「AI 的 Sputnik 时刻」。
我不太喜欢这种比喻。因为 Sputnik 暗示的是一种惊讶和恐慌,但 DeepSeek 做的事其实一直很有迹可循:
MoE 架构、FP8 训练、Multi-Token Prediction、注意力优化——每一步都是公开发表,每一步都是工程创新,不是黑魔法。
V4 真正改变的不是技术路线,是人们对于「多少钱才能做前沿 AI」的预期。
原来你以为要 10 亿美元的训练预算、10 万张 H100 才能摸到 GPT-5.5 的门槛。现在一个中国团队告诉你:不需要那么烧钱,关键是架构,不是算力堆砌。
这件事的影响比一次 benchmark 排名深远得多。
它意味着前端 AI 研究的进入门槛在下降,意味着小团队和大学实验室也能参与进来,意味着模型层的竞争会越来越不是「谁更有钱」,而是「谁更会设计」。
写这篇文章的这天,我去翻了翻 V4 的技术报告。报告不长,60 多页,读起来很顺畅。
最后一句是这样的:
We hope our work can inspire more efficient architectures and contribute to the democratization of AI.
这句话别人说可能是场面话。
但把模型权重 MIT 开源的人说这句话,你得当真。