DeepSeek V4 到底改变了什么

2026-05-15 · DeepSeek, 大模型, AI 行业, 长上下文

2026 年 4 月 24 日，DeepSeek 把 V4 放出来了。

同时发的是两件事：模型权重，和一份叫《Towards Highly Efficient Million-Token Context Intelligence》的技术报告。没有发布会，没有直播，跟 2025 年春节那次一样——一篇论文，一组 benchmark，代码和权重直接丢 GitHub。

当时在 X 上看到截图的第一反应不是惊讶，是「又来了」。

2024 年底 V2 的时候大家还在讨论「中国能不能做前沿 AI」。2025 年 1 月 R1 出来，讨论变成了「开源能不能追上闭源」。现在 V4 出来，讨论已经变成了「为什么它这么便宜还能这么强」。

这个变化只用了不到两年。

一个背景数字

DeepSeek + Qwen，2025 年 1 月在 AI 模型市场的份额是 1%。

到 2026 年 1 月，这个数字是 15%。

这是 AI 历史上最快的采用曲线。不是靠营销，是靠「开源 + 便宜 + 不差」的组合拳。

V4 出来之后，这条曲线还会更陡。

V4 在技术上做了什么

先说最核心的一件事。

V4 不是 R1 那样的「推理模型」。R1 的特点是让模型在回答之前先想一阵子，也就是现在大家熟悉的 chain-of-thought。R1 出来后一夜之间所有大厂都在做 reasoning model，因为你发现「让它多想几步」居然比「把模型做大」更有效。

V4 的逻辑不一样。

V4 要解决的问题是「让它想的时候别那么贵」。

这是 DeepSeek 一直以来的主线——从 V2 的 MoE（Mixture of Experts）、V3 的 Multi-Token Prediction 到 V4 的注意力层优化，每一代的核心命题都是「能不能用更少的算力做差不多的事」。

这次 V4 在注意力机制上动了刀：

每 token 推理 FLOPS 降低了 73%
KV 缓存内存负担降低了 90%

对用户来说，这两个数字翻译成人话就是：「它支持 1M token 上下文，但跑起来比上一代 128K 的模型还快」。

1M 上下文是什么概念？大约相当于三本《三体》全塞进去，它还能准确找到第 387 页的那句话。

而且 384K 最大输出，意思是一次能吐出来的内容也翻了几个数量级。

这两个数字加在一起解决的是 agent 场景最头疼的问题：上下文越长，模型越慢、越贵、越容易忘事。V4 的解法不是「把窗口做大」，是「让长窗口不再是一个成本问题」。

价格：1/6 到 1/9

V4 Pro 的定价是 $1.74/M token。

同期 GPT-5.5 是 $5/M，Claude Opus 4.7 也是类似水平。

也就是说 V4 Pro 的输出价格大约是竞品的 1/3 到 1/9（看具体比哪个模型、哪个方向）。

我自己的账单上能看到这个差距。一个月的 Claude 订阅买 200K token 的配额，同样的钱在 DeepSeek API 上能跑 120 万 token。对于经常调 API 的人，这不是「略便宜」，是「换了预算结构」。

当然便宜的前提是「质量差不多」。如果便宜但差很远，没人会用。

那就看 benchmark。

Benchmark 上到底怎么样

先说不好的。

Aider 多语言编程基准上，V4 Pro 排第三，排在 Claude Opus 4.7 和 GPT-5.5 之后。差距不大，但有。

SWE-bench 上也是类似的情况：V4 Pro 在前三，但没拿第一。

也就是说在最顶尖的 coding 能力上，V4 还没超过 Anthropic 和 OpenAI 的最强模型。

然后说好的。

在 LiveCodeBench、AIME 数学推理、GPQA 科学推理这些基准上，V4 Pro 和 Claude Opus 4.7、GPT-5.5 基本打平。有些项目略高，有些略低，但不在统计显著的范围外。

对于一个价格差了几倍的模型，打平就已经是赢了。

而且这不是 DeepSeek 第一次这么干。R1 出来的时候也是类似的剧本：不是最强，但是够强；不是第一，但是够用。真正的杀伤力在于「够用 + 开源 + 便宜」这三件事放在一起。

开源这件事为什么重要

有一个细节经常被忽略。

V4 是 MIT 许可。

MIT 意味着你可以用它做任何事——微调、蒸馏、商用部署、塞进产品里卖——不需要经过任何人同意。对比之下，Meta 的 Llama 虽然也开源，但带了一堆商业限制。

对开发者的实际影响：

你可以把 V4 部署在自己的服务器上，数据不出自己的机房
你可以微调自己的版本，不需要向 DeepSeek API 付费
你可以把它当成一个基座，往上搭自己的系统

我认识几个在做 toB 产品的朋友，之前一直用 GPT API，因为数据合规的原因不敢把客户数据传给 OpenAI。V4 出来后他们可以直接在阿里云或者自己的 GPU 集群上跑，成本砍了 70%。

这不是「开源精神」，这是实打实的商业选择。

对写代码的人意味着什么

如果你是写代码的，V4 最直接的影响是三个：

1. Copilot/Cursor 类工具的成本会继续降

现在大部分编程助手背后调的其实还是 OpenAI 或 Anthropic 的模型。V4 的性价比意味着中间层服务可以用更低的成本提供差不多的体验，竞争会让定价更友好。

2. 自建 agent 的门槛更低了

V4 的 1M 上下文 + 低延迟让 agent 循环（反复调 API）的成本不再是个天文数字。以前跑一个完整 agent session 可能要 $3-$5，现在 $0.5 左右就搞定了。

这对 personal agent、企业内部工具、小团队实验来说，是质的变化。

3. 模型的选择不再是二选一

Claude 现在最大的优势不是 benchmark，是「准确不废话」的能力和工具使用的稳定性。GPT 的优势是生态和多模态。DeepSeek 的优势是便宜、开源、推理能力不错。

实际上现在最佳策略不是押一个，而是混用：复杂代码用 Claude，长上下文推理用 V4，多模态任务用 GPT。

但也要说它不好在哪

DeekSeek 目前不是完美的。

第一，多模态能力还不够。V4 目前还是文本为主，虽然纯文本能力已经足够好，但在需要看图、识图、生成图的场景上不如 GPT。

第二，工具调用稳定性。Claude 在 function calling 上的成功率仍然是最高的。DeepSeek 偶尔会漏参数，格式不够稳定。

第三，对齐和安全性还在追赶。这不是能力问题，是 engineering 积累的问题。Anthropic 在这方面做了很多年，DeepSeek 还需要时间。

第四，中国大陆以外推理延迟波动。V4 Pro 在 DeepSeek 官方 API 上很快，但第三方接入的延迟不稳定。

这些都是真实存在的问题，但不影响一个判断：

DeepSeek V4 是目前性价比最高的通用大模型，没有之一。

最后

2025 年 R1 出来的时候，很多人说这是「AI 的 Sputnik 时刻」。

我不太喜欢这种比喻。因为 Sputnik 暗示的是一种惊讶和恐慌，但 DeepSeek 做的事其实一直很有迹可循：

MoE 架构、FP8 训练、Multi-Token Prediction、注意力优化——每一步都是公开发表，每一步都是工程创新，不是黑魔法。

V4 真正改变的不是技术路线，是人们对于「多少钱才能做前沿 AI」的预期。

原来你以为要 10 亿美元的训练预算、10 万张 H100 才能摸到 GPT-5.5 的门槛。现在一个中国团队告诉你：不需要那么烧钱，关键是架构，不是算力堆砌。

这件事的影响比一次 benchmark 排名深远得多。

它意味着前端 AI 研究的进入门槛在下降，意味着小团队和大学实验室也能参与进来，意味着模型层的竞争会越来越不是「谁更有钱」，而是「谁更会设计」。

写这篇文章的这天，我去翻了翻 V4 的技术报告。报告不长，60 多页，读起来很顺畅。

最后一句是这样的：

We hope our work can inspire more efficient architectures and contribute to the democratization of AI.

这句话别人说可能是场面话。

但把模型权重 MIT 开源的人说这句话，你得当真。