lucas blog

DeepSeek V4 到底改变了什么

2026-05-15 · DeepSeek, 大模型, AI 行业, 长上下文

2026 年 4 月 24 日,DeepSeek 把 V4 放出来了。

同时发的是两件事:模型权重,和一份叫《Towards Highly Efficient Million-Token Context Intelligence》的技术报告。没有发布会,没有直播,跟 2025 年春节那次一样——一篇论文,一组 benchmark,代码和权重直接丢 GitHub。

当时在 X 上看到截图的第一反应不是惊讶,是「又来了」。

2024 年底 V2 的时候大家还在讨论「中国能不能做前沿 AI」。2025 年 1 月 R1 出来,讨论变成了「开源能不能追上闭源」。现在 V4 出来,讨论已经变成了「为什么它这么便宜还能这么强」。

这个变化只用了不到两年。

一个背景数字

DeepSeek + Qwen,2025 年 1 月在 AI 模型市场的份额是 1%。

到 2026 年 1 月,这个数字是 15%。

这是 AI 历史上最快的采用曲线。不是靠营销,是靠「开源 + 便宜 + 不差」的组合拳。

V4 出来之后,这条曲线还会更陡。

V4 在技术上做了什么

先说最核心的一件事。

V4 不是 R1 那样的「推理模型」。R1 的特点是让模型在回答之前先想一阵子,也就是现在大家熟悉的 chain-of-thought。R1 出来后一夜之间所有大厂都在做 reasoning model,因为你发现「让它多想几步」居然比「把模型做大」更有效。

V4 的逻辑不一样。

V4 要解决的问题是「让它想的时候别那么贵」。

这是 DeepSeek 一直以来的主线——从 V2 的 MoE(Mixture of Experts)、V3 的 Multi-Token Prediction 到 V4 的注意力层优化,每一代的核心命题都是「能不能用更少的算力做差不多的事」。

这次 V4 在注意力机制上动了刀:

对用户来说,这两个数字翻译成人话就是:「它支持 1M token 上下文,但跑起来比上一代 128K 的模型还快」。

1M 上下文是什么概念?大约相当于三本《三体》全塞进去,它还能准确找到第 387 页的那句话。

而且 384K 最大输出,意思是一次能吐出来的内容也翻了几个数量级。

这两个数字加在一起解决的是 agent 场景最头疼的问题:上下文越长,模型越慢、越贵、越容易忘事。V4 的解法不是「把窗口做大」,是「让长窗口不再是一个成本问题」。

价格:1/6 到 1/9

V4 Pro 的定价是 $1.74/M token。

同期 GPT-5.5 是 $5/M,Claude Opus 4.7 也是类似水平。

也就是说 V4 Pro 的输出价格大约是竞品的 1/3 到 1/9(看具体比哪个模型、哪个方向)。

我自己的账单上能看到这个差距。一个月的 Claude 订阅买 200K token 的配额,同样的钱在 DeepSeek API 上能跑 120 万 token。对于经常调 API 的人,这不是「略便宜」,是「换了预算结构」。

当然便宜的前提是「质量差不多」。如果便宜但差很远,没人会用。

那就看 benchmark。

Benchmark 上到底怎么样

先说不好的。

Aider 多语言编程基准上,V4 Pro 排第三,排在 Claude Opus 4.7 和 GPT-5.5 之后。差距不大,但有。

SWE-bench 上也是类似的情况:V4 Pro 在前三,但没拿第一。

也就是说在最顶尖的 coding 能力上,V4 还没超过 Anthropic 和 OpenAI 的最强模型。

然后说好的。

在 LiveCodeBench、AIME 数学推理、GPQA 科学推理这些基准上,V4 Pro 和 Claude Opus 4.7、GPT-5.5 基本打平。有些项目略高,有些略低,但不在统计显著的范围外。

对于一个价格差了几倍的模型,打平就已经是赢了。

而且这不是 DeepSeek 第一次这么干。R1 出来的时候也是类似的剧本:不是最强,但是够强;不是第一,但是够用。真正的杀伤力在于「够用 + 开源 + 便宜」这三件事放在一起。

开源这件事为什么重要

有一个细节经常被忽略。

V4 是 MIT 许可。

MIT 意味着你可以用它做任何事——微调、蒸馏、商用部署、塞进产品里卖——不需要经过任何人同意。对比之下,Meta 的 Llama 虽然也开源,但带了一堆商业限制。

对开发者的实际影响:

我认识几个在做 toB 产品的朋友,之前一直用 GPT API,因为数据合规的原因不敢把客户数据传给 OpenAI。V4 出来后他们可以直接在阿里云或者自己的 GPU 集群上跑,成本砍了 70%。

这不是「开源精神」,这是实打实的商业选择。

对写代码的人意味着什么

如果你是写代码的,V4 最直接的影响是三个:

1. Copilot/Cursor 类工具的成本会继续降

现在大部分编程助手背后调的其实还是 OpenAI 或 Anthropic 的模型。V4 的性价比意味着中间层服务可以用更低的成本提供差不多的体验,竞争会让定价更友好。

2. 自建 agent 的门槛更低了

V4 的 1M 上下文 + 低延迟让 agent 循环(反复调 API)的成本不再是个天文数字。以前跑一个完整 agent session 可能要 $3-$5,现在 $0.5 左右就搞定了。

这对 personal agent、企业内部工具、小团队实验来说,是质的变化。

3. 模型的选择不再是二选一

Claude 现在最大的优势不是 benchmark,是「准确不废话」的能力和工具使用的稳定性。GPT 的优势是生态和多模态。DeepSeek 的优势是便宜、开源、推理能力不错。

实际上现在最佳策略不是押一个,而是混用:复杂代码用 Claude,长上下文推理用 V4,多模态任务用 GPT。

但也要说它不好在哪

DeekSeek 目前不是完美的。

第一,多模态能力还不够。V4 目前还是文本为主,虽然纯文本能力已经足够好,但在需要看图、识图、生成图的场景上不如 GPT。

第二,工具调用稳定性。Claude 在 function calling 上的成功率仍然是最高的。DeepSeek 偶尔会漏参数,格式不够稳定。

第三,对齐和安全性还在追赶。这不是能力问题,是 engineering 积累的问题。Anthropic 在这方面做了很多年,DeepSeek 还需要时间。

第四,中国大陆以外推理延迟波动。V4 Pro 在 DeepSeek 官方 API 上很快,但第三方接入的延迟不稳定。

这些都是真实存在的问题,但不影响一个判断:

DeepSeek V4 是目前性价比最高的通用大模型,没有之一。

最后

2025 年 R1 出来的时候,很多人说这是「AI 的 Sputnik 时刻」。

我不太喜欢这种比喻。因为 Sputnik 暗示的是一种惊讶和恐慌,但 DeepSeek 做的事其实一直很有迹可循:

MoE 架构、FP8 训练、Multi-Token Prediction、注意力优化——每一步都是公开发表,每一步都是工程创新,不是黑魔法。

V4 真正改变的不是技术路线,是人们对于「多少钱才能做前沿 AI」的预期

原来你以为要 10 亿美元的训练预算、10 万张 H100 才能摸到 GPT-5.5 的门槛。现在一个中国团队告诉你:不需要那么烧钱,关键是架构,不是算力堆砌。

这件事的影响比一次 benchmark 排名深远得多。

它意味着前端 AI 研究的进入门槛在下降,意味着小团队和大学实验室也能参与进来,意味着模型层的竞争会越来越不是「谁更有钱」,而是「谁更会设计」。

写这篇文章的这天,我去翻了翻 V4 的技术报告。报告不长,60 多页,读起来很顺畅。

最后一句是这样的:

We hope our work can inspire more efficient architectures and contribute to the democratization of AI.

这句话别人说可能是场面话。

但把模型权重 MIT 开源的人说这句话,你得当真。

← 返回首页