DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版

 新闻动态    |      2025-06-24 22:25

仅用不到 1200 行代码,实现最小化且完全可读的 vLLM!

DeepSeek 研究员俞星凯搞了个开源项目引得大伙拍手叫绝。

项目名为 Nano-vLLM(纳米级 -vLLM),有三大特点:

快速离线推理:推理速度可与 vLLM 相媲美

可读性强的代码库:基于不到 1200 行 Python 代码实现,简洁干净

优化套件:包含前缀缓存、Torch compilation 、CUDA graph 等

下面是 vLLM 与 Nano-vLLM 在不同硬件和模型配置下的基准测试情况。

在 RTX 4070 硬件、Qwen3-0.6B 模型环境中,设置了 256 个序列的总请求数,输入和输出长度均在 100-1024 个 token 间随机采样。

测试结果 be like:

vLLM 略微领先。

二者输出 token 量相同,vLLM 耗时 98.95 秒、吞吐量为 1353.86 tokens/s,Nano-vLLM 耗时 101.90 秒、吞吐量 1314.65tokens/s。

接着在 H800 硬件、Qwen3-8B 模型环境中,总请求数为 1024 个序列,输入输出长度同样随机采样。

此时 Nano-vLLM 甚至反超原框架。

二者输出 token 量依旧相同,vLLM 耗时 98.67 秒、吞吐量 5916.89 tokens/s ,Nano-vLLM 耗时 86.73 秒、吞吐量 6731.42 tokens/s。

这一成果来自于 DeepSeek 研究员俞星凯。

他 2021 年获得南京大学计算机科学与技术系学士学位,同年又被南京大学免试录取为硕士研究生,在校他同时也是由周志华教授领导的 LAMDA 团队的成员。

vLLM 是一款专为 LLM 推理与部署优化的高性能框架,最初由加州大学伯克利分校的 Sky Computing Lab 开发,现已发展成为一个汇聚学界与业界贡献的社区驱动项目。

该项目在 GitHub 目前已累计 49.5k+   Star。

其核心技术灵感源自操作系统虚拟内存分页机制。此前 LLM 服务系统因采用连续内存存储 KV 缓存,导致内部 / 外部碎片化严重,且无法有效共享内存,极大限制了批处理规模。

针对这一问题,团队提出 PagedAttention 算法,允许将连续的键(key)值(value)对存储在非连续内存空间中,通过将 KV 缓存划分为固定大小的块(Block),利用块表动态映射逻辑块与物理块地址。

在注意力计算过程中,PagedAttention 内核会分别识别和获取不同的 KV 块。

下面是一个示例,键和值向量分布在三个块中,且这三个块在物理内存中并不连续。

基于 PagedAttention 算法,团队构建了 vLLM 服务系统,其架构下图所示:

vLLM 采用集中式调度器来协调分布式 GPU 工作节点的执行。

借助 PagedAttention,KV 缓存管理器以分页方式有效管理 KV 缓存。具体而言,KV 缓存管理器通过集中式调度器发送的指令来管理 GPU 工作节点上的物理 KV 缓存内存。

vLLM 实现了 KV 缓存内存近乎零浪费,请求内及请求间 KV 缓存的灵活共享进一步降低内存使用。

评估显示,与 FasterTransformer 和 Orca 等此前最先进系统相比,vLLM 在相同延迟水平下将流行 LLM 的吞吐量提升 2-4 倍,且在更长序列、更大模型和更复杂解码算法场景中改进更为显著。

总结来说,vLLM 灵活且易于使用,具备以下特点:

与流行的 Hugging Face 模型无缝集成,包括类 Transformer 模型、混合专家模型、嵌入模型、多模态模型;支持通过各种解码算法实现高吞吐量服务,包括并行采样、波束搜索等;支持张量并行和 pipeline 并行,以实现分布式推理;支持流式输出;兼容 OpenAI 的 API 服务器;支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron;支持前缀缓存;支持多 LoRA。

值得一提的是,在实现层面,vLLM 前端基于 FastAPI,后端是基于 GPU 的推理引擎。vLLM 引擎由 8500 行 Python 代码和 2000 行 C++/CUDA 代码构成。

而这次 DeepSeek 研究员仅用不到 1200 行代码就实现了轻量级 vLLM,性能和原版相媲美。

参考链接:

[ 1 ] https://github.com/GeeeekExplorer/nano-vllm/tree/main

[ 2 ] ] https://www.lamda.nju.edu.cn/yuxk/

[ 3 ] https://arxiv.org/pdf/2309.06180

[ 4 ] https://github.com/vllm-project/vllm

—  完  —

� �  量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

� � 也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 � � 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!