xllm/docs/project/README_zh.md at main · jd-opensource/xllm

| Documentation | Technical Report |

📢 新闻

2026-02-12: 🎉 我们 day-0 支持了最新的GLM-5 模型的高效推理服务，部署请参考部署文档。
2025-12-21: 🎉 我们在第一时间内支持了GLM-4.7模型的高效推理。
2025-12-08: 🎉 我们在第一时间内支持了GLM-4.6V模型的高效推理。
2025-12-05: 🎉 我们支持了GLM-4.5/GLM-4.6系列模型.
2025-12-05: 🎉 我们支持了VLM-R1 模型.
2025-12-05: 🎉 我们基于Mooncake构建了混合 KV 缓存管理机制，支持具备智能卸载与预取能力的全局 KV 缓存管理。
2025-10-16: 🎉 我们最近在 arXiv 上发布了我们的 xLLM 技术报告，提供了全面的技术蓝图和实施见解。

简介

xLLM 是一个高效的开源大模型推理框架，专为国产芯片优化设计，提供企业级的服务部署，使得性能更高、成本更低。该框架采用服务-引擎分离的推理架构，通过服务层的在离线请求弹性调度、动态PD分离、EPD混合机制及高可用容错设计，结合引擎层的多流并行计算、图融合优化、投机推理、动态负载均衡及全局KV缓存管理，实现推理效率突破性提升。xLLM整体架构和功能如下图所示：

xLLM 已支持主流大模型（如 DeepSeek-V3.1，Qwen2/3等）在国产芯片上的高效部署，助力企业实现高性能、低成本的 AI 大模型应用落地。xLLM已全面落地京东零售核心业务，涵盖智能客服、风控、供应链优化、广告推荐等多种场景。

核心特性

xLLM 提供了强大的智能计算能力，通过硬件系统的算力优化与算法驱动的决策控制，联合加速推理过程，实现高吞吐、低延迟的分布式推理服务。

全图化/多层流水线执行编排

框架调度层的异步解耦调度，减少计算空泡；
模型图层的计算和通信异步并行，重叠计算与通信；
算子内核层的异构计算单元深度流水，重叠计算与访存。

动态shape的图执行优化

基于参数化与多图缓存方法的动态尺寸适配，提升静态图灵活性；
受管控的显存池，保证地址安全可复用；
集成适配性能关键的自定义算子（如 PageAttention, AllReduce）。

高效显存优化

离散物理内存与连续虚拟内存的映射管理；
按需分配内存空间，减少内存碎片与浪费；
智能调度内存空间，增加内存页复用，减小分配延迟；
国产芯片相应算子适配。

全局多级KV Cache管理

多级缓存的kv智能卸载与预取；
以kv cache为中心的分布式存储架构；
多节点间kv的智能传输路由。

算法优化

投机推理优化，多核并行提升效率；
MoE专家的动态负载均衡，实现专家分布的高效调整。

硬件支持

硬件类型	型号	备注
NPU	A2, A3	HDK Driver 25.2.0 +
MLU
ILU	BI150
MUSA	S5000

此外，请在模型支持列表查看不同硬件上的模型支持情况。

快速开始

请参考快速开始文档。

成为贡献者

您可以通过以下方法为 xLLM 作出贡献:

在Issue中报告问题
提供改进建议
补充文档
- Fork仓库
- 修改文档
- 提出pull request
修改代码
- Fork仓库
- 创建新分支
- 加入您的修改
- 提出pull request

感谢您的贡献！ 🎉🎉🎉 如果您在开发中遇到问题，请参阅**xLLM中文指南**

社区支持

如果你在xLLM的开发或使用过程中遇到任何问题，欢迎在项目的Issue区域提交可复现的步骤或日志片段。如果您有企业内部Slack，请直接联系xLLM Core团队。另外，我们建立了官方微信群，可以访问以下二维码加入。欢迎沟通和联系我们:

致谢

本项目的实现得益于以下开源项目:

ScaleLLM - 采用了ScaleLLM中构图方式和借鉴Runtime执行。
Mooncake - 依赖构建了多级KV Cache管理机制。
brpc - 依赖brpc构建了高性能http service。
tokenizers-cpp - 依赖tokenizers-cpp构建了c++ tokenizer。
safetensors - 依赖其c binding safetensors能力。
Partial JSON Parser - xLLM的C++版本JSON解析器，参考Python与Go实现的设计思路。
concurrentqueue - 高性能无锁Queue.

感谢以下合作的高校实验室：

THU-MIG（清华大学软件学院、北京信息科学与技术国家研究中心）
USTC-Cloudlab（中国科学技术大学云计算实验室）
Beihang-HiPO（北京航空航天大学HiPO研究组）
PKU-DS-LAB（北京大学数据结构实验室）
PKU-NetSys-LAB（北京大学网络系统实验室）
TJU-TANKLab (天津大学TANK实验室)

感谢以下为xLLM作出贡献的开发者

许可证

Apache License

xLLM 由 JD.com 提供

感谢您对xLLM的关心与贡献!

引用

如果你觉得这个仓库对你有帮助，欢迎引用我们：

@article{liu2025xllm,
  title={xLLM Technical Report},
  author={Liu, Tongxuan and Peng, Tao and Yang, Peijun and Zhao, Xiaoyang and Lu, Xiusheng and Huang, Weizhe and Liu, Zirui and Chen, Xiaoyu and Liang, Zhiwei and Xiong, Jun and others},
  journal={arXiv preprint arXiv:2510.14686},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

📢 新闻

简介

核心特性

硬件支持

快速开始

成为贡献者

社区支持

致谢

许可证

xLLM 由 JD.com 提供

感谢您对xLLM的关心与贡献!

引用

FilesExpand file tree

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

📢 新闻

简介

核心特性

硬件支持

快速开始

成为贡献者

社区支持

致谢

许可证

xLLM 由 JD.com 提供

感谢您对xLLM的关心与贡献!

引用