第三章:LLM 推理层原理

Dynamo 的 LLM 推理层提供多引擎抽象、Worker 管理和 Disaggregated Serving 能力。

本章概述

本章深入解析 Dynamo 的 LLM 推理层,包括推理引擎原理、多引擎抽象层、Worker 设计、Disaggregated Serving 以及请求处理流程。


子文档列表

序号文件主题内容简介
101-inference-engine-basics.md推理引擎原理模型加载、批处理、内存管理
202-vllm-internals.mdvLLM 技术解析PagedAttention、调度器设计
303-multi-engine-abstraction.md多引擎抽象层AsyncEngine Trait、引擎适配
404-worker-design.mdWorker 设计详解VllmWorker、生命周期、指标发布
505-disaggregated-serving.mdDisaggregated Serving分离原理、Router、远程 Prefill
606-request-processing.md请求处理流程Tokenization、Sampling、Streaming

阅读顺序建议

flowchart LR A["01-推理引擎原理"] --> B["02-vLLM 技术解析"] B --> C["03-多引擎抽象层"] C --> D["04-Worker 设计"] D --> E["05-Disaggregated Serving"] E --> F["06-请求处理流程"] style A fill:#e1f5fe style B fill:#e1f5fe style C fill:#fff3e0 style D fill:#fff3e0 style E fill:#e8f5e9 style F fill:#e8f5e9

推荐路径


关键概念速查

概念说明详见文档
PagedAttentionvLLM 的分页 KV Cache 管理02-vllm-internals.md
Continuous Batching动态批处理技术01-inference-engine-basics.md
AsyncEngine推理引擎抽象接口03-multi-engine-abstraction.md
VllmWorkervLLM 推理 Worker04-worker-design.md
DisaggregatedRouterPrefill/Decode 分离路由器05-disaggregated-serving.md
PrefillWorker专用 Prefill 计算 Worker05-disaggregated-serving.md
BackendInput引擎输入数据结构06-request-processing.md

架构总览

graph TB subgraph api["API 层"] HTTP["HTTP Server"] end subgraph preproc["预处理层"] Preprocessor["Preprocessor
Tokenization + Template"] end subgraph route["路由层"] KVRouter["KV-Aware Router"] DisaggRouter["Disaggregated Router"] end subgraph engine["引擎层"] Backend["Backend
引擎适配器"] VllmEngine["vLLM Engine"] TrtEngine["TensorRT-LLM"] SglEngine["SGLang"] end subgraph worker["Worker 层"] DecodeWorker["Decode Worker"] PrefillWorker["Prefill Worker"] end HTTP --> Preprocessor Preprocessor --> KVRouter KVRouter --> DisaggRouter DisaggRouter --> Backend Backend --> VllmEngine Backend --> TrtEngine Backend --> SglEngine DecodeWorker --> VllmEngine PrefillWorker --> VllmEngine DecodeWorker <--> |NIXL| PrefillWorker

下一章

完成本章阅读后,建议继续阅读 第四章:KV Cache 管理与路由,了解 Dynamo 的 KV Cache 优化技术。