第一章:整体架构与设计理念

NVIDIA Dynamo 是一个高吞吐、低延迟的分布式推理框架,专为在多节点环境中服务生成式 AI 和推理模型而设计。

本章概述

本章介绍 Dynamo 的整体架构设计和核心理念,帮助读者建立对系统的全局认识。内容包括 LLM 推理的背景知识、行业痛点分析、Dynamo 的设计目标与原则,以及四种部署模式的详细说明。


子文档列表

序号文件主题内容简介
101-llm-inference-basics.mdLLM 推理基础Transformer 架构、Self-Attention、Prefill/Decode 两阶段
202-industry-challenges.md行业痛点与解决方案GPU 利用率、KV Cache 问题、业界方案综述
303-dynamo-design-philosophy.mdDynamo 设计理念设计目标、技术栈选择、核心设计原则
404-system-architecture.md系统架构总览五层架构、核心概念、数据流与控制流
505-deployment-modes.md部署模式详解四种部署模式对比与配置

阅读顺序建议

flowchart LR A["01-LLM 推理基础"] --> B["02-行业痛点"] B --> C["03-设计理念"] C --> D["04-系统架构"] D --> E["05-部署模式"] style A fill:#e1f5fe style B fill:#e1f5fe style C fill:#fff3e0 style D fill:#fff3e0 style E fill:#e8f5e9

推荐路径

  • 新手路径:按顺序阅读所有文档,建立完整知识体系
  • 快速上手:直接阅读 04-系统架构05-部署模式
  • 深入理解:先读背景知识(01-02),再读设计理念(03)

关键概念速查

概念说明详见文档
Prefill处理用户 prompt,生成 KV Cache,计算密集型01-llm-inference-basics.md
Decode逐 token 生成,内存带宽受限01-llm-inference-basics.md
KV Cache存储历史 Key/Value,避免重复计算01-llm-inference-basics.md
PagedAttentionvLLM 的分页 KV 管理技术02-industry-challenges.md
Disaggregated ServingPrefill/Decode 分离部署05-deployment-modes.md
Namespace命名空间,用于多租户隔离04-system-architecture.md
Component服务组件,包含多个 Endpoint04-system-architecture.md
Endpoint可调用的服务端点04-system-architecture.md

下一章

完成本章阅读后,建议继续阅读 第二章:运行时层原理,深入了解 Dynamo 的核心运行时设计。