关于vLLM

一些指向

现状：分配连续内存以储存张量（浪费大量空间）
核心方法：PagedAttention 和 KVBlock 管理

PagedAttention
- 将 KV Cache 分块成 KV Block，允许将连续的 key 和 value 向量存储到不连续的内存中。
- 每个 KV Block 包含固定数量 token 的 key、value 向量。
内存管理机制
- 内存被分割为固定大小的 Physical Page。
- 用户程序的 Logical Page 映射到 Physical Page，因此连续的 Logical Page 可以映射到不连续的 Physical Page 上。
- 物理内存空间无需提前预留。
- vLLM 将一个请求的 KV Cache 表示为一串 Logical Block，在生成过程中从左往右依次填充。
Block Engine
- 在 GPU Worker 上，Block Engine 申请一块连续的 GPU RAM，并分割为 Physical Block。
- CPU 端也进行相同操作，用于换入换出。
- K-V Block Manager 维护 Block Table，其中每个 Entry 记录了 Logical Block 对应的 Physical Block 以及已填充的数量。
解码迭代流程
- vLLM 在每轮 decoding 时选择一组候选序列做 batching。
- 为新的 Logical Block 分配对应的 Physical Block。
- 本轮所有输入 token 拼接为一个序列，送入 LLM。
- 在计算时，PagedAttention 从 Logical Block 中读取已有 KV Cache，并写入新的 KV Cache。
优化效果
- vLLM 将单个请求的内存浪费限制到 1 个 Block 内。
- 提升内存利用率，可将更多请求 batch 在一起，提升吞吐。
- 当请求生成结束后，KV Block 会被释放，用于新的请求。

当物理内存用尽时，需要驱逐部分块。主要问题：