目录

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

2. 大模型技术 30

2.1 学习路线 3

2.1.1 LLM 知识库 2

LLM全栈知识库、博客 2026-05-30
LLM全栈知识库、博客 2026-05-30

2.1.2 大语言模型速成 1

大语言模型速成指南 2026-05-30

2.2 模型架构与基础 9

2.2.1 Transformer 架构 1

encoder-only容易退化低秩 2026-05-30

2.2.2 Attention 4

Attention机制对比学习 2026-05-30
FlashAttention 2026-05-30
注意力—传统、多头、交叉、线性 2026-05-30
Flash Attention & Paged Attention 2026-05-30

2.2.3 LLaMA 1

LLaMA基础 2026-05-30

2.2.4 MoE 1

MoE 2026-05-30

2.2.5 Embedding 2

BGE的FlagEmbedding库——使用嵌入模型提取稀疏向量 2026-05-30
嵌入模型微调 2026-05-30

2.3 训练与微调 2

2.3.1 预训练 1

pretrain基础-来源公众号 2026-05-30

2.3.2 参数高效微调 1

BPE、LoRA 2026-05-30

2.4 训练基础设施 3

2.4.1 GPU 通信 1

NVLink理解 2026-05-30

2.4.2 并行策略 2

并行策略-FSDP（todo） 2026-05-30
并行策略-ZeRO、DP、TP 2026-05-30

2.5 推理与部署 13

2.5.1 确定性推理 2

SGlang中针对确定性推理文档 2026-05-30
SGlang确定性推理解决方案-启动命令 2026-05-30

2.5.2 不确定性 1

针对LLM不确定性的研究 2026-05-30

2.5.3 解码策略 1

大模型解码策略与加速技术分析报告 2026-05-30

2.5.4 KV Cache 4

KVcache（1）——cache的到底是啥、如何计算 2026-05-30
KVcache（2）——PD分离、缓存命中 2026-05-30
KVcache（3）——包含KVcache完整请求示例 2026-05-30
KVcache（4）——模型推理的2个阶段：Prefill、decode 2026-05-30

2.5.5 推理压测 1

基于VLLM的压测 2026-05-30

2.5.6 显存估算 1

估算显存占用 2026-05-30

2.5.7 量化 3

各种量化技术表格 2026-05-30
大模型量化技术 2026-05-30
量化QA 2026-05-30

3. RAG 13

3.1 基础与流程 2

3.1.1 基础概念 1

RAG名词 2026-05-30

3.1.2 系统流程 1

RAG系统完整流程（做之前看） 2026-05-30

3.2 检索与排序 5

3.2.1 Query 改写 1

Query 重写与增强 2026-05-30

3.2.2 检索排序 1

embedding和rerank区别 2026-05-30

3.2.3 混合检索 3

qmd——融合hyde、bm25、Vector的文档检索方法 2026-05-30
混合检索方法——RRF、线性加权 2026-05-30
RAG 混合检索：BM25、Embedding 检索、RRF 与 Cross-Encoder Rerank 2026-06-03

3.3 图谱与框架 3

3.3.1 GraphRAG 1

graphrag 2026-05-30

3.3.2 LangChain 1

Langchain 2026-05-30

3.3.3 LightRAG 1

LightRAG逻辑、流程 2026-05-30

3.4 Prompt与评测 2

3.4.1 Prompt 1

Prompt-CN 2026-05-30

3.4.2 评测 1

ragas-rag评测 2026-05-30

3.5 先进方法 1

3.5.1 先进方法 1

先进方法 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

5. 智能体应用开发 11

5.1 Agent 工具链 4

5.1.1 Skill 2

SKILL 2026-05-30
SKILL-Q&A 2026-05-30

5.1.2 MCP 2

skill & mcp 区别联系 2026-05-30
MCP 支持哪些传输协议？通俗讲解 2026-06-03

5.2 多智能体框架 2

5.2.1 MetaGPT 2

Metagpt-prd生成 2026-05-30
metagpt-自定义-辩论 2026-05-30

5.3 AI 编程工具 5

5.3.1 Claude Code / Codex 5

ClaudeCode上下文压缩 2026-05-30
Codex上下文压缩-compact 2026-05-30
Hook(钩子) 2026-05-30
TodoWriteList 2026-05-30
Claude Code System Prompt 的运行时组装逻辑 2026-06-03

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

文件名 FlashAttention.md

FlashAttention

日期 2026-05-30

分类 2. 大模型技术 /2.2 模型架构与基础 /2.2.2 Attention

标签

正文

SRAM(静态随机存取存储器)

HBM(显存)

FlashAttention算法核心思想：减少HBM(显存)的访问，将QKV切分为小块后放入SRAM中，计算完毕后_(矩阵乘法、mask、softmax、dropout)_，将计算结果从SRAM中写入到HBM中

核心方法：tiling, recomputation

1. tiling(平铺): 分块计算

因为Attention计算中涉及Softmax，所以不能简单的分块后直接计算。softmax操作是row-wise的，即每行都算一次softmax，所以需要用到

平铺算法来分块计算softmax。

【safe softmax】原始softmax数值不稳定，为了数值稳定性，FlashAttention采用safe softmax。(也就是减去一个最大值再softmax)

2 recomputation（重新计算）

FlashAttention算法的目标：在计算中减少显存占用，从O(N²) 大小降低到线性，这样就可以把数据加载到SRAM中，提高IO速度。

解决方案：传统Attention在计算中需要用到Q，K，V去计算S，P两个矩阵，FlashAttention引入softmax中的统计量(m, l)，结合output O和在SRAM中的Q，K，V块进行计算。

← 上一篇下一篇 →