目录

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

2. 大模型技术 30

2.1 学习路线 3

2.1.1 LLM 知识库 2

LLM全栈知识库、博客 2026-05-30
LLM全栈知识库、博客 2026-05-30

2.1.2 大语言模型速成 1

大语言模型速成指南 2026-05-30

2.2 模型架构与基础 9

2.2.1 Transformer 架构 1

encoder-only容易退化低秩 2026-05-30

2.2.2 Attention 4

Attention机制对比学习 2026-05-30
FlashAttention 2026-05-30
注意力—传统、多头、交叉、线性 2026-05-30
Flash Attention & Paged Attention 2026-05-30

2.2.3 LLaMA 1

LLaMA基础 2026-05-30

2.2.4 MoE 1

MoE 2026-05-30

2.2.5 Embedding 2

BGE的FlagEmbedding库——使用嵌入模型提取稀疏向量 2026-05-30
嵌入模型微调 2026-05-30

2.3 训练与微调 2

2.3.1 预训练 1

pretrain基础-来源公众号 2026-05-30

2.3.2 参数高效微调 1

BPE、LoRA 2026-05-30

2.4 训练基础设施 3

2.4.1 GPU 通信 1

NVLink理解 2026-05-30

2.4.2 并行策略 2

并行策略-FSDP（todo） 2026-05-30
并行策略-ZeRO、DP、TP 2026-05-30

2.5 推理与部署 13

2.5.1 确定性推理 2

SGlang中针对确定性推理文档 2026-05-30
SGlang确定性推理解决方案-启动命令 2026-05-30

2.5.2 不确定性 1

针对LLM不确定性的研究 2026-05-30

2.5.3 解码策略 1

大模型解码策略与加速技术分析报告 2026-05-30

2.5.4 KV Cache 4

KVcache（1）——cache的到底是啥、如何计算 2026-05-30
KVcache（2）——PD分离、缓存命中 2026-05-30
KVcache（3）——包含KVcache完整请求示例 2026-05-30
KVcache（4）——模型推理的2个阶段：Prefill、decode 2026-05-30

2.5.5 推理压测 1

基于VLLM的压测 2026-05-30

2.5.6 显存估算 1

估算显存占用 2026-05-30

2.5.7 量化 3

各种量化技术表格 2026-05-30
大模型量化技术 2026-05-30
量化QA 2026-05-30

3. RAG 13

3.1 基础与流程 2

3.1.1 基础概念 1

RAG名词 2026-05-30

3.1.2 系统流程 1

RAG系统完整流程（做之前看） 2026-05-30

3.2 检索与排序 5

3.2.1 Query 改写 1

Query 重写与增强 2026-05-30

3.2.2 检索排序 1

embedding和rerank区别 2026-05-30

3.2.3 混合检索 3

qmd——融合hyde、bm25、Vector的文档检索方法 2026-05-30
混合检索方法——RRF、线性加权 2026-05-30
RAG 混合检索：BM25、Embedding 检索、RRF 与 Cross-Encoder Rerank 2026-06-03

3.3 图谱与框架 3

3.3.1 GraphRAG 1

graphrag 2026-05-30

3.3.2 LangChain 1

Langchain 2026-05-30

3.3.3 LightRAG 1

LightRAG逻辑、流程 2026-05-30

3.4 Prompt与评测 2

3.4.1 Prompt 1

Prompt-CN 2026-05-30

3.4.2 评测 1

ragas-rag评测 2026-05-30

3.5 先进方法 1

3.5.1 先进方法 1

先进方法 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

5. 智能体应用开发 11

5.1 Agent 工具链 4

5.1.1 Skill 2

SKILL 2026-05-30
SKILL-Q&A 2026-05-30

5.1.2 MCP 2

skill & mcp 区别联系 2026-05-30
MCP 支持哪些传输协议？通俗讲解 2026-06-03

5.2 多智能体框架 2

5.2.1 MetaGPT 2

Metagpt-prd生成 2026-05-30
metagpt-自定义-辩论 2026-05-30

5.3 AI 编程工具 5

5.3.1 Claude Code / Codex 5

ClaudeCode上下文压缩 2026-05-30
Codex上下文压缩-compact 2026-05-30
Hook(钩子) 2026-05-30
TodoWriteList 2026-05-30
Claude Code System Prompt 的运行时组装逻辑 2026-06-03

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

文件名 RAG名词.md

RAG名词

日期 2026-05-30

分类 3. RAG /3.1 基础与流程 /3.1.1 基础概念

标签

本文目录

正文

切分chunk策略

名词解释——证据：

在 RAG 的上下文中，“证据”指的是知识库中能够直接或间接支持回答用户查询的关键信息片段。

个人理解：就是一大段特别长的chunk中，用于回答问题的那几个关键词、关键句。

名词解释—— 证据被拦腰截断：

这是由不合适的切分策略导致的问题，指的是一个完整的、语义连贯的关键证据，由于切分边界的不合理设置，被硬生生地分割到了两个或多个相邻的切块中。

名词解释—— 稀疏证据 QA ：

稀疏证据QA是RAG系统中面临的一种难以解决情景挑战。这表示支撑完整答案所需的证据在知识库中被分散、稀疏地存储在多个不相邻的切块（Chunk）中。

个人理解：某个问题，需要用到多个chunk的内容进行回答，单独使用某一个chunk是稀疏、不完整的。

例如，Q : “珠穆朗玛峰的高度是多少，并且告诉我第一个攀登者是谁？”

chunk1: 珠穆朗玛峰的高度是xxxx米。 chunk2：第一个攀登者是xxx。

名词解释—— 多层级语义树：

指的是一种用于文档切分（Chunking）和索引的分层结构模型。它的核心目的是通过构建文档的逻辑和语义层次，来解决传统固定大小切分方法导致的上下文丢失和证据截断问题。

通常由根节点、父节点、子节点这样的层级组成。

根节点 / 全局摘要：整个文档（如整份计划书）的简短概括。
父节点 / 章节摘要：文档中特定章节或主题的完整段落或摘要。
子节点 / 细节切块（与向量化的Query最初匹配）：构成第二层父节点（章节）的原始、细小的文本切块，包含具体数据和论点。

个人理解：

使用多层级语义树的方式构建chunk，并进行检索召回的RAG策略是一种比较复杂、高级的RAG技术。和GraphRAG一样，都是用于解决上下文丢失、复杂多跳问题的RAG技术。
GraphRAG解决复杂问题是通过找到指定实体，返回该实体连接的关系、属性，以获取与该实体相关的全部信息。
多层级语义树，则是通过找到粒度最细的子节点，逐个获取其兄弟节点或父节点。其父节点可能包含着全部相关信息，从而避免证据稀疏问题。

名词解释—— 层次漂移：

层次漂移指 RAG 系统在切分和检索时，打破了文档原始的逻辑结构和语义层次，导致检索到的切块（Chunk）虽然在向量空间上可能相似，但在文档的实际逻辑中却是错位、不连贯的。

举例说明：

原文：一、第一章LLM原理 LLM是基于Transformer架构的大规模参数的深度学习模型，具有极强的泛化性，在各项任务中都替代了传统NLP模型。 二、第二章 LLM应用案例 浦发银行应用LLM改善了其原始客服助手，性能得到明显提高。 三、第三章 LLM劣势 LLM虽然具有很强的能力，但极度依赖GPU资源，而GPU资源又是非常昂贵的，导致很多企业没有办法自己部署，只能购买云资源，这使得其数据安全性得不到保障。

chunk1：一、第一章 LLM原理 LLM是基于Transformer架构的大规模参数的深度学习模型，具有极强的泛化性，在各项任务中都替代了传统NLP模型。二、第二章 LLM应用案例浦发银行应用LLM改善了其原始客服助手，性能得到明显提高。

chunk2：三、第三章 LLM劣势 LLM虽然具有很强的能力，但极度依赖GPU资源，而GPU资源又是非常昂贵的，导致很多企业没有办法自己部署，只能购买云资源，这使得其数据安全性得不到保障。

个人理解：

层次漂移就是某些结构化/半结构化文档，由于切块策略限制，在某个chunk中，插入与其他语句完全不相关的内容。这会导致的问题：

当询问LLM原理的Query时，在后续与chunk1进行向量相似度匹配时，可能会因为chunk1中包含了部分LLM应用案例信息，而导致语义不聚焦，进而影响相似度分数，导致漏检。
如果chunk1被召回， LLM 必须处理一个逻辑混乱的上下文，增加了幻觉（Hallucination）或回答不完整的风险。

← 上一篇下一篇 →