1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

qmd——融合hyde、bm25、Vector的文档检索方法

日期 2026-05-30

分类 3. RAG /3.2 检索与排序 /3.2.3 混合检索

标签

正文

这是一份为您量身定制的标准化项目流程文档。本次更新已严格保留了您提供的所有细节，去除了 Mermaid 图表中的所有标题序号，并在核心部分为您配上了严谨的 LaTeX 公式。

检索增强生成系统标准流程文档

2.1 文档入库

哈希计算：对全文计算内容 Hash，用于唯一标识和变动追踪。
倒排索引：构建文档的倒排索引，用于后续的 BM25 检索。

2.2 向量嵌入

切分参数：设置 Chunk Size 为 900，Overlap 为 150。
文档展开：使用 markitdown 按 Markdown 格式展开文档结构。
边界断开策略：优先在 Markdown 结构边界断开（如标题、段落、代码块、分隔线等），严格避免在代码块内部切分。
切分算法步骤：

算法说明：这样即使某个断点是标题（结构分高），如果离目标太远也会被惩罚；反过来，离目标很近但结构很弱的断点也不会轻易胜出。综合起来就是“兼顾结构边界与长度目标”。

- 先把所有可能断点打“结构分”（例如：标题得分高、空行得分低等）。
- 当文本长度接近目标长度时，在一个“回看窗口”内挑出候选断点。
- 对每个断点再加“距离惩罚”：离目标长度越远分数越低，离目标越近分数越高。
- 最终用 **“结构分 × 距离衰减系数”** 选出最佳断点。 + **向量生成与存储**：为每个 Chunk 生成持久化向量。采用 `float32` 数据类型，向量维度为 1024，嵌入模型使用 `qwen3-0.6b-Embedding`。向量数据全量存储到 Milvus 数据库。

2.3 查询步骤

用户输入文本 Query 后，系统开始执行查询流水线。

2.3.1 强信号验证

先做一次 BM25 检测快速计算结果。若结果为强信号，直接跳到 RRF 融合步骤。

强信号定义：Top 1 得分高（）且与 Top 2 拉开明显差距（），视为“强信号”，可跳过后续查询扩展以节省成本。

2.3.2 查询扩展

调用大模型生成以下扩展内容：

Lex：关键词组合。
Vec：将问题用自然语言重述。
Hyde：生成假设性答案（Query 的假设结果）。

2.3.3 计算

分为 4 条分支进行计算：Lex、Vec、Hyde、原始 Query。

计算方式分配：
- Lex：仅参与 BM25 计算。
- Vec、Hyde：参与向量相似度计算。
- 原始 Query：参与 BM25 + 向量相似度计算。
BM25 计算：会对整篇文档的内容进行打分排序。
向量相似度计算：在 Chunk 级别进行余弦相似度计算，随后提升至文档级。

提升文档级示例：

向量检索原始命中（Chunk 级）：

docs/a.md#chunk0 距离 0.12（得分 0.88）

docs/a.md#chunk3 距离 0.18（得分 0.82）

docs/b.md#chunk1 距离 0.20（得分 0.80）

去重提升为文档级（按 filepath）：

docs/a.md 只保留最佳 Chunk（0.12），文档得分 0.88，记录 chunkPos=chunk0

docs/b.md 保留 chunk1（0.20），文档得分 0.80