Query 重写与增强

1. 传统深度学习 9

1.1 基础概念 5

1.1.1 训练基础 1

loss、梯度、参数、优化器 2026-05-30

1.1.2 模型训练流程 1

深度学习模型完整流程 2026-05-30

1.1.3 激活函数 1

激活函数理解 2026-05-30

1.1.4 正则化 1

正则化技术 2026-05-30

1.1.5 知识蒸馏 1

知识蒸馏——黑盒_白盒 2026-05-30

1.2 序列模型 3

1.2.1 RNN / LSTM 1

RNN、LSTM学习 2026-05-30

1.2.2 xLSTM 2

xLSTM-mLSTM 2026-05-30
xLSTM算法 2026-05-30

1.3 工程实践 1

1.3.1 PyTorch 1

pytorch维度转换 2026-05-30

4. 强化学习与对齐 6

4.1 偏好优化 1

4.1.1 DPO 1

DPO（todo） 2026-05-30

4.2 策略优化 3

4.2.1 GRPO 1

GRPO（todo） 2026-05-30

4.2.2 PPO 2

PPO 2026-05-30
PPO 2026-05-30

4.3 价值学习 2

4.3.1 Q-learning 2

Q-learning 2026-05-30
Q-learning 2026-05-30

6. 热点问题分析 1

6.1 模型输出异常 1

6.1.1 输出异常分析 1

MM模型无法输出`嘉祺`的解析 2026-05-30

7. 算法与面试 1

7.1 算法面试 1

7.1.1 算法面试 1

算法面试问题 2026-05-30

Query 重写与增强

日期 2026-05-30

分类 3. RAG /3.2 检索与排序 /3.2.1 Query 改写

标签

正文

最简单方法：Query 直接变 Embedding是最理想化、也是效果最差的实现方式。

痛点：用户输入的 Query 往往是碎片化、含糊不清且具有极强误导性的。 直接转向量（Dense Retrieval）容易产生“语义漂移”，而单纯依赖关键词（Sparse Retrieval）又会错失同义词。

Query 重写与增强 Pipeline

第一阶段：预处理与清洗 (Sanitization)

纠错 (Spell Check)：用户打错字（如“深度学系”->“深度学习”）会导致 Embedding 偏移。
敏感词过滤 (Safety Guardrail)：拦截非法请求。
去停用词/分词：针对传统关键词检索的优化。

第二阶段：Query 变换 (Query Transformation) —— 核心步骤

这是解决“语义差距”最有效的手段：

Query 扩展 (Query Expansion)：利用 LLM 生成原问题的 3-5 个同义改写版本。这样可以从多个角度覆盖向量空间，提高召回率。
假设性文档嵌入 (HyDE)：
- 逻辑：让 LLM 先写一个“伪答案”，然后用伪答案的向量去知识库搜真实文档。
- 理由：Query 和 Document 之间存在“不对称性”（问题很短，答案很长），Query 搜答案很难，但“伪答案”搜“真答案”在语义上更接近。
Query 压缩与重写 (Rewriting)：在多轮对话中，用户说“那它支持什么？”，LLM 需要将其重写为“Qwen3-14B 模型支持哪些工具调用？”。

第三阶段：多路路由 (Query Routing)

意图识别：判断 Query 是要“查知识库”、还是“闲聊”、或是“执行动作（如计算器）”。
元数据过滤 (Self-Querying)：如果 Query 是“2023年关于华为的财报”，系统应自动提取出 {"year": 2023, "subject": "Huawei"}，并在数据库中进行 Metadata Filter，而不是全量语义检索。

第四阶段：多路召回与融合 (Hybrid Search)

向量检索 (Vector) + 全文检索 (BM25)。
RRF (Reciprocal Rank Fusion)：将两者的结果按排名加权合并。

niuteng5618's blog

Query 重写与增强

本文目录

正文

Query 重写与增强 Pipeline

第一阶段：预处理与清洗 (Sanitization)

第二阶段：Query 变换 (Query Transformation) —— 核心步骤

第三阶段：多路路由 (Query Routing)

第四阶段：多路召回与融合 (Hybrid Search)