分段设置（内容预览与清洗）

文档上传至知识库后，系统会对内容进行分段与清洗。
这是知识数据进入检索前的重要预处理过程，长文本将被自动划分为多个结构化的内容区块（Chunks），以便后续高效召回与问答。

分段处理的核心目标，是让大语言模型（LLM）能够在有限的上下文窗口内快速检索到最相关的知识内容，从而生成更准确的回答。
合理的分段方式与清洗策略，可以显著提升检索命中率、减少噪音干扰，并避免模型出现幻觉回答。

由于大语言模型的上下文窗口有限，无法一次性处理整个知识库的内容，因此需要将文档拆分为多个内容块。
系统通过计算问题与各内容块的语义相似度，从知识库中召回相关度最高的若干分段（Top-K 召回），并将这些分段作为上下文提供给模型。

合理的分段设置有助于：

清洗是指在录入前对原始文本进行格式优化与无效信息过滤。
AI Center 已内置自动清洗策略，例如：

清洗后的文本将更便于模型理解与检索。

AI Center 支持三种分段模式：自动分段、规则分段和分层分段。
开发者可根据文档类型与业务场景，选择最合适的分段方式。

系统自动完成内容切分与格式清洗，无需人工配置。
AI Center 将依据文本结构（如标题层级、段落符号、换行符等）智能判断分段位置，并执行标准化处理。

适用场景：

优点：无需配置即可使用，适合非技术人员或初次建库。
缺点：分段规则不可自定义，粒度控制较弱。

规则分段模式允许开发者根据文档结构自定义切分规则。
系统将按照用户定义的“分段标识符”和“最大长度”等参数，将文本划分为多个内容块。

配置项说明：

分段标识符：
默认值为 \n（换行符），即按照段落进行分块。
支持使用正则表达式自定义规则，例如：
- \n：按段落分段
- [。？！]：按句号、问号、感叹号分句
- ###：按标题结构分。
分段最大长度：
指定单个分段的最大文本长度（默认 500 Tokens，最大 4000 Tokens）。
超出该长度的部分将自动切分为新段。
分段重叠长度：
指相邻分段之间共享的文本长度，用于保留上下文连续性。
建议设置为分段长度的 10%～25%。
文本预处理规则（可选）：
- 替换连续空格、换行符和制表符
- 删除所有 URL 和电子邮件地址

完成设置后，点击【预览区块】即可查看分段效果。
如修改规则，请重新点击按钮以生成新的分段结果。若上传了多个文件，可通过顶部文档标签快速切换并查看不同文档的分段情况。

分层分段模式（父子分段）采用“双层结构”进行内容切分，在保证检索精准度的同时，保留更完整的上下文信息。
该模式在 AI Center 中常用于技术文档、手册类内容或企业制度类长文档。

工作机制：

模型检索时，系统先通过子分段进行匹配定位，再关联父分段内容作为补充，最终生成更完整的答案

配置完成后，点击 「预览块」 可查看父子分段结构。
高亮部分表示子区块，背景蓝色区域表示父区块，便于直观查看文本分层效果

分段模式	特点	适用场景	是否可自定义
自动分段	自动清洗与切分，零配置	一般文本、FAQ、轻量场景	否
规则分段	用户自定义分隔符、长度、重叠	技术文档、规范、制度类文档	是
分层分段	父子双层结构，精准与上下文兼顾	复杂结构文档、手册、培训资料	是（分别配置父/子分段）

分段设置完成后，下一步需要选择【索引方式】，以决定知识内容的向量化与检索性能。