在文档分割处理时候,word 文档,针对文字,表格,图片进行不同处理,图片进行了多模态AI分析后, 处理成为 List [documents],每个document 元数据信息不同。最后多个document 合并成为一个document 文档,后在使用
RecursiveCharactertextSplitter 分割。在这个过程中,多个document 合并成为一个document 文档,这个文档使用元数据信息采用第一个文档元数据信息。丢失了每个document 内部元数据信息。导致召回时候,无法过滤掉使用AI 对图片分析的内容。使用cursor,去问合并成为一个document文档的原因,回答是,保持文档的连续性和上下文完整性,以及chunk_overlap p可以保证文档的边界完整性。 合并成为一个文档还是要合并,但是合并,必定会丢失元数据信息,怎么整?