RAG相关问题

做RAG项目时需要构建数据集的地方有很多：

Embedding选型时需要构建评估用的问答对数据集

Embedding模型微调时也需要问答对数据集

llm微调也需要问答对数据集

rag评估计算召回率时也需要问答对数据集

而且这些数据集都是基于知识库中的内容构建的。那这些数据集所需要的数据量分别是多少？这几个数据集是否可以复用？假如甲方给了专业领域的问答对数据集，是否需要针对这些步骤做数据集的拆分？

RAG项目的评估方式有没有类似大模型的opencompass一样的框架做各种指标的评估操作？（听说面试的时候召回率怎么提升的是被问到的重点之一）

2025年05月07日 | 553人阅读

回答 | 共 1 个

按点赞量排序

聚客AI-Aron

Embedding选型时的评估数据集：可能需要数百到数千个问答对，以便能够有效评估不同embedding模型的表现。

Embedding模型微调：可能需要更多的数据，具体数量视具体情况而定，但通常也是从数千到数万不等。

LLM（大型语言模型）微调：通常需要更大的数据集，可能需要数万到数十万个样本，以确保模型能够学习到足够的信息。

RAG评估计算召回率：同样，这个过程也需要一定规模的数据集，具体大小取决于希望达到的评估精度。

数据集复用性：理论上，某些步骤中的数据集是可以复用的，比如用于embedding模型微调的问答对数据集也可以用来进行初步的模型效果评估。但是，为了获得最佳的性能，每个阶段可能还需要一些特定的数据集来针对性地优化或评估某个方面的能力。

专业领域的问答对数据集处理：如果甲方提供了专业领域的问答对数据集，是否需要拆分主要取决于该数据集的质量、覆盖范围以及项目的具体需求。理想情况下，您应该根据不同的目的（如模型训练、验证、测试）将数据集合理拆分，以避免过拟合并保证评估结果的有效性。

2025年05月07日

游客