五期L2-第19章-RAG+微调实现智能专家系统微调问题

老师好：

五期L2-第19章-RAG+微调实现智能专家系统，里面讲到了劳动主体混淆（劳动者解除劳动合同与用人单位解除劳动合同混淆）等问题，通过SFT进行微调解决该问题，但课程也提到SFT的问题，就是对话风格的泛化性不足，提问方式只有和微调样本比较近似的问法才行。

通过研究发现，在对LLM进行了SFT微调，可以进一步使用强化学习的方式微调，让对话风格更加泛化，比如使用DPO，在课程里面微调数据集转换成如下格式就可以使用。请问老师，在这种GPU资源有限的情况下，SFT+RL微调是可行的做法吧？

{

"conversations": [

{

"from": "human",

"value": "员工严重失职时公司应该怎么做？"

}

"chosen": {

"from": "gpt",

"value": "依据第三十九条，用人单位可解除合同。"

"rejected": {

"from": "gpt",

"value": "根据《劳动合同法》第三十八条，劳动者可以立即解除合同。"

}

2025年10月31日 | 329人阅读

回答 | 共 3 个

按点赞量排序

聚客AI-挽风

是的，要想让模型泛化性更强，必须要经过强化学习

2025年10月31日

0.999...=1 | 2025年10月31日

请问如何做“强化学习”？印象中第五期的项目课没有“强化学习”的内容。

聚客AI-挽风 | 2025年11月01日

回复 @0.999...=1: 目前课程中没有强化学习的内容，学会监督学习已经足够解决问题了，在公司里面大部分时候不会选择微调的，主要把agent和rag技术掌握好

游客