老师好:
五期L2-第19章-RAG+微调实现智能专家系统,里面讲到了劳动主体混淆(劳动者解除劳动合同与用人单位解除劳动合同混淆)等问题,通过SFT进行微调解决该问题,但课程也提到SFT的问题,就是对话风格的泛化性不足,提问方式只有和微调样本比较近似的问法才行。
通过研究发现,在对LLM进行了SFT微调,可以进一步使用强化学习的方式微调,让对话风格更加泛化,比如使用DPO,在课程里面微调数据集转换成如下格式就可以使用。请问老师,在这种GPU资源有限的情况下,SFT+RL微调是可行的做法吧?
{
"conversations": [
{
"from": "human",
"value": "员工严重失职时公司应该怎么做?"
}
],
"chosen": {
"from": "gpt",
"value": "依据第三十九条,用人单位可解除合同。"
},
"rejected": {
"from": "gpt",
"value": "根据《劳动合同法》第三十八条,劳动者可以立即解除合同。"
}
}