老师好:
       五期L2-第19章-RAG+微调实现智能专家系统,里面讲到了劳动主体混淆(劳动者解除劳动合同与用人单位解除劳动合同混淆)等问题,通过SFT进行微调解决该问题,但课程也提到SFT的问题,就是对话风格的泛化性不足,提问方式只有和微调样本比较近似的问法才行。
     通过研究发现,在对LLM进行了SFT微调,可以进一步使用强化学习的方式微调,让对话风格更加泛化,比如使用DPO,在课程里面微调数据集转换成如下格式就可以使用。请问老师,在这种GPU资源有限的情况下,SFT+RL微调是可行的做法吧?
{
    "conversations": [
      {
        "from": "human",
        "value": "员工严重失职时公司应该怎么做?"
      }
    ],
    "chosen": {
      "from": "gpt",
      "value": "依据第三十九条,用人单位可解除合同。"
    },
    "rejected": {
      "from": "gpt",
      "value": "根据《劳动合同法》第三十八条,劳动者可以立即解除合同。"
    }
  }