我目前正在使用 GPT3.5 生成的大约 2000 条记录和 15 个标签的合成数据来训练基于 transformer 的模型(bert-base-uncased、xlm-roberta-base 和 roberta-base)。训练使用开箱即用的配置和对超参数(如学习率、dropout、batch size)的几项更改也能正常工作。
我能够在 30% 的合成数据上评估模型,这很有效,但每当我带来真实数据进行分类时,我的分数真的很低,总体准确率低于 25%。
关于如何/需要改进什么的任何想法?
我应该尝试不同的 textcat 架构:CNN/TextCatBOW,还是其他什么?