我正在尝试为 ASR 任务的小型语音数据集(~2 小时)运行 SSL (Wav300Vec-BERT)。我知道预训练应该使用大型、多样化的数据集来实现,从而产生可以稍后针对下游任务进行微调的表示学习。但是,我正在尝试探索 SSL 对特定域的英语 meduim 数据集的增益,并将其与微调场景进行比较。能否帮助我提供一些我应该考虑的提示?我正在按照 中的说明使用 fast-conformer 配置 https://github.com/NVIDIA/NeMo/tree/main/examples/asr/speech_pretraining
我也有不同时间的音频,在 [1 秒到 100 秒] 之间变化。我想利用我有的所有数据,因为它是有限的,所以我将 max_duration 和 min_duration 保持在 100 秒和 1 秒。这与 SSL 配置中的任何内容冲突吗?我应该考虑小学习率还是根据模型大小(例如,large 与 XLarge)等特定变体?如果我想使用 Lhotse,我是否应该考虑任何适合我的数据集大小(~300 小时)的设置?我还想尝试 NEST for SSL。由于我的数据集要小得多,我是不是应该使用与配置文件中的默认设置不同的设置?考虑到我拥有的数据大小,在使用 Noise 进行增强时应考虑哪些因素?