在使用 Noise 进行增强时应考虑哪些因素？

我正在尝试为 ASR 任务的小型语音数据集（~2 小时）运行 SSL （Wav300Vec-BERT）。我知道预训练应该使用大型、多样化的数据集来实现，从而产生可以稍后针对下游任务进行微调的表示学习。但是，我正在尝试探索 SSL 对特定域的英语 meduim 数据集的增益，并将其与微调场景进行比较。能否帮助我提供一些我应该考虑的提示？我正在按照中的说明使用 fast-conformer 配置 https://github.com/NVIDIA/NeMo/tree/main/examples/asr/speech_pretraining

我也有不同时间的音频，在 [1 秒到 100 秒] 之间变化。我想利用我有的所有数据，因为它是有限的，所以我将 max_duration 和 min_duration 保持在 100 秒和 1 秒。这与 SSL 配置中的任何内容冲突吗？我应该考虑小学习率还是根据模型大小（例如，large 与 XLarge）等特定变体？如果我想使用 Lhotse，我是否应该考虑任何适合我的数据集大小（~300 小时）的设置？我还想尝试 NEST for SSL。由于我的数据集要小得多，我是不是应该使用与配置文件中的默认设置不同的设置？考虑到我拥有的数据大小，在使用 Noise 进行增强时应考虑哪些因素？

05月24日 | 155人阅读

回答 | 共 1 个

按点赞量排序

聚客AI-若水

不建议尝试该SSL。

可以试一下下面这个：

添加噪声以增加数据集大小

添加 spec_aug

制作统一的短段（如 10 或 <10 秒），以便模型会看到更多样本尝试在清单中使用 offset 来处理此问题。

启用 LHOTSE 以改进数据加载

NEST 应该可以使用您提供的配置

但是，300 小时的预训练数据可能不会带来太多好处。您可以使用此数据集更长时间：https://github.com/facebookresearch/libri-light

05月24日

请先登录 · 注册

游客