阅读( 578 )

什么是Pre-training? 

预训练是语言模型学习的初始阶段。在预训练期间,模型会接触大 量未标记的文本数据,例如书籍、文章和网站。目标是捕获文本语 料库中存在的底层模式、结构和语义知识。

image.png

预训练利用大量无标签或弱标签的数据,通过某种算法模型进行训 练,得到一个初步具备通用知识或能力的模型。 

1. 无监督学习:预训练通常是一个无监督学习过程,模型在没有明 确指导或标签的情况下从未标记的文本数据中学习。 

2. 屏蔽语言建模:模型经过训练可以预测句子中缺失或屏蔽的单 词、学习上下文关系并捕获语言模式。 

3. Transformer 架构:预训练通常采用基于 Transformer 的架 构,该架构擅长捕获远程依赖关系和上下文信息。

image.png


为什么需要 Pre-training ? 

预训练是为了让模型在见到特定任务数据之前,先通过学习大量通 用数据来捕获广泛有用的特征,从而提升模型在目标任务上的表现 和泛化能力。

image.png


预训练技术通过从大规模未标记数据中学习通用特征和先验知识, 减少对标记数据的依赖,加速并优化在有限数据集上的模型训练。

image.png

×