大模型对应的英文是Large Language Model(LLM),即大语 言模型,简称大模型。技术层面讲,大模型是一种基于深度学习技 术的机器学习模型。
为什么叫大模型呢?它是相对于小模型而言的。传统的机器学 习算法一般是解决某个特定领域的问题(例如文本分类),使用的 训练数据集规模较小,参数也比较少。而大模型一般是基于互联网 上的海量数据训练而成的,模型参数可达数十亿至数万亿。这些参 数就像大脑中的神经元连接,数量越多,模型能学习和掌握的细节 就越丰富,解决问题的能力也就越强。
训练大模型的过程,类似于一个不断学习和积累经验的过程。 它需要喂给模型海量的数据,比如文本文档、图像、语音记录等, 通过复杂的算法让模型自己找出数据中的规律和模式。这样一来, 当面临新的问题或数据时,大模型就能基于已学习到的知识做出高 质量的预测或生成相应的输出,比如精准回答问题、创作文字、识 别图像内容等。 大模型的威力在于,它不仅仅局限于某一特定任务,而是具有 一定的通用性,能够在多个领域展现出色的表现,比如自然语言处 理、图像识别、语音识别等。著名的例子如GPT系列,它们能够进 行智能对话、文本生成,甚至展现出一定的创造性思维。
大模型不仅能够处理不同类型的任务,而且支持多种数据格 式,例如文本、语音、图片、视频,这就是所谓的”多模态”。
当然,大模型的“大”也意味着它有“大胃口”,训练这样的模型需 要极强的计算能力和大量的时间,同时伴随高昂的成本。除了GPU 资源,训练一次大模型往往需要几周到几个月的时间。所以,除了 大公司以及不差钱的创业公司,普通人是很难自己训练一个大模型 的。
如果将这一轮ChatGPT引领的AI革命与移动互联网浪潮类比的 话,大模型的角色类似于iOS或Andriod系统。对于普通人来说,我们只需要使用大公司训练好的大模型即可。 基础大模型训练好(称为预训练)以后,针对特定领域的任 务,还需要进行微调,以便
模型达到最佳的性能。所谓微调,就是 将少量的经人工标注的高质量数据集喂给大模型,从而得到一个更 适合解决特定任务的精细化模型。
微调是一个二次训练的过程,它所需要的算力和成本远低于预 训练过程。但对于大多数个人开发者,门槛依然比较高。
目前国内外主要的大模型厂商及产品如下:
OpenAI:GPT系列, 最新的是GPT-4o,ChatGPT基于GPT-3.5
Anthropic:Claude
Google:Gemini
Meta:LLaMA
Microsoft:与OpenAI合作,也推出了自己的大模型,如Phi-3
百度:文心一言
阿里巴巴:通义千问
腾讯:混元大模型
字节:豆包
此外,还有一众创业公司,例如前段时间火了一把的月之暗面 Kimi。深度求索公司的DeepSeek。