大语言模型(LLM)概述
在本主题中,我们将从宏观层面介绍什么是 LLM(Large Language Model,大语言模型),了解根据输出形式可以将其分为的两种主要类型,并探讨它们在作为 AI 助手之外的更多应用场景。
什么是大语言模型
大语言模型(LLM) 是一种人工智能(AI),能够理解并生成类似人类的文本。
它通过在海量文本数据上进行训练,从而学会识别、总结、翻译、预测以及创造内容。
在核心结构上,LLM 使用一种神经网络架构,通常是 Transformer 架构 来处理语言。
通过分析训练数据中单词和短语之间的统计关系,模型可以学习:
- 语法
- 事实知识
- 推理能力
因此,它能够完成许多任务,例如:
- 回答问题
- 写邮件
- 生成代码
- 进行对话
名称中的 “large(大)” 指的是模型包含的大量参数——通常达到 数十亿甚至数万亿个参数,这些参数用于进行预测。
LLM 的训练过程
LLM 的开发通常包括 两个主要阶段。
1 预训练(Pre-training)
第一阶段训练的是 基础模型(Foundation Model)。
在这个阶段,模型会处理大量文本数据,并从中提取各种模式,例如:
- 语法结构
- 词语关联
- 上下文语义
更正式地说,这个阶段模型会学习 数据之间的统计表示和关系。
这种训练方式通常是 自监督学习(Self-supervised learning):
- 不需要人工标注数据
- 任务目标是从数据中自动学习结构
这个阶段称为 预训练(Pre-training)。
在这一阶段,模型通常不会直接执行具体任务。根据模型类型,它可能会:
- 将文本转换为数值表示
- 进行自动补全(预测下一个词)
这些能力本身虽然有限,但为后续任务打下基础。
2 微调(Fine-tuning)
第二阶段通常是 微调(Fine-tuning)。
在这个阶段:
- 使用 标注数据(labeled dataset)
- 数据规模通常远小于预训练数据
微调的目标包括:
- 解决某个特定任务(例如命名实体识别)
- 适应某个特定领域(例如医学文本)
需要注意:
微调 不一定必须是监督学习,也可能使用:
- 半监督学习
- 强化学习
不过这些不在本主题的讨论范围内。
通过微调,基础模型可以执行各种任务,例如:
- 分类
- 按指令执行任务
例如:
ChatGPT 中的 “chat” 指的是
GPT(一个基础模型)被额外微调用于 对话任务。
这种微调使用了包含如下结构的数据:
任务描述 -> 期望回答
对齐(Alignment)
微调过程中通常还包含一个子步骤:
对齐(Alignment)
在这个步骤中,开发者会调整模型行为,使其:
- 更友好
- 更符合用户期望
- 更安全
两种主要类型的 LLM
根据输出类型,LLM 可以分为两大类:
- 自回归模型(Autoregressive Models)
- 表示模型(Representational Models / Embedding Models)
自回归模型(生成式模型)
自回归模型通过以下方式生成文本:
根据之前的 token(词或子词),预测下一个 token。
换句话说,它们建模的是:
P(下一个词 | 前面的词)
你几乎肯定使用过这种模型,例如:
- ChatGPT
- Claude
- Gemini
- Llama
- Grok
这些都是 自回归模型。
这也是为什么你看到它们回答问题时:
一个 token 一个 token 地流式输出。
这就是 自回归生成。
表示模型(Embedding 模型)
表示模型的目标不同。
它们不会生成文本,而是:
将整个输入编码成一个向量表示(embedding)。
这些模型会:
- 将单词和文本表示为向量
- 在向量空间中表示语义关系
然后根据这些向量进行预测。
例如:
一些模型(如 BERT)通过以下方式训练:
Masked Language Model(掩码预测)
即:
预测句子中被遮挡的词。
例如:
I love [MASK] learning模型需要预测 [MASK] = machine 等。
不过这并不是训练 embedding 模型的唯一方法。
表示模型的输出
表示模型的输出通常是:
embedding(向量表示)
之后可以进一步微调,用于执行特定任务,例如:
- 情感分析
输出可能是:
positivenegativeneutral两类模型的区别
| 类型 | 主要功能 |
|---|---|
| 自回归模型 | 生成文本 |
| 表示模型 | 生成向量表示 |
因此:
- 表示模型通常不生成文本
- 生成文本主要由自回归模型完成
使用 LLM 构建应用
开发者已经在很多领域使用 LLM。
一个基础技术是:
语义搜索(Semantic Search)
它不同于传统的关键词搜索,而是:
根据 语义和上下文相关性 查找信息。
表示模型的应用
经过微调的表示模型可以用于典型 NLP 任务:
例如:
- 文本分类
- 情感分析
- 词性标注
- 文档相似度检测
这些都是 监督学习任务,需要标注数据。
这种技术是许多系统的核心,例如:
- 问答系统
- 推荐系统
- 智能文档检索
自回归模型的应用
自回归模型更加 通用。
主要用于 内容生成任务:
例如:
- 对话 AI
- 聊天机器人
- 文本生成
不过它们有一个问题:
幻觉(Hallucination)
即:
生成听起来合理但实际上错误的信息。
另外:
模型 没有训练数据的记忆,因此:
- 无法直接引用信息来源
因此在高可靠性场景中可能不够可信。
RAG:解决幻觉问题
为了解决这个问题,近年来出现了:
RAG(Retrieval-Augmented Generation,检索增强生成)
RAG 结合了两种模型的能力:
- 表示模型 → 用于检索知识
- 生成模型 → 用于生成回答
工作流程:
-
系统先从知识库中检索相关信息
-
将这些信息提供给模型
-
模型只根据这些信息生成回答
这样可以:
-
提高准确性
-
提供可验证的信息来源
LLM Agent(智能体)
LLM 的下一阶段是:
Agent(智能体)
在这种模式中:
LLM 作为 推理引擎,能够:
- 理解目标
- 制定计划
- 使用工具执行任务
例如调用:
- API
- 脚本
- 数据库
这可以构建更强大的系统,例如:
- 自动化助手
- 智能代理系统
总结
LLM 的发展经历了从:
理解语言 → 生成语言 → 采取行动
的演变。
LLM 主要分为两类:
表示模型(Representational Models)
- 生成向量表示(embedding)
- 用于语义搜索和分类
自回归模型(Autoregressive Models)
- 根据提示生成文本
- 用于对话和内容生成
通过 RAG 等技术,开发者可以克服 LLM 的一些限制,例如:
- 幻觉问题
- 无法引用来源
这使得 LLM 能够构建 基于真实信息的可靠系统,并在各个行业产生深远影响。
部分信息可能已经过时









