mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
1984 字
5 分钟
LLM简介
2026-03-06

大语言模型(LLM)概述#

在本主题中,我们将从宏观层面介绍什么是 LLM(Large Language Model,大语言模型),了解根据输出形式可以将其分为的两种主要类型,并探讨它们在作为 AI 助手之外的更多应用场景。


什么是大语言模型#

大语言模型(LLM) 是一种人工智能(AI),能够理解并生成类似人类的文本。
它通过在海量文本数据上进行训练,从而学会识别、总结、翻译、预测以及创造内容。

在核心结构上,LLM 使用一种神经网络架构,通常是 Transformer 架构 来处理语言。

通过分析训练数据中单词和短语之间的统计关系,模型可以学习:

  • 语法
  • 事实知识
  • 推理能力

因此,它能够完成许多任务,例如:

  • 回答问题
  • 写邮件
  • 生成代码
  • 进行对话

名称中的 “large(大)” 指的是模型包含的大量参数——通常达到 数十亿甚至数万亿个参数,这些参数用于进行预测。


LLM 的训练过程#

LLM 的开发通常包括 两个主要阶段

1 预训练(Pre-training)#

第一阶段训练的是 基础模型(Foundation Model)

在这个阶段,模型会处理大量文本数据,并从中提取各种模式,例如:

  • 语法结构
  • 词语关联
  • 上下文语义

更正式地说,这个阶段模型会学习 数据之间的统计表示和关系

这种训练方式通常是 自监督学习(Self-supervised learning)

  • 不需要人工标注数据
  • 任务目标是从数据中自动学习结构

这个阶段称为 预训练(Pre-training)

在这一阶段,模型通常不会直接执行具体任务。根据模型类型,它可能会:

  • 将文本转换为数值表示
  • 进行自动补全(预测下一个词)

这些能力本身虽然有限,但为后续任务打下基础。


2 微调(Fine-tuning)#

第二阶段通常是 微调(Fine-tuning)

在这个阶段:

  • 使用 标注数据(labeled dataset)
  • 数据规模通常远小于预训练数据

微调的目标包括:

  • 解决某个特定任务(例如命名实体识别)
  • 适应某个特定领域(例如医学文本)

需要注意:

微调 不一定必须是监督学习,也可能使用:

  • 半监督学习
  • 强化学习

不过这些不在本主题的讨论范围内。

通过微调,基础模型可以执行各种任务,例如:

  • 分类
  • 按指令执行任务

例如:

ChatGPT 中的 “chat” 指的是
GPT(一个基础模型)被额外微调用于 对话任务

这种微调使用了包含如下结构的数据:

任务描述 -> 期望回答


对齐(Alignment)#

微调过程中通常还包含一个子步骤:

对齐(Alignment)

在这个步骤中,开发者会调整模型行为,使其:

  • 更友好
  • 更符合用户期望
  • 更安全

两种主要类型的 LLM#

根据输出类型,LLM 可以分为两大类:

  1. 自回归模型(Autoregressive Models)
  2. 表示模型(Representational Models / Embedding Models)

自回归模型(生成式模型)#

自回归模型通过以下方式生成文本:

根据之前的 token(词或子词),预测下一个 token

换句话说,它们建模的是:

P(下一个词 | 前面的词)

你几乎肯定使用过这种模型,例如:

  • ChatGPT
  • Claude
  • Gemini
  • Llama
  • Grok

这些都是 自回归模型

这也是为什么你看到它们回答问题时:

一个 token 一个 token 地流式输出

这就是 自回归生成


表示模型(Embedding 模型)#

表示模型的目标不同。

它们不会生成文本,而是:

将整个输入编码成一个向量表示(embedding)

这些模型会:

  • 将单词和文本表示为向量
  • 在向量空间中表示语义关系

然后根据这些向量进行预测。

例如:

一些模型(如 BERT)通过以下方式训练:

Masked Language Model(掩码预测)

即:

预测句子中被遮挡的词。

例如:

I love [MASK] learning

模型需要预测 [MASK] = machine 等。

不过这并不是训练 embedding 模型的唯一方法。


表示模型的输出#

表示模型的输出通常是:

embedding(向量表示)

之后可以进一步微调,用于执行特定任务,例如:

  • 情感分析

输出可能是:

positive
negative
neutral

两类模型的区别#

类型主要功能
自回归模型生成文本
表示模型生成向量表示

因此:

  • 表示模型通常不生成文本
  • 生成文本主要由自回归模型完成

使用 LLM 构建应用#

开发者已经在很多领域使用 LLM。

一个基础技术是:

语义搜索(Semantic Search)

它不同于传统的关键词搜索,而是:

根据 语义和上下文相关性 查找信息。


表示模型的应用#

经过微调的表示模型可以用于典型 NLP 任务:

例如:

  • 文本分类
  • 情感分析
  • 词性标注
  • 文档相似度检测

这些都是 监督学习任务,需要标注数据。

这种技术是许多系统的核心,例如:

  • 问答系统
  • 推荐系统
  • 智能文档检索

自回归模型的应用#

自回归模型更加 通用

主要用于 内容生成任务

例如:

  • 对话 AI
  • 聊天机器人
  • 文本生成

不过它们有一个问题:

幻觉(Hallucination)

即:

生成听起来合理但实际上错误的信息。

另外:

模型 没有训练数据的记忆,因此:

  • 无法直接引用信息来源

因此在高可靠性场景中可能不够可信。


RAG:解决幻觉问题#

为了解决这个问题,近年来出现了:

RAG(Retrieval-Augmented Generation,检索增强生成)

RAG 结合了两种模型的能力:

  1. 表示模型 → 用于检索知识
  2. 生成模型 → 用于生成回答

工作流程:

  1. 系统先从知识库中检索相关信息

  2. 将这些信息提供给模型

  3. 模型只根据这些信息生成回答

这样可以:

  • 提高准确性

  • 提供可验证的信息来源


LLM Agent(智能体)#

LLM 的下一阶段是:

Agent(智能体)

在这种模式中:

LLM 作为 推理引擎,能够:

  1. 理解目标
  2. 制定计划
  3. 使用工具执行任务

例如调用:

  • API
  • 脚本
  • 数据库

这可以构建更强大的系统,例如:

  • 自动化助手
  • 智能代理系统

总结#

LLM 的发展经历了从:

理解语言 → 生成语言 → 采取行动

的演变。

LLM 主要分为两类:

表示模型(Representational Models)

  • 生成向量表示(embedding)
  • 用于语义搜索和分类

自回归模型(Autoregressive Models)

  • 根据提示生成文本
  • 用于对话和内容生成

通过 RAG 等技术,开发者可以克服 LLM 的一些限制,例如:

  • 幻觉问题
  • 无法引用来源

这使得 LLM 能够构建 基于真实信息的可靠系统,并在各个行业产生深远影响。

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

LLM简介
http://s0ralin.github.io/posts/llm简介/
作者
まつざか ゆき
发布于
2026-03-06
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00