まつざかゆき

公告

ブログへようこそ！これはサンプルの告知です

Learn More

分类

标签

欢迎基础教程提示词演示语法 AI TypeScript

まつざかゆき

公告

ブログへようこそ！これはサンプルの告知です

Learn More

分类

标签

欢迎基础教程提示词演示语法 AI TypeScript

1984 字

5 分钟

LLM简介

2026-03-06

提示词工程

提示词

/

AI

大语言模型（LLM）概述#

在本主题中，我们将从宏观层面介绍什么是 LLM（Large Language Model，大语言模型），了解根据输出形式可以将其分为的两种主要类型，并探讨它们在作为 AI 助手之外的更多应用场景。

什么是大语言模型#

大语言模型（LLM） 是一种人工智能（AI），能够理解并生成类似人类的文本。
它通过在海量文本数据上进行训练，从而学会识别、总结、翻译、预测以及创造内容。

在核心结构上，LLM 使用一种神经网络架构，通常是 Transformer 架构 来处理语言。

通过分析训练数据中单词和短语之间的统计关系，模型可以学习：

语法
事实知识
推理能力

因此，它能够完成许多任务，例如：

回答问题
写邮件
生成代码
进行对话

名称中的 “large（大）” 指的是模型包含的大量参数——通常达到 数十亿甚至数万亿个参数，这些参数用于进行预测。

LLM 的训练过程#

LLM 的开发通常包括 两个主要阶段。

1 预训练（Pre-training）#

第一阶段训练的是 基础模型（Foundation Model）。

在这个阶段，模型会处理大量文本数据，并从中提取各种模式，例如：

语法结构
词语关联
上下文语义

更正式地说，这个阶段模型会学习 数据之间的统计表示和关系。

这种训练方式通常是 自监督学习（Self-supervised learning）：

不需要人工标注数据
任务目标是从数据中自动学习结构

这个阶段称为 预训练（Pre-training）。

在这一阶段，模型通常不会直接执行具体任务。根据模型类型，它可能会：

将文本转换为数值表示
进行自动补全（预测下一个词）

这些能力本身虽然有限，但为后续任务打下基础。

2 微调（Fine-tuning）#

第二阶段通常是 微调（Fine-tuning）。

在这个阶段：

使用 标注数据（labeled dataset）
数据规模通常远小于预训练数据

微调的目标包括：

解决某个特定任务（例如命名实体识别）
适应某个特定领域（例如医学文本）

需要注意：

微调 不一定必须是监督学习，也可能使用：

半监督学习
强化学习

不过这些不在本主题的讨论范围内。

通过微调，基础模型可以执行各种任务，例如：

分类
按指令执行任务

例如：

ChatGPT 中的 “chat” 指的是
GPT（一个基础模型）被额外微调用于 对话任务。

这种微调使用了包含如下结构的数据：

任务描述 -> 期望回答

对齐（Alignment）#

微调过程中通常还包含一个子步骤：

对齐（Alignment）

在这个步骤中，开发者会调整模型行为，使其：

更友好
更符合用户期望
更安全

两种主要类型的 LLM#

根据输出类型，LLM 可以分为两大类：

自回归模型（Autoregressive Models）
表示模型（Representational Models / Embedding Models）

自回归模型（生成式模型）#

自回归模型通过以下方式生成文本：

根据之前的 token（词或子词），预测下一个 token。

换句话说，它们建模的是：

P(下一个词 | 前面的词)

你几乎肯定使用过这种模型，例如：

ChatGPT
Claude
Gemini
Llama
Grok

这些都是 自回归模型。

这也是为什么你看到它们回答问题时：

一个 token 一个 token 地流式输出。

这就是 自回归生成。

表示模型（Embedding 模型）#

表示模型的目标不同。

它们不会生成文本，而是：

将整个输入编码成一个向量表示（embedding）。

这些模型会：

将单词和文本表示为向量
在向量空间中表示语义关系

然后根据这些向量进行预测。

例如：

一些模型（如 BERT）通过以下方式训练：

Masked Language Model（掩码预测）

即：

预测句子中被遮挡的词。

例如：

1
I love [MASK] learning

模型需要预测 [MASK] = machine 等。

不过这并不是训练 embedding 模型的唯一方法。

表示模型的输出#

表示模型的输出通常是：

embedding（向量表示）

之后可以进一步微调，用于执行特定任务，例如：

情感分析

输出可能是：

1
positive
2
negative
3
neutral

两类模型的区别#

类型	主要功能
自回归模型	生成文本
表示模型	生成向量表示

因此：

表示模型通常不生成文本
生成文本主要由自回归模型完成

使用 LLM 构建应用#

开发者已经在很多领域使用 LLM。

一个基础技术是：

语义搜索（Semantic Search）

它不同于传统的关键词搜索，而是：

根据 语义和上下文相关性 查找信息。

表示模型的应用#

经过微调的表示模型可以用于典型 NLP 任务：

例如：

文本分类
情感分析
词性标注
文档相似度检测

这些都是 监督学习任务，需要标注数据。

这种技术是许多系统的核心，例如：

问答系统
推荐系统
智能文档检索

自回归模型的应用#

自回归模型更加通用。

主要用于 内容生成任务：

例如：

对话 AI
聊天机器人
文本生成

不过它们有一个问题：

幻觉（Hallucination）

即：

生成听起来合理但实际上错误的信息。

另外：

模型 没有训练数据的记忆，因此：

无法直接引用信息来源

因此在高可靠性场景中可能不够可信。

RAG：解决幻觉问题#

为了解决这个问题，近年来出现了：

RAG（Retrieval-Augmented Generation，检索增强生成）

RAG 结合了两种模型的能力：

表示模型 → 用于检索知识
生成模型 → 用于生成回答

工作流程：

系统先从知识库中检索相关信息
将这些信息提供给模型
模型只根据这些信息生成回答

这样可以：

提高准确性
提供可验证的信息来源

LLM Agent（智能体）#

LLM 的下一阶段是：

Agent（智能体）

在这种模式中：

LLM 作为 推理引擎，能够：

理解目标
制定计划
使用工具执行任务

例如调用：

API
脚本
数据库

这可以构建更强大的系统，例如：

自动化助手
智能代理系统

总结#

LLM 的发展经历了从：

理解语言 → 生成语言 → 采取行动

的演变。

LLM 主要分为两类：

表示模型（Representational Models）

生成向量表示（embedding）
用于语义搜索和分类

自回归模型（Autoregressive Models）

根据提示生成文本
用于对话和内容生成

通过 RAG 等技术，开发者可以克服 LLM 的一些限制，例如：

幻觉问题
无法引用来源

这使得 LLM 能够构建 基于真实信息的可靠系统，并在各个行业产生深远影响。

LLM简介

http://s0ralin.github.io/posts/llm简介/

作者

まつざかゆき

发布于

2026-03-06

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

神经网络简介

与LLM交互