文章详情|AI知识点解释

AI知识点解释 所属分类 AI 浏览量 286
大模型技术栈、训练流程、核心机制及应用场景， AI 技术关键概念


大模型推理停止控制 
模型蒸馏   Model Distillation
强化学习 RL   Reinforcement Learning
SSE   Server-Sent Events
知识涌现   Knowledge Emergence
模型量化    Model Quantization
MCP   Model Context Protocol
LORA  Low-Rank Adaptation
幻觉  Hallucination
embedding  嵌入 
token 词元 
智能体 AI agent 
思维链 COT    Chain of Thought
温度系数 
混合专家模型 MOE  Mixture of Experts
惩罚系数 penalty 
top-p / top-k 
beam search 
世界模型  World Model
过拟合  Overfitting
模型并行  Model Parallelism
流水线并行 Pipeline Parallelism
GPU  Graphics Processing Unit，图形处理器
CUDA   Compute Unified Device Architecture 统一计算设备架构
注意力机制   Attention Mechanism
KV cache 
CLIP（Contrastive Language-Image Pre-training） 
RAG   Retrieval-Augmented Generation，检索增强生成
reranking  重排序
预训练   Pre-training
SFT-指令微调   Supervised Fine-Tuning 
RLHF    Reinforcement Learning from Human Feedback
llama.cpp 
位置编码   Positional Encoding
zero-shot   few-shot 
Context Engineering  上下文工程 
VAE    Variational Autoencoder，变分自编码器
困惑度 PPL   Perplexity
scaling law 
function calling 
交叉熵  Cross-Entropy
具身智能  Embodied Intelligence





大模型推理停止控制
大模型生成文本时，需判断何时停止输出（如避免无限生成或偏离主题）。常见控制方式包括：

特殊终止符：模型训练时引入< END >等特殊 token，生成到该 token 时停止。
长度限制：设定最大生成 token 数（如 2048），达到阈值后强制停止。
概率阈值：当生成下一个 token 的概率低于某阈值（如 1e-5）时停止，避免无意义输出。
语义检测：通过额外模型判断当前输出是否完整（如句子结束）。



模型蒸馏（Model Distillation）
将 “教师模型”（大模型，性能强）的知识迁移到 “学生模型”（小模型，效率高）的技术。

核心目标：在保证小模型性能接近大模型的同时，降低计算成本、提升推理速度。
常见方法：
用教师模型的输出（如 softmax 概率）作为学生模型的训练目标（而非真实标签）。
蒸馏中间层特征（如让学生模型的隐藏层输出模仿教师模型）。
应用场景：移动端部署、实时推理（如语音助手、推荐系统）。



强化学习（Reinforcement Learning, RL）
智能体通过与环境交互，从 “试错” 中学习最优行为策略的机器学习方法。
核心要素：
智能体（Agent）：执行动作的主体。
环境（Environment）：智能体所处的外部场景，会对动作做出反馈。
奖励（Reward）：环境对动作的评价（正 / 负），是学习的 “目标信号”。
典型算法：Q-Learning、PPO（Proximal Policy Optimization）、DQN（深度 Q 网络）。
应用：游戏 AI（如 AlphaGo）、机器人控制、自动驾驶决策。



SSE（Server-Sent Events）
一种基于 HTTP 的服务器向客户端主动推送实时数据的技术（单向通信）。

与 AI 的关联：
在大模型流式输出中常用（如 ChatGPT 的打字效果），服务器生成部分结果后立即推送给客户端，减少用户等待感。
优势：轻量、低延迟，无需像 WebSocket 那样维持双向连接。



知识涌现（Knowledge Emergence）
大模型在训练过程中，随着参数量、数据量或训练步数增加，突然展现出未被显式训练的能力（如逻辑推理、数学计算）的现象。

特点：能力并非通过针对性训练获得，而是模型规模增长到临界点后的 “自发” 表现。
示例：GPT-4 在未专门训练的情况下，能解复杂数学题或生成代码。



模型量化（Model Quantization）
通过降低模型权重和激活值的数值精度（如从 32 位浮点数→16 位→8 位→4 位甚至 2 位），减少模型存储和计算成本的技术。

核心目标：在精度损失可接受的范围内，提升模型运行效率（速度、内存占用）。
常见类型：
整数量化（如 INT8）：将权重从 float32 转为 8 位整数。
混合精度量化：部分层用高精度（如 float16），部分用低精度（如 INT8）。
应用：边缘设备部署（如手机、嵌入式设备）、大模型本地运行（如 llama.cpp 支持的 4 位量化）。



MCP（Model Context Protocol）
模型上下文协议，是一种用于规范人工智能模型与外部系统交互的开放协议
标准化：为语言模型与工具的交互提供标准化方式，促进互操作性。
通信方法：支持多种通信方法，如 stdio 和 sse，以灵活集成工具。
工具集成：使语言模型能够使用外部工具，增强其功能和适用性。



LoRA（Low-Rank Adaptation）
一种高效微调大模型的技术，通过冻结预训练模型权重，仅训练少量新增的低秩矩阵参数。
原理：将模型参数的更新量分解为两个低秩矩阵的乘积（减少训练参数规模），微调后通过矩阵乘法恢复更新量。
优势：训练成本低（参数少）、收敛快，且微调后可通过 “权重合并” 恢复完整模型。
应用：大模型领域适配（如特定语言、垂直领域微调）、个性化定制（如角色设定）。



幻觉（Hallucination）
大模型生成看似合理但与事实不符的内容（如虚构信息、错误引用）的现象。

原因：
训练数据中存在噪声或矛盾信息。
模型对知识的 “记忆模糊”，在生成时过度泛化。
为了满足输出流畅性而牺牲准确性。
缓解方法：引入外部知识库（如 RAG）、增加事实性训练数据、设计检测幻觉的算法。



Embedding（嵌入）
将离散数据（如文本、图像、音频）转换为连续低维向量的过程，向量中蕴含原始数据的语义信息。

核心作用：让计算机 “理解” 语义 ，相似的内容对应的 embedding 向量距离更近（如 “猫” 和 “狗” 的向量比 “猫” 和 “汽车” 更接近）。
应用：语义搜索、文本聚类、推荐系统（如基于用户兴趣向量匹配商品）、大模型中的输入表示（如 Transformer 的词嵌入）。



Token（词元）
模型处理文本时的基本单位，可是单词、子词（如 “unhappiness” 拆分为 “un-”“happiness”）或字符。

分词方式：
英文：常用子词分词（如 BPE 算法），平衡词汇量和语义完整性。
中文：多为单字或词语分词（如 “人工智能” 可作为一个 token）。
重要性：模型输入需先转换为 token 序列，再映射为 embedding 向量；生成文本时也是以 token 为单位逐一生成。



智能体（AI Agent）
能自主感知环境、制定目标、执行动作并适应反馈的 AI 系统，具备一定的 “自主性” 和 “连续性”。

核心能力：规划（如拆解任务）、记忆（短期 / 长期）、工具使用（如调用 API）、反思（优化策略）。
示例：AutoGPT（可自主完成复杂任务的 agent）、游戏 NPC、客服机器人（能连续处理多轮对话）。




思维链（Chain of Thought, CoT）
让模型在输出最终答案前，先生成 “推理步骤”（类似人类思考过程），从而提升复杂任务（如逻辑推理、数学题）表现的提示技术。

原理：通过显式的中间步骤引导模型逐步推理，减少跳跃性错误。
示例：问 “3 个苹果和 2 个梨共 10 元，1 个苹果 2 元，1 个梨多少钱？”，
模型先回答 “3 个苹果是 3×2=6 元，所以 2 个梨是 10-6=4 元，1 个梨 2 元”，再给出答案。



温度系数（Temperature）
控制大模型生成文本随机性的参数（范围通常为 0~2）。

作用：调整输出 token 的概率分布 ——
温度 = 0：选择概率最高的 token（确定性输出，重复度高）。
温度 > 1：提高低概率 token 的选中概率（更随机、更多样化，可能出现错误）。
温度 < 1：增强高概率 token 的优先级（更保守、更集中）。




混合专家模型（Mixture of Experts, MoE）
一种模型架构，通过 “门控网络”（Gating Network）动态选择多个 “专家子模型”（Expert）中的部分子模型处理输入，平衡性能与效率。

原理：大模型无需所有参数参与每次推理，仅激活与当前输入相关的专家（如处理数学问题时激活 “数学专家”）。
优势：参数量可极大扩展（如 100B+），但计算成本增长较慢。
示例：GPT-4、PaLM 2 部分采用 MoE 架构。




惩罚系数（Penalty）
控制模型生成重复内容的参数（如重复惩罚，Repetition Penalty）。

作用：若某 token 已多次出现，降低其在后续生成中的概率，避免输出冗余（如反复重复同一句话）。
常见场景：长文本生成（如小说、论文）中防止循环冗余。




Top-p / Top-k
控制模型生成多样性的两种采样策略（用于从 token 概率分布中选择下一个 token）。

Top-k：仅从概率最高的 k 个 token 中选择（如 k=50，只考虑前 50 个最可能的词），简单高效但可能错过低概率但合适的 token。
Top-p（核采样）：累积概率从高到低排序，选择概率和首次超过 p 的最小 token 集合（如 p=0.9，选择概率和为 90% 的 token），更灵活，平衡多样性与合理性。



Beam Search（束搜索）
一种生成任务中的解码策略，通过保留 “最可能的前 N 条候选序列”（Beam Size），逐步扩展并筛选，最终选择最优输出。

与贪心搜索的区别：贪心搜索只保留当前最优序列，可能错过全局最优；束搜索通过多候选并行扩展，提升结果质量（但计算成本更高）。
应用：机器翻译、文本摘要等生成任务。



世界模型（World Model）
AI 系统对物理世界或任务环境的 “内部模拟模型”，可预测动作的未来结果，辅助决策。

核心作用：让智能体在 “虚拟模拟” 中试错（而非真实环境），降低学习成本，提升规划能力。
示例：AlphaGo 通过模拟围棋棋局预测落子结果；自动驾驶模型通过模拟路况预测车辆轨迹。



过拟合（Overfitting）
模型在训练数据上表现极好，但在未见过的测试数据上表现差的现象（“死记硬背” 而非 “泛化学习”）。

原因：模型复杂度过高（如参数量过大）、训练数据不足或有噪声。
缓解方法：数据增强、正则化（L1/L2 正则）、早停（Early Stopping）、 dropout。



模型并行（Model Parallelism）
将大模型的不同层或参数拆分到多个设备（如 GPU）上运行，解决单设备内存不足问题。

示例：Transformer 的第一层放 GPU1，第二层放 GPU2，输入数据依次通过各设备完成计算。
与数据并行的区别：数据并行是将数据拆分到多设备，各设备运行完整模型；模型并行是拆分模型本身。



流水线并行（Pipeline Parallelism）
将模型按层拆分到不同设备，同时让不同设备处理输入数据的不同批次（类似工厂流水线），提升计算效率。

优势：减少设备空闲时间（如 GPU1 处理第 1 批数据时，GPU2 可同时处理第 2 批数据的前几层）。
应用：训练超大规模模型（如 GPT-3）时，结合模型并行和数据并行使用。



GPU（Graphics Processing Unit，图形处理器）
擅长并行计算的硬件，因 AI 模型（尤其是深度学习）的张量运算（矩阵乘法等）需大量并行计算，成为 AI 训练和推理的核心设备。

优势：相比 CPU，拥有更多计算核心，适合处理大规模并行任务（如同时计算数百万个神经元的激活值）。
常见型号：NVIDIA A100、H100（AI 训练）；RTX 4090（个人推理）。


CUDA  Compute Unified Device Architecture 统一计算设备架构
NVIDIA 推出的并行计算平台和编程模型，允许开发者利用 GPU 进行通用计算（如 AI 模型训练）。

作用：提供 API 让深度学习框架（如 PyTorch、TensorFlow）调用 GPU 的计算能力，大幅加速模型训练和推理。
局限性：仅支持 NVIDIA GPU，AMD 等其他厂商需用 OpenCL 等替代方案。



注意力机制（Attention Mechanism）
模拟人类 “注意力” 的模型组件，让模型在处理输入时 “聚焦” 于关键信息（如翻译时，“猫” 更关注原文中的 “cat” 而非其他词）。
核心公式：通过计算 “查询（Query）” 与 “键（Key）” 的相似度（如点积），得到 “注意力权重”，再加权求和 “值（Value）” 得到输出。
应用：Transformer 模型的核心组件，支撑了 BERT、GPT 等大模型的性能；在图像领域（如目标检测）也有广泛应用。



KV Cache（Key-Value Cache）
Transformer 模型推理时，缓存中间层的 Key 和 Value 向量，避免重复计算，提升速度的技术。

原理：生成第 n 个 token 时，需用到前 n-1 个 token 的 Key 和 Value；缓存这些向量后，仅需计算第 n 个 token 的 Query，减少冗余运算。
代价：缓存会占用额外内存，长文本生成时内存消耗随 token 数线性增长。



CLIP（Contrastive Language-Image Pre-training）
OpenAI 提出的跨模态预训练模型，同时理解文本和图像语义。

训练方式：通过对比学习，让匹配的 “文本 - 图像对”（如 “一只猫” 和猫的图片）在 embedding 空间中距离更近，不匹配的对距离更远。
应用：零样本图像分类（如用文本 “狗” 直接匹配狗的图片）、图像生成的文本引导（如 DALL・E 结合 CLIP 理解文本描述）。



RAG（Retrieval-Augmented Generation，检索增强生成）
将外部知识库检索与大模型生成结合的技术，让模型基于检索到的事实性信息生成回答，减少幻觉。

流程：
用户提问后，从知识库（如文档、数据库）中检索相关内容。
将检索结果作为上下文输入大模型，引导其基于事实生成回答。
应用：企业问答系统（如基于内部文档回答员工问题）、知识问答（如法律、医疗领域）。




Reranking（重排序）
对检索系统返回的初始结果（如 RAG 中检索到的文档）重新排序，提升相关性的技术。

原理：用更精细的模型（如交叉注意力模型）评估 “用户 query” 与 “候选文档” 的匹配度，调整初始排序（如将更相关的文档排到前面）。
作用：弥补传统检索（如关键词匹配）的不足，提升后续大模型生成的准确性。



预训练（Pre-training）
大模型的第一阶段训练：在大规模无标注数据（如互联网文本）上训练模型，学习通用语言知识（如语法、语义、世界常识）。

目标：让模型掌握基础能力（如理解句子结构、关联概念），为后续微调奠定基础。
示例：GPT-3 在数万亿 tokens 的文本上预训练，学习通用语言规律。




SFT（Supervised Fine-Tuning，指令微调）
预训练后的第二阶段：用人工标注的 “指令 - 响应” 数据（如 “写一首诗”→ 生成的诗）微调模型，使其理解并遵循人类指令。

目标：让模型适应具体任务形式（如问答、翻译），提升对人类意图的对齐能力。



RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）
通过人类偏好数据优化模型输出的技术，是大模型对齐人类价值观的关键步骤。

流程：
收集人类对模型输出的偏好排序（如 A 回答比 B 回答更好）。
训练 “奖励模型”（Reward Model）预测人类偏好。
用强化学习（如 PPO）以奖励模型的输出为目标，微调大模型。
作用：让模型输出更符合人类伦理、更安全、更有用（如避免有害内容）。



llama.cpp
一款轻量级 C/C++ 实现的 Llama 系列模型推理库，支持在 CPU/GPU 上高效运行量化后的大模型（如 4 位、8 位量化）。

特点：无需依赖复杂框架（如 PyTorch），适合本地部署（如个人电脑、树莓派）。
应用：开发者在本地运行开源大模型（如 Llama 2、 Mistral），保护数据隐私。




位置编码（Positional Encoding）
Transformer 模型中用于表示 token 序列位置信息的机制（因 Transformer 本身是并行处理，无内置时序感知能力）。

常见方式：
正弦余弦编码：用不同频率的正弦 / 余弦函数生成位置向量，注入 token 的 embedding 中。
可学习位置编码：将位置作为参数，在训练中学习位置信息。
作用：让模型理解句子中 token 的顺序关系（如 “我打他” 和 “他打我” 的区别）。



Zero-shot / Few-shot
模型在不经过专门训练的情况下处理任务的能力：

Zero-shot：模型从未见过某任务的示例，直接处理（如让未训练过翻译的模型翻译句子）。
Few-shot：给模型少量示例（如 1~5 个），引导其完成任务（如 “例：1+1=2；问：2+3=？”）。
核心能力：体现模型的泛化性，依赖预训练阶段学到的通用知识。



Context（上下文）
模型生成回答时参考的输入文本，包括用户历史对话、提示词、检索到的文档等。

长度限制：大模型有上下文窗口限制（如 GPT-4 为 8k/128k tokens），超出限制的内容无法被模型处理。
重要性：上下文提供背景信息，直接影响模型输出的相关性（如长对话中需包含历史消息才能保持连贯性）。

Context Engineering
用于描述对模型上下文进行设计、构建和优化的系统性工作。


VAE（Variational Autoencoder，变分自编码器）
一种生成式神经网络，由编码器（将输入映射到潜在空间分布）和解码器（从潜在分布生成重构输入）组成。

特点：潜在空间具有连续性和可解释性，可通过采样生成新数据（如相似但不同的图像）。
应用：图像生成（如生成相似的人脸）、数据降维、异常检测。



困惑度（Perplexity, PPL）
衡量语言模型预测能力的指标：PPL 越低，模型对文本的预测越准确（越 “不困惑”）。
计算：基于模型对文本序列中每个 token 的预测概率，PPL = 序列概率的负对数平均值的指数。
作用：评估模型训练效果（如预训练或微调后 PPL 是否下降）。




Scaling Law（缩放定律）
描述大模型性能与参数量、数据量、训练计算量之间关系的规律：
当这些指标按比例增长时，模型性能（如困惑度、任务准确率）会单调提升。
意义：指导大模型设计（如预测达到某性能需多少参数 / 数据），是 GPT、PaLM 等模型规模不断扩大的理论基础。



Function Calling（函数调用）
让大模型根据用户需求，生成符合格式的指令调用外部工具（如 API、数据库、计算器）的能力。

示例：
用户问 “今天北京天气如何？”，
模型生成调用天气 API 的指令（如{"function":"get_weather","parameters":{"city":"北京"}}），
工具返回结果后，模型再整理成自然语言回答。

应用：扩展模型能力（如实时信息获取、数据计算、控制硬件）。




交叉熵（Cross-Entropy）
衡量两个概率分布差异的指标，是语言模型训练的核心损失函数。

在语言模型中：比较模型预测的 token 概率分布与真实 token 的分布（真实分布为 one-hot 向量，仅正确 token 概率为 1），交叉熵越小，预测越准确。



具身智能（Embodied Intelligence）
指智能体通过物理身体（如机器人）与环境交互，在真实世界中学习和执行任务的智能形式，强调 “感知 - 动作 - 反馈” 闭环。

与纯语言模型的区别：不仅依赖数据学习，还通过身体体验（如触摸、移动）理解世界（如知道 “推” 会导致物体移动）。
应用：服务机器人、自动驾驶、机械臂操作。
LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点002-交叉熵

docker info 结果示例说明

mybatisplus IService 与 BaseMapper 的区别

LLM本质上是“猜词”系统，它根本看不懂世界