首页  

AI知识点解释     所属分类 AI 浏览量 16
大模型技术栈、训练流程、核心机制及应用场景, AI 技术关键概念


大模型推理停止控制 
模型蒸馏   Model Distillation
强化学习 RL   Reinforcement Learning
SSE   Server-Sent Events
知识涌现   Knowledge Emergence
模型量化    Model Quantization
MCP   Model Context Protocol
LORA  Low-Rank Adaptation
幻觉  Hallucination
embedding  嵌入 
token 词元 
智能体 AI agent 
思维链 COT    Chain of Thought
温度系数 
混合专家模型 MOE  Mixture of Experts
惩罚系数 penalty 
top-p / top-k 
beam search 
世界模型  World Model
过拟合  Overfitting
模型并行  Model Parallelism
流水线并行 Pipeline Parallelism
GPU  Graphics Processing Unit,图形处理器
CUDA   Compute Unified Device Architecture 统一计算设备架构
注意力机制   Attention Mechanism
KV cache 
CLIP(Contrastive Language-Image Pre-training) 
RAG   Retrieval-Augmented Generation,检索增强生成
reranking  重排序
预训练   Pre-training
SFT-指令微调   Supervised Fine-Tuning 
RLHF    Reinforcement Learning from Human Feedback
llama.cpp 
位置编码   Positional Encoding
zero-shot   few-shot 
Context Engineering  上下文工程 
VAE    Variational Autoencoder,变分自编码器
困惑度 PPL   Perplexity
scaling law 
function calling 
交叉熵  Cross-Entropy
具身智能  Embodied Intelligence



大模型推理停止控制 大模型生成文本时,需判断何时停止输出(如避免无限生成或偏离主题)。常见控制方式包括: 特殊终止符:模型训练时引入< END >等特殊 token,生成到该 token 时停止。 长度限制:设定最大生成 token 数(如 2048),达到阈值后强制停止。 概率阈值:当生成下一个 token 的概率低于某阈值(如 1e-5)时停止,避免无意义输出。 语义检测:通过额外模型判断当前输出是否完整(如句子结束)。 模型蒸馏(Model Distillation) 将 “教师模型”(大模型,性能强)的知识迁移到 “学生模型”(小模型,效率高)的技术。 核心目标:在保证小模型性能接近大模型的同时,降低计算成本、提升推理速度。 常见方法: 用教师模型的输出(如 softmax 概率)作为学生模型的训练目标(而非真实标签)。 蒸馏中间层特征(如让学生模型的隐藏层输出模仿教师模型)。 应用场景:移动端部署、实时推理(如语音助手、推荐系统)。 强化学习(Reinforcement Learning, RL) 智能体通过与环境交互,从 “试错” 中学习最优行为策略的机器学习方法。 核心要素: 智能体(Agent):执行动作的主体。 环境(Environment):智能体所处的外部场景,会对动作做出反馈。 奖励(Reward):环境对动作的评价(正 / 负),是学习的 “目标信号”。 典型算法:Q-Learning、PPO(Proximal Policy Optimization)、DQN(深度 Q 网络)。 应用:游戏 AI(如 AlphaGo)、机器人控制、自动驾驶决策。 SSE(Server-Sent Events) 一种基于 HTTP 的服务器向客户端主动推送实时数据的技术(单向通信)。 与 AI 的关联: 在大模型流式输出中常用(如 ChatGPT 的打字效果),服务器生成部分结果后立即推送给客户端,减少用户等待感。 优势:轻量、低延迟,无需像 WebSocket 那样维持双向连接。 知识涌现(Knowledge Emergence) 大模型在训练过程中,随着参数量、数据量或训练步数增加,突然展现出未被显式训练的能力(如逻辑推理、数学计算)的现象。 特点:能力并非通过针对性训练获得,而是模型规模增长到临界点后的 “自发” 表现。 示例:GPT-4 在未专门训练的情况下,能解复杂数学题或生成代码。 模型量化(Model Quantization) 通过降低模型权重和激活值的数值精度(如从 32 位浮点数→16 位→8 位→4 位甚至 2 位),减少模型存储和计算成本的技术。 核心目标:在精度损失可接受的范围内,提升模型运行效率(速度、内存占用)。 常见类型: 整数量化(如 INT8):将权重从 float32 转为 8 位整数。 混合精度量化:部分层用高精度(如 float16),部分用低精度(如 INT8)。 应用:边缘设备部署(如手机、嵌入式设备)、大模型本地运行(如 llama.cpp 支持的 4 位量化)。 MCP(Model Context Protocol) 模型上下文协议,是一种用于规范人工智能模型与外部系统交互的开放协议 标准化:为语言模型与工具的交互提供标准化方式,促进互操作性。 通信方法:支持多种通信方法,如 stdio 和 sse,以灵活集成工具。 工具集成:使语言模型能够使用外部工具,增强其功能和适用性。 LoRA(Low-Rank Adaptation) 一种高效微调大模型的技术,通过冻结预训练模型权重,仅训练少量新增的低秩矩阵参数。 原理:将模型参数的更新量分解为两个低秩矩阵的乘积(减少训练参数规模),微调后通过矩阵乘法恢复更新量。 优势:训练成本低(参数少)、收敛快,且微调后可通过 “权重合并” 恢复完整模型。 应用:大模型领域适配(如特定语言、垂直领域微调)、个性化定制(如角色设定)。 幻觉(Hallucination) 大模型生成看似合理但与事实不符的内容(如虚构信息、错误引用)的现象。 原因: 训练数据中存在噪声或矛盾信息。 模型对知识的 “记忆模糊”,在生成时过度泛化。 为了满足输出流畅性而牺牲准确性。 缓解方法:引入外部知识库(如 RAG)、增加事实性训练数据、设计检测幻觉的算法。 Embedding(嵌入) 将离散数据(如文本、图像、音频)转换为连续低维向量的过程,向量中蕴含原始数据的语义信息。 核心作用:让计算机 “理解” 语义 ,相似的内容对应的 embedding 向量距离更近(如 “猫” 和 “狗” 的向量比 “猫” 和 “汽车” 更接近)。 应用:语义搜索、文本聚类、推荐系统(如基于用户兴趣向量匹配商品)、大模型中的输入表示(如 Transformer 的词嵌入)。 Token(词元) 模型处理文本时的基本单位,可是单词、子词(如 “unhappiness” 拆分为 “un-”“happiness”)或字符。 分词方式: 英文:常用子词分词(如 BPE 算法),平衡词汇量和语义完整性。 中文:多为单字或词语分词(如 “人工智能” 可作为一个 token)。 重要性:模型输入需先转换为 token 序列,再映射为 embedding 向量;生成文本时也是以 token 为单位逐一生成。 智能体(AI Agent) 能自主感知环境、制定目标、执行动作并适应反馈的 AI 系统,具备一定的 “自主性” 和 “连续性”。 核心能力:规划(如拆解任务)、记忆(短期 / 长期)、工具使用(如调用 API)、反思(优化策略)。 示例:AutoGPT(可自主完成复杂任务的 agent)、游戏 NPC、客服机器人(能连续处理多轮对话)。 思维链(Chain of Thought, CoT) 让模型在输出最终答案前,先生成 “推理步骤”(类似人类思考过程),从而提升复杂任务(如逻辑推理、数学题)表现的提示技术。 原理:通过显式的中间步骤引导模型逐步推理,减少跳跃性错误。 示例:问 “3 个苹果和 2 个梨共 10 元,1 个苹果 2 元,1 个梨多少钱?”, 模型先回答 “3 个苹果是 3×2=6 元,所以 2 个梨是 10-6=4 元,1 个梨 2 元”,再给出答案。 温度系数(Temperature) 控制大模型生成文本随机性的参数(范围通常为 0~2)。 作用:调整输出 token 的概率分布 —— 温度 = 0:选择概率最高的 token(确定性输出,重复度高)。 温度 > 1:提高低概率 token 的选中概率(更随机、更多样化,可能出现错误)。 温度 < 1:增强高概率 token 的优先级(更保守、更集中)。 混合专家模型(Mixture of Experts, MoE) 一种模型架构,通过 “门控网络”(Gating Network)动态选择多个 “专家子模型”(Expert)中的部分子模型处理输入,平衡性能与效率。 原理:大模型无需所有参数参与每次推理,仅激活与当前输入相关的专家(如处理数学问题时激活 “数学专家”)。 优势:参数量可极大扩展(如 100B+),但计算成本增长较慢。 示例:GPT-4、PaLM 2 部分采用 MoE 架构。 惩罚系数(Penalty) 控制模型生成重复内容的参数(如重复惩罚,Repetition Penalty)。 作用:若某 token 已多次出现,降低其在后续生成中的概率,避免输出冗余(如反复重复同一句话)。 常见场景:长文本生成(如小说、论文)中防止循环冗余。 Top-p / Top-k 控制模型生成多样性的两种采样策略(用于从 token 概率分布中选择下一个 token)。 Top-k:仅从概率最高的 k 个 token 中选择(如 k=50,只考虑前 50 个最可能的词),简单高效但可能错过低概率但合适的 token。 Top-p(核采样):累积概率从高到低排序,选择概率和首次超过 p 的最小 token 集合(如 p=0.9,选择概率和为 90% 的 token),更灵活,平衡多样性与合理性。 Beam Search(束搜索) 一种生成任务中的解码策略,通过保留 “最可能的前 N 条候选序列”(Beam Size),逐步扩展并筛选,最终选择最优输出。 与贪心搜索的区别:贪心搜索只保留当前最优序列,可能错过全局最优;束搜索通过多候选并行扩展,提升结果质量(但计算成本更高)。 应用:机器翻译、文本摘要等生成任务。 世界模型(World Model) AI 系统对物理世界或任务环境的 “内部模拟模型”,可预测动作的未来结果,辅助决策。 核心作用:让智能体在 “虚拟模拟” 中试错(而非真实环境),降低学习成本,提升规划能力。 示例:AlphaGo 通过模拟围棋棋局预测落子结果;自动驾驶模型通过模拟路况预测车辆轨迹。 过拟合(Overfitting) 模型在训练数据上表现极好,但在未见过的测试数据上表现差的现象(“死记硬背” 而非 “泛化学习”)。 原因:模型复杂度过高(如参数量过大)、训练数据不足或有噪声。 缓解方法:数据增强、正则化(L1/L2 正则)、早停(Early Stopping)、 dropout。 模型并行(Model Parallelism) 将大模型的不同层或参数拆分到多个设备(如 GPU)上运行,解决单设备内存不足问题。 示例:Transformer 的第一层放 GPU1,第二层放 GPU2,输入数据依次通过各设备完成计算。 与数据并行的区别:数据并行是将数据拆分到多设备,各设备运行完整模型;模型并行是拆分模型本身。 流水线并行(Pipeline Parallelism) 将模型按层拆分到不同设备,同时让不同设备处理输入数据的不同批次(类似工厂流水线),提升计算效率。 优势:减少设备空闲时间(如 GPU1 处理第 1 批数据时,GPU2 可同时处理第 2 批数据的前几层)。 应用:训练超大规模模型(如 GPT-3)时,结合模型并行和数据并行使用。 GPU(Graphics Processing Unit,图形处理器) 擅长并行计算的硬件,因 AI 模型(尤其是深度学习)的张量运算(矩阵乘法等)需大量并行计算,成为 AI 训练和推理的核心设备。 优势:相比 CPU,拥有更多计算核心,适合处理大规模并行任务(如同时计算数百万个神经元的激活值)。 常见型号:NVIDIA A100、H100(AI 训练);RTX 4090(个人推理)。 CUDA Compute Unified Device Architecture 统一计算设备架构 NVIDIA 推出的并行计算平台和编程模型,允许开发者利用 GPU 进行通用计算(如 AI 模型训练)。 作用:提供 API 让深度学习框架(如 PyTorch、TensorFlow)调用 GPU 的计算能力,大幅加速模型训练和推理。 局限性:仅支持 NVIDIA GPU,AMD 等其他厂商需用 OpenCL 等替代方案。 注意力机制(Attention Mechanism) 模拟人类 “注意力” 的模型组件,让模型在处理输入时 “聚焦” 于关键信息(如翻译时,“猫” 更关注原文中的 “cat” 而非其他词)。 核心公式:通过计算 “查询(Query)” 与 “键(Key)” 的相似度(如点积),得到 “注意力权重”,再加权求和 “值(Value)” 得到输出。 应用:Transformer 模型的核心组件,支撑了 BERT、GPT 等大模型的性能;在图像领域(如目标检测)也有广泛应用。 KV Cache(Key-Value Cache) Transformer 模型推理时,缓存中间层的 Key 和 Value 向量,避免重复计算,提升速度的技术。 原理:生成第 n 个 token 时,需用到前 n-1 个 token 的 Key 和 Value;缓存这些向量后,仅需计算第 n 个 token 的 Query,减少冗余运算。 代价:缓存会占用额外内存,长文本生成时内存消耗随 token 数线性增长。 CLIP(Contrastive Language-Image Pre-training) OpenAI 提出的跨模态预训练模型,同时理解文本和图像语义。 训练方式:通过对比学习,让匹配的 “文本 - 图像对”(如 “一只猫” 和猫的图片)在 embedding 空间中距离更近,不匹配的对距离更远。 应用:零样本图像分类(如用文本 “狗” 直接匹配狗的图片)、图像生成的文本引导(如 DALL・E 结合 CLIP 理解文本描述)。 RAG(Retrieval-Augmented Generation,检索增强生成) 将外部知识库检索与大模型生成结合的技术,让模型基于检索到的事实性信息生成回答,减少幻觉。 流程: 用户提问后,从知识库(如文档、数据库)中检索相关内容。 将检索结果作为上下文输入大模型,引导其基于事实生成回答。 应用:企业问答系统(如基于内部文档回答员工问题)、知识问答(如法律、医疗领域)。 Reranking(重排序) 对检索系统返回的初始结果(如 RAG 中检索到的文档)重新排序,提升相关性的技术。 原理:用更精细的模型(如交叉注意力模型)评估 “用户 query” 与 “候选文档” 的匹配度,调整初始排序(如将更相关的文档排到前面)。 作用:弥补传统检索(如关键词匹配)的不足,提升后续大模型生成的准确性。 预训练(Pre-training) 大模型的第一阶段训练:在大规模无标注数据(如互联网文本)上训练模型,学习通用语言知识(如语法、语义、世界常识)。 目标:让模型掌握基础能力(如理解句子结构、关联概念),为后续微调奠定基础。 示例:GPT-3 在数万亿 tokens 的文本上预训练,学习通用语言规律。 SFT(Supervised Fine-Tuning,指令微调) 预训练后的第二阶段:用人工标注的 “指令 - 响应” 数据(如 “写一首诗”→ 生成的诗)微调模型,使其理解并遵循人类指令。 目标:让模型适应具体任务形式(如问答、翻译),提升对人类意图的对齐能力。 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 通过人类偏好数据优化模型输出的技术,是大模型对齐人类价值观的关键步骤。 流程: 收集人类对模型输出的偏好排序(如 A 回答比 B 回答更好)。 训练 “奖励模型”(Reward Model)预测人类偏好。 用强化学习(如 PPO)以奖励模型的输出为目标,微调大模型。 作用:让模型输出更符合人类伦理、更安全、更有用(如避免有害内容)。 llama.cpp 一款轻量级 C/C++ 实现的 Llama 系列模型推理库,支持在 CPU/GPU 上高效运行量化后的大模型(如 4 位、8 位量化)。 特点:无需依赖复杂框架(如 PyTorch),适合本地部署(如个人电脑、树莓派)。 应用:开发者在本地运行开源大模型(如 Llama 2、 Mistral),保护数据隐私。 位置编码(Positional Encoding) Transformer 模型中用于表示 token 序列位置信息的机制(因 Transformer 本身是并行处理,无内置时序感知能力)。 常见方式: 正弦余弦编码:用不同频率的正弦 / 余弦函数生成位置向量,注入 token 的 embedding 中。 可学习位置编码:将位置作为参数,在训练中学习位置信息。 作用:让模型理解句子中 token 的顺序关系(如 “我打他” 和 “他打我” 的区别)。 Zero-shot / Few-shot 模型在不经过专门训练的情况下处理任务的能力: Zero-shot:模型从未见过某任务的示例,直接处理(如让未训练过翻译的模型翻译句子)。 Few-shot:给模型少量示例(如 1~5 个),引导其完成任务(如 “例:1+1=2;问:2+3=?”)。 核心能力:体现模型的泛化性,依赖预训练阶段学到的通用知识。 Context(上下文) 模型生成回答时参考的输入文本,包括用户历史对话、提示词、检索到的文档等。 长度限制:大模型有上下文窗口限制(如 GPT-4 为 8k/128k tokens),超出限制的内容无法被模型处理。 重要性:上下文提供背景信息,直接影响模型输出的相关性(如长对话中需包含历史消息才能保持连贯性)。 Context Engineering 用于描述对模型上下文进行设计、构建和优化的系统性工作。 VAE(Variational Autoencoder,变分自编码器) 一种生成式神经网络,由编码器(将输入映射到潜在空间分布)和解码器(从潜在分布生成重构输入)组成。 特点:潜在空间具有连续性和可解释性,可通过采样生成新数据(如相似但不同的图像)。 应用:图像生成(如生成相似的人脸)、数据降维、异常检测。 困惑度(Perplexity, PPL) 衡量语言模型预测能力的指标:PPL 越低,模型对文本的预测越准确(越 “不困惑”)。 计算:基于模型对文本序列中每个 token 的预测概率,PPL = 序列概率的负对数平均值的指数。 作用:评估模型训练效果(如预训练或微调后 PPL 是否下降)。 Scaling Law(缩放定律) 描述大模型性能与参数量、数据量、训练计算量之间关系的规律: 当这些指标按比例增长时,模型性能(如困惑度、任务准确率)会单调提升。 意义:指导大模型设计(如预测达到某性能需多少参数 / 数据),是 GPT、PaLM 等模型规模不断扩大的理论基础。 Function Calling(函数调用) 让大模型根据用户需求,生成符合格式的指令调用外部工具(如 API、数据库、计算器)的能力。 示例: 用户问 “今天北京天气如何?”, 模型生成调用天气 API 的指令(如{"function":"get_weather","parameters":{"city":"北京"}}), 工具返回结果后,模型再整理成自然语言回答。 应用:扩展模型能力(如实时信息获取、数据计算、控制硬件)。 交叉熵(Cross-Entropy) 衡量两个概率分布差异的指标,是语言模型训练的核心损失函数。 在语言模型中:比较模型预测的 token 概率分布与真实 token 的分布(真实分布为 one-hot 向量,仅正确 token 概率为 1),交叉熵越小,预测越准确。 具身智能(Embodied Intelligence) 指智能体通过物理身体(如机器人)与环境交互,在真实世界中学习和执行任务的智能形式,强调 “感知 - 动作 - 反馈” 闭环。 与纯语言模型的区别:不仅依赖数据学习,还通过身体体验(如触摸、移动)理解世界(如知道 “推” 会导致物体移动)。 应用:服务机器人、自动驾驶、机械臂操作。

上一篇    
LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点002-交叉熵