AI知识点002-交叉熵
所属分类 AI
浏览量 20
熵(Information Entropy)和 交叉熵(Cross-Entropy)是信息论中的核心概念,两者既有联系又有明确区别
信息熵衡量单一概率分布的 “不确定性”,而交叉熵衡量两个概率分布的 “差异”
信息熵是对单一概率分布内在不确定性的量化描述,由香农(Claude Shannon)在 1948 年提出,用于解决 “如何度量信息的多少” 这一问题。
信息熵是用来衡量一个随机事件不确定性的指标
越难猜的事,信息熵越大
越容易猜的事,信息熵越小
掷一个各面均匀的骰子,每个面朝上的概率都是:1/6
无法预测下次会掷出哪个点,这种“不确定性”就可以用信息熵来量化表示
信息熵公式
H(p) = - ∑ p(x) log(p(x))
p(x) 是每种结果的概率
对于一个均匀的骰子 , 6个面的出现概率都为 1/6
代入公式
H(p) = 1/6 * log(1/6 ,2 ) * (-1) * 6 = 2.585
import math
math.log(x[, base])
math.log(1/6,2)
这个例子计算出来的信息熵表示:大概需要 2.585 个比特的信息量,才能准确描述掷一次均匀骰子的结果
如果骰子被“做了手脚”(例如某一面概率特别高),那么结果不确定性就会降低,信息熵也会变小。
作弊骰子(仅 1 点概率为 1,其余为 0)
H(p) = -1 * log(1,2) = 0
不确定性为 0,因为结果完全确定
交叉熵用于衡量两个概率分布之间的差异,具体是 “真实分布p” 与 “预测分布q” 的匹配程度
交叉熵越小,预测分布q与真实分布p越接近;
交叉熵越大,两个分布的差异越显著。
交叉熵公式
H(p,q) = - ∑ p(x) log(q(x))
p(x) 是真实分布(例如骰子每个面出现的实际概率)
q(x) 是预测分布(例如猜测的骰子每个面出现的概率)
log 通常取自然对数或底数为 2(单位分别为 “奈特” 或 “比特”,但核心趋势一致)
核心意义:交叉熵的值越小,说明预测分布q与真实分布p越接近;值越大,说明两者差异越大
用某个“猜测的概率分布”去描述一个“真实的概率分布”时,平均需要多少 “信息量”
猜得越不准,需要的信息量就越多,反之就越少
如果猜测完全准确(即猜测的概率分布和真实的概率分布完全一样),那么交叉熵就等于信息熵
如果猜测越离谱,那么交叉熵的值相较于信息熵的值就越大
作为大语言模型常用的损失函数
大语言模型的核心任务:根据前文猜下一个词
在训练中常用交叉熵作为损失函数,来衡量模型对下一个词的预测分布,与训练数据提供的真实分布之间的差距
把训练数据作为标准答案,看模型“猜词”准不准:
猜得越准,交叉熵越小
猜得越离谱,交叉熵就越大
上一篇
下一篇
大语言模型发展简史
LangChain4j核心功能
AI知识点001-模型蒸馏
AI知识点解释