首页  

AI知识点002-交叉熵     所属分类 AI 浏览量 20
熵(Information Entropy)和 交叉熵(Cross-Entropy)是信息论中的核心概念,两者既有联系又有明确区别
信息熵衡量单一概率分布的 “不确定性”,而交叉熵衡量两个概率分布的 “差异”

信息熵是对单一概率分布内在不确定性的量化描述,由香农(Claude Shannon)在 1948 年提出,用于解决 “如何度量信息的多少” 这一问题。


信息熵是用来衡量一个随机事件不确定性的指标
	
越难猜的事,信息熵越大
越容易猜的事,信息熵越小


掷一个各面均匀的骰子,每个面朝上的概率都是:1/6
无法预测下次会掷出哪个点,这种“不确定性”就可以用信息熵来量化表示

信息熵公式
H(p) = - ∑ p(x) log(p(x))
p(x) 是每种结果的概率 

对于一个均匀的骰子 , 6个面的出现概率都为 1/6 
代入公式
H(p) =  1/6 * log(1/6 ,2 )  * (-1) * 6 = 2.585  

import math
math.log(x[, base])
math.log(1/6,2)


这个例子计算出来的信息熵表示:大概需要 2.585   个比特的信息量,才能准确描述掷一次均匀骰子的结果
如果骰子被“做了手脚”(例如某一面概率特别高),那么结果不确定性就会降低,信息熵也会变小。


作弊骰子(仅 1 点概率为 1,其余为 0)

H(p) =  -1 * log(1,2)  = 0
不确定性为 0,因为结果完全确定





交叉熵用于衡量两个概率分布之间的差异,具体是 “真实分布p” 与 “预测分布q” 的匹配程度

交叉熵越小,预测分布q与真实分布p越接近;
交叉熵越大,两个分布的差异越显著。


交叉熵公式 
H(p,q) = - ∑ p(x) log(q(x))

p(x) 是真实分布(例如骰子每个面出现的实际概率)
q(x) 是预测分布(例如猜测的骰子每个面出现的概率)
log  通常取自然对数或底数为 2(单位分别为 “奈特” 或 “比特”,但核心趋势一致)

核心意义:交叉熵的值越小,说明预测分布q与真实分布p越接近;值越大,说明两者差异越大


用某个“猜测的概率分布”去描述一个“真实的概率分布”时,平均需要多少 “信息量”
猜得越不准,需要的信息量就越多,反之就越少

如果猜测完全准确(即猜测的概率分布和真实的概率分布完全一样),那么交叉熵就等于信息熵

如果猜测越离谱,那么交叉熵的值相较于信息熵的值就越大

作为大语言模型常用的损失函数
	
大语言模型的核心任务:根据前文猜下一个词
在训练中常用交叉熵作为损失函数,来衡量模型对下一个词的预测分布,与训练数据提供的真实分布之间的差距
	
把训练数据作为标准答案,看模型“猜词”准不准:
猜得越准,交叉熵越小
猜得越离谱,交叉熵就越大

上一篇     下一篇
大语言模型发展简史

LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点解释