文章详情|AI知识点002-交叉熵

AI知识点002-交叉熵 所属分类 AI 浏览量 264
熵（Information Entropy）和 交叉熵（Cross-Entropy）是信息论中的核心概念，两者既有联系又有明确区别
信息熵衡量单一概率分布的 “不确定性”，而交叉熵衡量两个概率分布的 “差异”

信息熵是对单一概率分布内在不确定性的量化描述，由香农（Claude Shannon）在 1948 年提出，用于解决 “如何度量信息的多少” 这一问题。


信息熵是用来衡量一个随机事件不确定性的指标
	
越难猜的事，信息熵越大
越容易猜的事，信息熵越小


掷一个各面均匀的骰子，每个面朝上的概率都是：1/6
无法预测下次会掷出哪个点，这种“不确定性”就可以用信息熵来量化表示

信息熵公式
H(p) = - ∑ p(x) log(p(x))
p(x) 是每种结果的概率 

对于一个均匀的骰子 ， 6个面的出现概率都为 1/6 
代入公式
H(p) =  1/6 * log(1/6 ,2 )  * (-1) * 6 = 2.585  

import math
math.log(x[, base])
math.log(1/6,2)


这个例子计算出来的信息熵表示：大概需要 2.585   个比特的信息量，才能准确描述掷一次均匀骰子的结果
如果骰子被“做了手脚”（例如某一面概率特别高），那么结果不确定性就会降低，信息熵也会变小。


作弊骰子（仅 1 点概率为 1，其余为 0）

H(p) =  -1 * log(1,2)  = 0
不确定性为 0，因为结果完全确定





交叉熵用于衡量两个概率分布之间的差异，具体是 “真实分布p” 与 “预测分布q” 的匹配程度

交叉熵越小，预测分布q与真实分布p越接近；
交叉熵越大，两个分布的差异越显著。


交叉熵公式 
H(p,q) = - ∑ p(x) log(q(x))

p(x) 是真实分布（例如骰子每个面出现的实际概率）
q(x) 是预测分布（例如猜测的骰子每个面出现的概率）
log  通常取自然对数或底数为 2（单位分别为 “奈特” 或 “比特”，但核心趋势一致）

核心意义：交叉熵的值越小，说明预测分布q与真实分布p越接近；值越大，说明两者差异越大


用某个“猜测的概率分布”去描述一个“真实的概率分布”时，平均需要多少 “信息量”
猜得越不准，需要的信息量就越多，反之就越少

如果猜测完全准确（即猜测的概率分布和真实的概率分布完全一样），那么交叉熵就等于信息熵

如果猜测越离谱，那么交叉熵的值相较于信息熵的值就越大

作为大语言模型常用的损失函数
	
大语言模型的核心任务：根据前文猜下一个词
在训练中常用交叉熵作为损失函数，来衡量模型对下一个词的预测分布，与训练数据提供的真实分布之间的差距
	
把训练数据作为标准答案，看模型“猜词”准不准：
猜得越准，交叉熵越小
猜得越离谱，交叉熵就越大
大语言模型发展简史

LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点解释

docker info 结果示例说明

mybatisplus IService 与 BaseMapper 的区别