内容发布更新时间 : 2024/11/16 2:57:05星期一 下面是文章的全部内容请认真阅读。
精品文档
IRIS数据集下基于最小错误率和最小 风险的贝叶斯决策的实验与分析
贺翔 3115370035 硕5101
。
1欢迎下载
精品文档
1.问题描述
1.1 Iris数据集
Iris数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。 1.2要求
假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类。
2.原理描述
2.1贝叶斯公式
已知共有M类别?i,i?1,2,?M,统计分布为正态分布,已知先验概率P(?i)及条件概率密度函数P(X|?i),对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为
P(?i|X)?P(X|?i)P(?i)?P(X|?)P(?)jjj?1M,i?1,2,?M
因此给定一个未知类别的数据样本X,贝叶斯分类法将预测
X属于具有最高后验概率的类。故此问题的数学描述为:多元正
态概率模型下的贝叶斯分类。
。
2欢迎下载
精品文档
2.2参数估计
其中,条件概率密度函数P(X|?i)为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为
P(X)?1T?1exp[?(X??)S(X??)]1/2n/22(2?)S?(x1,x2,?xn)1
式中,X为n维向量;
??(?1,?2,??n)为n维均值向量;
TS?E[(X??)(X??)]为
n维协方差矩阵;
S是S的逆矩阵; S是S的行列式。
大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。
P(X|?i)?ln{1(2?)n/2Si1/2?1exp[?1?1(X?X(?i))TSi(X?X(?i))]}2
??1n1?1(X?X(?i))TSi(X?X(?i))?ln2??lnSi222
X(?i)为?i类的均值向量。
2.3先验概率
设数据集样本有d个属性,因此可用一个d维列向量
x?[x1,x2,...,xd]T来表示。同时假定有c个类?1,?2,...?c。如果类的先验
概率未知,则可以假定这些类是等概率的,即
P(?1)?P(?2)?...?P(?c),且
P(?i)?SiS
其中,Si是类?i中的训练样本数,而S是训练样本总数。
2.4贝叶斯决策
。
3欢迎下载