模式识别-贝叶斯统计-iris数据集-南京廖华答案网

模式识别-贝叶斯统计-iris数据集下载本文

内容发布更新时间 : 2026/2/19 20:43:43星期一下面是文章的全部内容请认真阅读。

精品文档

IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析

贺翔 3115370035 硕5101

。

1欢迎下载

精品文档

1.问题描述

1.1 Iris数据集

Iris数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布，每个数据样本有4个特征向量，分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。 1.2要求

假设Iris数据是正态分布的，要求考虑各种实验可能性（分组数量、分组策略、先验概率等），用样本对多维正态密度函数进行参数估计（均值向量和协方差矩阵），最后对3类Iris两两分类。

2.原理描述

2.1贝叶斯公式

已知共有M类别?i,i?1,2,?M，统计分布为正态分布，已知先验概率P(?i)及条件概率密度函数P(X|?i)，对于待测样品，贝叶斯公式可以计算出该样品分属各类别的概率，即后验概率。贝叶斯公式为

P(?i|X)?P(X|?i)P(?i)?P(X|?)P(?)jjj?1M,i?1,2,?M

因此给定一个未知类别的数据样本X，贝叶斯分类法将预测

X属于具有最高后验概率的类。故此问题的数学描述为：多元正

态概率模型下的贝叶斯分类。

。

2欢迎下载

精品文档

2.2参数估计

其中，条件概率密度函数P(X|?i)为正态密度函数，用大量样本对其中未知参数进行估计，多维正态密度函数为

P(X)?1T?1exp[?(X??)S(X??)]1/2n/22(2?)S?(x1,x2,?xn)1

式中，X为n维向量；

??(?1,?2,??n)为n维均值向量；

TS?E[(X??)(X??)]为

n维协方差矩阵；

S是S的逆矩阵； S是S的行列式。

大多数情况下，条件密度可以采用多维变量的正态密度函数来模拟。

P(X|?i)?ln{1(2?)n/2Si1/2?1exp[?1?1(X?X(?i))TSi(X?X(?i))]}2

??1n1?1(X?X(?i))TSi(X?X(?i))?ln2??lnSi222

X(?i)为?i类的均值向量。

2.3先验概率

设数据集样本有d个属性，因此可用一个d维列向量

x?[x1,x2,...,xd]T来表示。同时假定有c个类?1,?2,...?c。如果类的先验

概率未知，则可以假定这些类是等概率的，即

P(?1)?P(?2)?...?P(?c)，且

P(?i)?SiS

其中，Si是类?i中的训练样本数，而S是训练样本总数。

2.4贝叶斯决策

。

3欢迎下载