内容发布更新时间 : 2024/12/29 14:27:41星期一 下面是文章的全部内容请认真阅读。
用身高和体重数据进行性别分类的实验报告
一、基本要求:
1.用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。 二、具体做法:
(1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。在分类器设计时可以考察采用不同先验概率(如0.5对0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。
(2)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。
(3)自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。
三、原理简述及程序框图
最小错误率Bayes分类器 (1)基于身高
第一步 求出训练样本的方差和期望
第二步 利用单变量正态分布公式算出条件概率 第三步 将前两步的值带入贝叶斯公式
第四步 若pF>=pM,则判断其为第一类,反之,第二类
(2-1) 假设身高与体重不相关
令协方差矩阵次对角元素为零
判别函数可简化为gi?x??xTWix?wiTx?wi0
1其中 Wi???i?1,wi???1?i
211?1wi0??uT?u?In?i?InP??i? ii22具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA,MA。
第二步分别对FA,MA求取协方差?1,?2,令协方差矩阵次对角
元素为零,平均值?1,?2并输入先验概率P??1?,P??2?
第三步将第二步所得数值代入判别函数表达式得g1?x?,g2?x?。
第四步将待测样本集数据转为矩阵T,将T中数值依次代g1?x??g2?x?
,若g1?x??g2?x??0,则判断其为第一类,反之,第二类。
(2-2) 假设身高与体重相关
判别函数可简化为gi?x??xTWix?wiTx?wi0
1其中 Wi???i?1,wi???1?i
211?1wi0??uT?u?In?i?InP??i? i2i2具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA,MA。
第二步分别对FA,MA求取协方差?1,?2平均值?1,?2并输入先验
概率P??1?,P??2?
第三步将第二步所得数值代入判别函数表达式得g1?x?,g2?x?。
第四步将待测样本集数据转为矩阵T,将T中数值依次代g1?x??g2?x?,
若g1?x??g2?x??0,则判断其为第一类,反之,第二类。
最小风险Bayes分类器
(1)在已知先验概率P??j?和类条件概率密度P?x?j?,j=1, …c及给出带识别的x的情况下,根据Bayes公式计算后验概率:
P??jx??P?x?j?P??j??P?x??P???iii?1c,j?1,?,c
(2)利用后验概率及决策表,计算条件风险R?aix?
R??ix??????i?j?P??jx?,i?1,?,a
i?1c(3)R?akx??minR?aix?,ak就是最小风险Bayes决策。
i?1,?,a
其中(1)中先验概率P??j?根据自行输入,类条件概率密度
P?x?j?=P?x??1?2??d2?12T?1?exp???x?u???1(x?u)?,本实验
?2?为二维二类,故d=2,决策表自行输入。
四实验结果及分析总结
用最小错误率Bayes决策
(1)基于身高身高(300个测试样本)
性别为女生性别为男生男生误判错女生误判错测试样本的 的先验概率 的先验概率 的个数 0.9 0.75 0.5 0.25 0.1
(2-1)身高与体重不相关(300个样本)
性别为女生性别为男生男生误判错女生误判错测试样本的 的先验概率 的先验概率 的个数 0.9 0.75 0.5 0.25 0.1
(2-2)假设身高与体重相关(300个测试样本)
0.1 0.25 0.5 0.75 0.9 57 44 27 15 8 的个数 1 1 2 4 8 80.7% 85% 90.3% 93.7% 94.7% 正确率 0.1 0.25 0.5 0.75 0.9 147 64 23 10 4 的个数 0 2 4 10 13 51% 78% 91% 93.3% 94.3% 正确率 性别为女生性别为男生男生误判错女生误判错测试样本的 的先验概率 的先验概率 的个数 0.9 0.75 0.5 0.25 0.1
(2)用最小风险的Bayes决策
当决策为
的个数 正确率 0.1 0.25 0.5 0.75 0.9 97 59 31 8 4 1 1 1 6 12 67.3% 80% 89.3% 95.3% 94.7% 女生 0 2 男生 3 0 判为女生 判为男生 身高体重相关(300个测试样本)
性别为女生性别为男生男生误判错女生误判错测试样本的 的先验概率 的先验概率 的个数 0.9 0.75 0.5 0.25 0.1
结论:当女生先验概率等于待测样本中女生样本占待测样本的概率时,
正确率,且越远离此概率,正确率越小。
0.1 0.25 0.5 0.75 0.9 80 46 20 6 3 的个数 1 1 4 9 16 73% 84.3% 92% 95% 93.7% 正确率