内容发布更新时间 : 2025/1/22 18:46:03星期一 下面是文章的全部内容请认真阅读。
葡萄酒的评价
摘要
针对问题一,本文首先对品酒员对葡萄酒的评分数据进行简单均值处理;其次利用秩和检验对两组的评价结果进行显著性差异分析,得到两组的品酒员的评价结果差异性显著;再对两组品酒员评分值的标准差进行比较,得到第二组的标准差普遍较小,说明第二组评酒员评分值的离散程度较低,则第二组品酒员评分值的可信度较高。
针对问题二,首先提取酿酒葡萄理化指标的一级指标作为代表性指标进行主成分分析,再通过SPSS软件分析得到8个红葡萄的主成分和10个白葡萄的主成分作为葡萄质量的评价指标之一。再综合葡萄酒的质量即品酒员对葡萄酒的评分,利用SPSS分析软件对酿酒葡萄的主成份和葡萄酒的质量综合聚类分析,分为了五类,再根据质量评分对酿酒葡萄进行评级,得到各葡萄样品评级结果,以红葡萄为例结果如下表:
等级 1 2 3 4 5 样品号 4,5,9,17,21,22,23,28 2,3,10,14,19,20,25,26 24,27 1,6,7,8,11,12,13,15,18 16 针对问题三,先对葡萄酒全部一级指标进行均值处理,再将处理后的数据和酿酒葡萄的主要成分指标进行多元线性回归分析,得到酿酒葡萄与葡萄酒理化指标的函数关系式。之后对模型进行检验时发现回归模型的显著性不强,考虑对模型进行改进,利用主成分分析得到葡萄酒理化指标的主成份,再对理化指标的主成份和酿酒葡萄的主成分进行多元线性回归分析,得到酿酒葡萄与葡萄酒的理化指标之间的函数关系,回归模型经检验后发现显著性较强,说明酿酒葡萄与葡萄酒的理化指标之间的函数关系成立。 针对问题四,本文首先对酿酒葡萄和葡萄酒的理化指标主成分分析与K-均值聚类并汇总为10个综合指标,再运用SPSS软件研究这10个综合指标与葡萄酒质量之间的相关性,从而得出其中5个综合指标对葡萄酒质量的明显影响(正负相关性)。但是通过多元线性回归分析知影响的效果并不是理想,考虑结合主要芳香物质(醇、脂、醛)进行非线性回归分析,利用BP-神经网络法,通过MATLAB软件使用BP-神经网络法工具箱较分析可知,通过芳香物质的加入显著提高了葡萄酒的质量评价。
关键词:秩和检验;主成分分析;聚类分析;多元线性回归;相关性分析;BP-网络神经系统
1
一、 问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、 问题分析
从附件一中看出表格中数据存在两处错误,可采取合理方式进行数据处理。
对于问题一:由于附件一中数据庞大,首先考虑将数据进行综合处理,可将每个品酒员所对应的酒样品加总求和,得到每个品酒员所对应的酒样品的总的评分值及总评分值的平均值;然后考虑采取t检验、卡方检验、秩和检验等某种检验方法分析两组评酒员的评价结果有无显著性差异;最后要分析哪一组评价结果更可信,可考虑采取方差或标准差来进行数据分析,方差或标准差的值越小,说明评价结果更可信。
对于问题二:首先要考虑选取哪些指标作为评价依据,由于酿酒葡萄的理化指标数据太多,可考虑利用主成分分析法选取一些具有代表性的指标作为评级的依据。根据问题一中得到的结果更可信的一组的葡萄酒质量,选取其中某项具有代表性的质量评分作为酿酒葡萄的等级评分指标之一;然后,将选取好的指标导入SPSS进行聚类分析得到酿酒葡萄的等级。
对于问题三:首先要考虑进行数据处理提取主要指标作为葡萄酒的理化指标;然后考虑采取多元线性回归模型的得到酿酒葡萄与葡萄酒的理化指标之间的联系;再通过检验回归方程的显著性看模型是否符合要求,若显著性不强,可考虑进行主成分分析提取合理指标进行进一步的数据处理;最后考虑模型的改进及检验。
三、 模型假设
1、题目中数据客观、真实、准确;
2、品酒员是随机分配到两组的,系统误差相互抵消; 3、品酒员的评价相互独立;
四、 符号系统
Yi(i?1,2,...9):葡萄酒的9个理化指标;
Xj(j?1,2,8):酿酒葡萄的8个主成分指标;
五、 模型建立
5.1模型一
2
由于附件一中数据存在两处问题,本文对此做了合理的修改,以确保最后数据分析的结果更可信:第一组红葡萄酒品尝评分中酒样品20存在一缺失数据,本文选取此行的平均值填补了此缺失数据。另一处是第一组白葡萄酒品尝评分中酒样品3的持久性评分有一明显错误数据77,本文改为7。
(1)对第一组红葡萄酒品尝评分的数据进行处理后,得到每个品酒员所对应的酒样品的总的评分值及总评分值的平均值。(所得数据的表格见附录一)
同理可得第二组红葡萄酒、第一组白葡萄酒、第二组白葡萄酒中每个品酒员所对应的酒样品的总的评分值及总评分值的平均值。(见附录二)
(2)我们选取两组评酒员总评分值的平均值作为最终指标,将两组评酒员对红葡萄酒的总评分值的平均值导入SPSS进行秩和检验,分析结果如下表所示: 表 1:秩 N a表 2:检验统计量b 秩均值 秩和 Z 渐近显著性(双侧) 第二组 - 第一组 -2.535 .011 a负秩 22 13.39 294.50 正秩 5 16.70 83.50 第二组 - 第一组 c结 0 总数 27 a. 第二组红 < 第一组红 b. 第二组红 > 第一组红 c. 第二组红 = 第一组红 ba. 基于正秩。 b. Wilcoxon 带符号秩检验 由表1可以看出:第一行:b?a的负值有22个((右上角的?在表下方有注释),平均秩次为13.39,负秩和为294.5。第二行:正秩,正秩的个数,平均秩次,正秩和。
由表2可以看出:z即为?值,可用正秩和83.5或负秩和294.5计算,习惯上用较小的秩和计算?值。p?0.011小于0.05,拒绝H0,可以认为两组评酒员对红葡萄酒的评价结果有显著性差异。
(3)同理将两组评酒员对白葡萄酒的总评分值的平均值导入SPSS进行秩和检验,结果如下表所示: 表 3:秩 N 秩均值 秩和 a负秩 9 11.06 99.50 正秩 19 16.13 306.50 第二组- 第一组 c结 0 总数 28 ba. 第二组白葡萄酒 < 第一组白葡萄酒 b. 第二组白葡萄酒 > 第一组白葡萄酒 3
表 3:秩 N 秩均值 秩和 a表 4:检验统计量 Z 渐近显著性(双侧) 第二组 - 第一组 -2.357 .018 ab负秩 9 11.06 99.50 正秩 19 16.13 306.50 第二组- 第一组 c结 0 总数 28 ba. 基于负秩。 b. Wilcoxon 带符号秩检验 a. 第二组白葡萄酒 < 第一组白葡萄酒 b. 第二组白葡萄酒 > 第一组白葡萄酒 c. 第二组白葡萄酒 = 第一组白葡萄酒 由表3可以看出:第一行:b?a的负值有9个,平均秩次为11.06,负秩和为99.5。
第二行:正秩,正秩的个数,平均秩次,正秩和。
由表4可以看出:z即为?值,可用正秩和306.5或负秩和99.5计算,习惯上用较小的秩和计算?值。p?0.018小于0.05,拒绝H0,可以认为两组评酒员对白葡萄酒的评价结果有显著性差异。
(3)对两组红葡萄酒的总评分值的平均值进行分析,得到标准差及标准差的折线分布图如下图表所示:
表 5:两组红葡萄酒的标准差
酒样品1 酒样品2 酒样品3 酒样品4 酒样品5 酒样品6 第一组 9.144 5.984 6.422 9.861 7.471 7.332 第二组 8.584 3.821 5.257 6.096 3.506 4.360 酒样品8 酒样品9 酒样品10 酒样品11 酒样品12 酒样品13 第一组 6.294 5.445 5.231 7.981 8.467 6.359 第二组 7.655 4.812 5.706 5.851 4.755 3.709 酒样品15 酒样品16 酒样品17 酒样品18 酒样品19 酒样品20 第一组 8.776 4.036 8.900 6.518 6.530 3.736 第二组 6.100 4.253 2.872 6.726 7.046 5.930 酒样品22 酒样品23 酒样品24 酒样品25 酒样品26 酒样品27 第一组 6.750 5.407 8.210 7.626 5.307 6.693 第二组 4.673 4.721 3.106 6.274 6.116 4.295 酒样品7 9.657 7.511 酒样品14 5.692 4.565 酒样品21 10.222 5.653 总的标准差 190.050 143.955 4
12.00010.0008.0006.0004.0002.0000.00013579111315酒样品171921232527标准差第一组红第二组红
图 1:两组红葡萄酒标准差分布图
由图1可知:第一组红葡萄酒的标准差分布折线图总体上在第二组红葡萄酒标准差分布折线图之上,且第一组红葡萄酒总的标准差大于第二组。标准差越小说明数据分布越集中,即第二组品酒员对红葡萄酒的评分值较第一组集中,则第二组红葡萄酒的结果更可信。
同理对两组白葡萄酒的总评分值的平均值进行方差分析,得到标准差及标准差的折线分布图(标准差及标准差的折线分布图见附录三)。由图可知:第一组白葡萄酒的标准差较第二组白葡萄酒标准差大,即第二组品酒员对白葡萄酒的评分值较第一组集中,则第二组白葡萄酒的结果更可信。 5.2模型二
5.2.1.酿酒红葡萄的等级 (1)指标的选取
由于附件二中的数据庞大,本文选取了酿酒葡萄的理化指标的一级指标且对每个指标的不同次数取平均值,得到了酿酒红葡萄的30个理化指标。选取前5个如下表所示:(剩下的25个见附录四)
表6:酿酒红葡萄的理化指标的前5个一级指标
红葡萄 样品1 样品2 样品3 样品4 样品5 样品6 样品7 样品8 样品9 样品10
氨基酸总量mg/100gfw 2027.96 2128.82 8397.28 2144.68 1844.00 3434.17 2391.16 1950.76 2262.72 1364.14 蛋白质mg/100g 553.106 626.478 585.046 529.823 585.613 536.643 487.172 558.546 700.828 545.305 5
VC含量(mg/L) 0.251 0.062 0.315 0.097 0.041 0.075 0.131 0.181 0.512 10.25 花色苷mg/100g鲜重 408.028 224.367 157.939 79.685 120.606 46.186 60.767 241.397 240.843 44.203 酒石酸(g/L) 2.060 9.930 8.080 3.770 9.490 2.830 5.820 5.710 13.230 2.450