内容发布更新时间 : 2024/11/1 13:37:45星期一 下面是文章的全部内容请认真阅读。
龙源期刊网 http://www.qikan.com.cn
根据葡萄酒理化指标对葡萄酒质量的统计分析
作者:黄潇逸
来源:《商情》2013年第28期
【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。 【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树 一、问题提出
葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,使品评结果不够科学。对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。
本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。 二、主要研究方法
针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。
本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。系数得到则主要通过最大似然估计。决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。此外,本文还引入了Adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类结果。
三、指标选取及数据探索
龙源期刊网 http://www.qikan.com.cn
本文主要选择葡萄酒的理化指标作为分类依据进行研究。参考文献并根据数据的可取得性,最终选择非挥发性酸度、挥发性酸度、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐、PH值、酒精11个理化指标作为输入变量。输出变量为基于感觉得到的葡萄酒质量(葡萄酒专家提出的至少3个评价的均值)。葡萄酒数据来源于UCI数据库。对于输出变量,每位专家的葡萄酒质量分级介于0~10,其中0为质量极差,10为质量极好。极好的和极差的葡萄酒样本都是少数,评价为中间的葡萄酒样本最多。红葡萄酒样本总数有1599个,质量分为6类,分别评价为3至8。由于本文目的主要在于对质量评价相近的葡萄酒进行量化分类,故通过简单的统计红葡萄酒各评价的个数后,将葡萄酒质量进行0~1化。若红葡萄酒评价类别为3~5,则为0(质量差);若红葡萄酒评价类别为6~9,则为1(质量好)。数据中没有缺失值。选择前70%的样本进行建模,15%的样本进行验证,15%的样本进行测试。
四、主要结果及比较分析
将上述处理好的数据在R软件的Rattle包中进行分析,得到不同分类方法对葡萄酒质量分类结果:
1、逻辑回归分析。通过logistic回归结果得,在99.9%的置信度下,挥发性酸度、硫酸盐对红葡萄酒的分类存在显著影响。对红葡萄酒而言,总二氧化硫、理化指标对红葡萄酒质量有显著影响。
2、决策树分析—CART。通过对红葡萄酒建立决策回归树,最终得到红葡萄酒决策回归树的树结构比较简单、判别规则较为清晰,但底层分类较为繁杂。当酒精11且硫酸盐>0.58时,就可以判定该红葡萄酒为质量好。
3、模型间的比较。通过逻辑回归和决策树两种模型对葡萄酒质量进行分类,不同模型对葡萄酒分类的重要指标结论不同,为比较两种模型的优劣,画出了ROC曲线。在ROC曲线中,曲线下方面积越大,模型的正判率越高。具体数据如下表。逻辑回归模型对红葡萄酒的正判率为72.8%意味预测样本中真正质量差的红葡萄酒样本有32%被准确定为‘质量差’,而有12%的样本被错误定位‘质量好’;同理,质量好的红葡萄酒样本中,有41%被准确定为‘质量好’,而有15%(8%)的样本被错误定位‘质量差’。
通过ROC曲线图得到,决策树的正判率总是要高一些。因此,决策树分类结果所得到的重要指标更具有参考价值。考虑到决策树算法有着分类规则复杂、收敛到非全局的局部最优解、过度拟等缺点,故用Adaboost方法对决策树进行优化,以得到更为准确的分类,得到更好的分类重要指标。
4、决策树模型优化—Adaboost。在建立Adaboost模型时,建立的决策树棵树对模型效果有着十分显著的影响。在建立红葡萄酒Adaboost模型时,本文通过选择50-500的建树棵树,
龙源期刊网 http://www.qikan.com.cn
得到不同的正判率,最终选择建立350棵树进行分析,此时的正判率最大,为82.4%。相对于决策树模型正判率74.9%有了显著的提高。
从红葡萄酒Adaboost模型得到变量重要度:密度对红葡萄酒质量的影响是非常大的。此外,对红葡萄酒而言,非挥发性酸度对分类也相对重要。画出ROC曲线对三种模型比较,最终得到优化后的模型相对于逻辑回归和决策树而言,总是更优一些。 五、总结
本文通过,逻辑回归模型、决策树模型、以及用Adaboost修正后的模型得到了不同的分类规则,用正判率作为模型效果评价指标,Adaboost模型更优的结论。即:密度是红白葡萄酒分类的重要指标。此外,对红葡萄酒而言,非挥发性酸度对分类也相对重要。
本文仍然存在很多不足,可能还有很多可以改进的地方。一方面,对于逻辑回归模型,数据没有标准化,对模型的估计结果会产生一定影响,从而影响模型的正判率。另一方面,本文将正判率作为模型效果评价指标存在不足。因为原始数据的输出变量为感官评价,数据本身存在误判率,本文用正判率对模型进行评价建立在原始数据的分类是正确的假设前提之下。若该假设不成立,则用正判率作为模型效果评价指标是不准确的,应该一种更好的指标来评价模型。
参考文献:
[1]李运,李记明,姜忠军,《统计分析在葡萄酒质量评价中的应用》,《酿酒科技》2009年第4期(总第178期)
[2]王金甲,《基于理化指标的葡萄酒质量的可视化评价研究》,《燕山大学学报》,第34卷第2期,2010年3月
[3]黄毅、胡二琴,《葡萄酒质量评分的统计分析方法研究》,《长江大学学报》(自科版)2013年2月