基于朴素贝叶斯算法的高等学校贫困生识别方法 下载本文

内容发布更新时间 : 2024/6/21 14:10:42星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

基于朴素贝叶斯算法的高等学校贫困生识别方法

作者:褚蕾蕾 孟利霞 夏光峰 刘年生 陈岩 来源:《中国科技纵横》2019年第08期

龙源期刊网 http://www.qikan.com.cn

摘 要:近年来,高等学校的贫困生认定工作已经成为高校工作中的重要组成部分。如何确保贫困生认定工作的准确性,已经成为促进高等学校教育的公平公正性以及确保大学生身心健康发展的重要条件。本文研究了一种基于朴素贝叶斯算法的高等学校贫困生识别方法算法,通过家庭情况调查表搜集高校所有学生的家庭情况数据,提取其中关键指标,再采用朴素贝叶斯算法进行贫困生的认定。采用实际算例进行分析,其结果表明了本文提出方法的有效性。 关键词:高等学校;贫困生;贫困认定;朴素贝叶斯

中图分类号:TP391.1 文献标识码:A 文章编号:1671-2064(2019)08-0054-02 0 引言

近年来,在高等教育越来越普及的情况下,一种典型的大学生群体越来越受到国家和政府的关注,即高等学校中的贫困生群体。如何保证高等学校中贫困生认定工作的准确性,是关乎高等教育公平公正,贫困生能否顺利的完成学业的关键问题。然而,现阶段的贫困生认定仍然存在以下问题。

1 现阶段的贫困生认定资助工作存在的问题 1.1 资助工作缺乏客观认定标准

目前的资助判定主要依靠纸质材料证明以及通过主观评价等方式来认定贫困生,这种方法存在着标准模糊,材料容易作假等缺陷,极其容易发生资助不精确的现象,典型的表现在于:(1)自身是非贫困生的被判别为贫困生;(2)自身为贫困生的被判别为非贫困生;(3)有些贫困生因为性格、自尊心、或是信息不流通等因素,没有参加贫困生的申请,导致了最应该被资助的同学没有被资助[1]。

1.2 资助工作缺乏后续跟踪机制

学生资助终止于贷款的发放,这样仅仅在贫困生的认定方面进行了工作,但是没有对学生拿到资助贷款后的行为进行采样,没有对资助金的使用和学生的具体表现进行跟踪分析,从而导致了资金的使用无法监督,也无法确保资助金是否体现了它的价值。 1.3 资助工作缺乏校用评价体系

现阶段偶有报道有学生拿到资助金后大肆挥霍的情况,相反,对于一些真正需要资助的贫困生却由于各种问题不能获得资助。如何来评定资助工作的好坏,保证资助工作向良性方面发展,也是当前的资助方法需要解决的问题。

近年来,机器学习理论的发展为贫困生的认定工作提供了一种基于事实数据的新思路。已成为新的研究热点。本文采用机器学习中的朴素贝叶斯算法对高等学校的贫困生进行认定。首

龙源期刊网 http://www.qikan.com.cn

先通过问卷调查采集高校学生的家庭情况数据,再抽取其中关键特征,以建档立卡学生的数据作为标签,使用朴素贝叶斯算法进行贫困生的预测。采用实际算例进行算法论证,其结果表明了本文方法的有效性和实用性。 2 朴素贝叶斯算法

本文采用朴素贝叶斯算法对贫困生进行认定。朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。朴素表示特征条件独立;贝叶斯表示该方法基于贝叶斯定理。和决策树模型相比,朴素贝叶斯分类器发源于古典数学理论,模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,朴素贝叶斯分类器模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯分类器模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给朴素贝叶斯分类器模型的正确分类带来了一定影响。朴素贝叶斯属于监督学习的生成模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑[2]。

整个朴素贝叶斯分类分为三个阶段:(1)准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。(2)分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。(3)应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

朴素贝叶斯算法如下所示,输入为训练数据D={(x1,y1), (x2,y2), (xn; yn)}, xi=(x(1)i, x(2)i…x(n)i )T,x(j)i是第i个样本的第j个特征,y为x对应的分类标签,ck表示类别。输出为新输入x’的分类。具体步骤为: 3 基于家庭经济调查的贫困生指标发展现状

一般采取基于家庭经济调查的贫困生指标数据进行朴素贝叶斯的学习。所谓家庭经济调查法是指各种不通指标的调查方法来确认家庭或个人是否有能力支付学生的教育费用,以此确认家庭或个人是否属于贷款资助的目标。国外家庭经济调查主要以收入和能力两条途径来考察其经济负担能力。几乎所有的收入状况调查方案不仅以收入作为前提条件,还考虑了其它一些参考指标,如职业类型,住房类型及居住地域,家庭汽车,家庭规模,子女的年龄、性别、种族等。其中,美国是以家庭收入作为贫困生认定的唯一标准,原因在于其完善的收入查证和收入