内容发布更新时间 : 2024/12/23 19:26:01星期一 下面是文章的全部内容请认真阅读。
影响戒烟成功因素的分析
高利
(理学院11信科1班)
摘要:为了分析影响戒烟成功的主要因素,原题提供了包括234人的调查数据。
涉及的影响因素包括年龄、性别、每日抽烟只数、CO浓度和调整的CO浓度。本文就是以234人的调查数据为基础,对数据进行处理和分析,利用计算机编程和数学模型的方法,探寻影响戒烟成功的主要因素,并在最后根据文本的相关研究结果对广大烟民提出建议。
问题一主要分析了不同年龄和不同性别的累加发病率分布情况,主要利用计算机编程,对原始数据进行分组、筛选和统计,并作出分布直方图。经过分析得知男性的累加发病率为84.55%,女性的累加发病率为87.10%,略高于男性,青年人(18---40岁)累加发病率最高,为87.72%,中年人(41---65岁)次之,为84.68%,老年人(66岁)以后很少,为77.78%。
问题二是判断年龄、性别、每日抽烟支数、调整的CO浓度等因素哪些对戒烟时间有影响,并要求给出定量的分析。针对此问题,本文只取戒烟天数小于365天的被调查者为研究对象,并把原始数据中空缺的数据行排除,首先画出个因素与戒烟天数的散点图,直接观察数据间的关系,再通过计算两组数据的相关系数ρxy,比较其绝对值的大小,定量的给个影响因素对戒烟天数的影响程度初步排序,处理结果为影响程度有大到小排序:CO浓度,每日抽烟支数,调整CO浓度,年龄。
问题三利用建立适当的数学模型,讨论影响戒烟成功的主要因数,并对模型进行可靠性分析。在这里主要建立了统计回归模型。由于原始数据散点图比较散乱,不容易直接看出两组数据间的关系,也不方便直接处理,所以首先对原始数据做了预处理,等距分组,并求出每组戒烟天数的均值,以减小数据的波动,方便观察数据之间的宏观关系,再利用处理后的数据建模分析,通过建立统计回归模型对处理后的数据做了二次函数拟合,再进行回归分析,比较回归方程的决定
2
系数R等,进一步量化和判断不同因素对戒烟成功影响程度的大小,得到的结论是每天抽烟支数和CO浓度是影响戒烟成功的最主要因素。
关键词:累加发病率;相关系数;分组平均;二次函数拟合;Mathematica。
1
1问题的提出
吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因,因此为了帮助烟民尽快摆脱烟瘾的困扰,有必要深入调查分析一下影响戒烟成功的主要因素。影响戒烟成功的因素很多,可能的因素包括年龄、性别、每日抽烟的支数、烟民体内的CO浓度等,但影响烟民戒烟成功的主要因素有哪些?各个因素的影响程度如何?对于有意愿戒烟的烟民如何更好地把握这些因素,更有效的戒烟?原题给出了涉及234人的相关调查数据,用以分析影响戒烟成功的主要因素,本文主要以这些数据为依据,进行相关的处理与分析。
2问题的分析
2.1问题一
由题意知,累加发病率是原吸烟者戒烟一段时间后又再次吸烟的比例。前面假设原戒烟者在研究截止时间内没有再吸烟为戒烟成功,即在研究期限一年内如果再吸烟,戒烟失败,为再犯者。对于问题一,把各因素的调查数据进行分组。如把年龄分成不同的年龄段,以上述判断标准对每个年龄段分别计算相应的累加发病率,并作出分布直方图,进行比较。 2.2问题二
原题定时,戒烟天数是从0到他(她)退出戒烟或研究截止时间的天数,所以数据中戒烟天数是365天的戒烟者,其戒烟天数是不确定的。对于问题二,本文采取把戒烟天数是365天的数据排除,只对戒烟天数小于365天的数据进行处理和分析。首先通过编程对数据进行筛选,并可视化——以各影响因素的数据值为横坐标,以纵坐标为戒烟天数,作出散点图。再根据散点图分析影响因素与戒烟天数之间的关系。至于定量分析,通过计算两组数据的相关系数ρXY,由相关系数ρXY来衡量影响因素与戒烟天数之间关系的大小。 2.3问题三
对于问题三,本文主要采用了统计回归模型,在处理问题二的时候发现,各影响因素与戒烟天数之间的关系并不非常的明显,散点图不是很集中,不便于直接处理。本文采取的方案是在建立模型之前先对原始数据做一个转化,首先利用Mathematica编制一个统一的数据处理程序,把每个可能影响因素都做等距分组,分组数在程序调用时输入,在对每一组的所有戒烟天数求平均值,得到一个统计平均的结果,这样可以有效的减小数据的波动,有利于看清数据之间的关系,对于关系比较明显的影响因素,建立统计回归模型,进行回归分析,深入探讨各影响因素对戒烟天数及戒烟成功的影响的大小。
3条件的假设
(1)假设在研究截止时间(一年)内没有再吸烟(戒烟天数为365天)的原戒烟者戒烟成功。
(2)假设原烟民戒烟的可信度是很低,有些调查数据可能不真实,在数据处理的过程中给予以排除。
(3)假定全部被调查者中没有人中途退出研究。
2
4符号的约定
XA:年龄;
XG:性别(1表示男,2表示女); XCig:每日抽烟支数; XCO:CO浓度;
XLC:调整的CO浓度; Y:戒烟天数;
ρXY:两组数据的相关系数。
5模型的建立与求解
5.1问题一
为了直观得了解所有234人的总体戒烟情况,作出如下散点图:
由图1看出,被调查的234人中大多数经过很短时间后又再次抽烟,只有少数人戒烟天数达到365天,只占总人数的14.10%,本文假设在研究截止时间内没有再抽烟的烟民戒烟成功,所以累加发病率的具体定义为戒烟天数小于365的烟民数量占研究样本总人数的比例,据此,本文分别对不同年龄段和不同性别的累加发病率进行计算和比较。
不同性别。经过简单的统计计算,可以得到不同性别的累加发病率的分布情况:
3
可以发现男性的累加发病率为84.55%,女性的累加发病率为87.10%,略高于男性。
不同年龄段。根据中国年龄分段标准,18--40岁为青年人,41--65岁为中年人,66岁以后为老年人,本文按此把所有被调查者的年龄分为三段。经过编程统计计算,可以得到不同年龄段的累加发病率的分布情况:
可以发现,青年人累加发病率最高,为87.72%,中年人次之,为84.68%,老年人最少,为77.78%。 5.2问题二
4
首先对数据进行筛选。原始数据中有部分空缺,把有空缺的被调查者的数据删除。由上面分析,戒烟天数是365天的戒烟者,其戒烟天数是不确定的,也应该给予删除。然后作出影响因素与戒烟天数的数据散点图,如图4。
数据分析。直接观察散点图,发现每个影响因素与戒烟天数之间的关系都不是非常明显。假设影响因素与戒烟天数之间如果存在线性关系或是其他某种单调关系,对该影响因素的深入分析,对戒烟者成功戒烟是有帮助的。为了定量分析不同影响因素对戒烟天数影响程度的大小,本文采取相关系数ρXY分析。
表1不同影响因素与戒烟天数的相关系数
ρXY XA -0.04689 XCig -0.22878
相关系数是反映两组数据线性相关性的量,其绝对值越接近1,两组数据的线性相关性越大,其符号反映的是两组数据相关性的正负。由表1发现四中影响因素与戒烟天数都是负相关,影响程度由大到小排序为:CO浓度,每日抽烟支数,调整CO浓度,年龄。
对于性别因素。因为XG的值只有两种,所以只比较不同性别戒烟天数的平均值,经过计算可知,男性别戒烟天数平均为27天,女性戒烟天数平均为39天,高于男性。
XLC -0.10792 XCO -0.27763 5