内容发布更新时间 : 2024/11/19 11:42:17星期一 下面是文章的全部内容请认真阅读。
5.3问题三
经过对问题二的分析发现,各影响因素与戒烟天数之间的关系并不非常明显,相关性都比较小。观察散点图,数据比较分散,波动比较大,不方便与直接处理,所以本文的思路是先对原始数据进行预处理,采用分段区求和取平均的方案。按影响因素的值等距分段,再计算每一段所对应戒烟天数的平均值,这样做的好处是能得到一个统计平均的结果,有利于减小数据的波动,可以更好地看清楚数据之间的关系,最后对所有得到的数据进行建模分析系。
程序:
Indata=Import[“indata.xls”][[1]]; daD={};
Do[AppendTo[daD,{indata[[i,1]],indata[[i,8]]}],{i,2, Length[indata]}];
Show[ListPlot[daD,AspectRatio->0.5,Filling->Axis, ImageSize->500], FrameLabel->{Style[“ID”,12],Style[“Y:戒烟天数”,12]},Frame->True] 生成表1
下面分析一下算法。自定义函数seperatefun[]有四个输入变量,其中data为原始数据,i为所研究的影响因素在原始数据中对应的列,start用于调整扫描的起始位置,m是打算分的组数。具体步骤如下:
(1)提取影响因素的数据向量,计算最大值和最小值; (2)根据组数m和最大值和最小值计算组距;
(3)通过一层循环,分别计算每组所对应戒烟天数的平均值,并以每组的中间点为代表点
(4)每一次循环把代表点和相应的平均值存储在列表中,退出循环后,返回结果列表。
这里m取为20组,把年龄、每天抽烟支数、调整CO浓度、CO浓度四种影响因素的数据处理后,即可发现每天抽烟支数和CO浓度与戒烟天数存在者较为明显的线性关系,而年龄-戒烟天数和调整CO浓度-戒烟天数散点图仍旧比较分散,这就是可以初步得知每天抽烟支数和CO浓度对戒烟天数的影响比较大。为了更进一步的分析这两个因素对戒烟天数的影响的成都读,本文利用统计分析回归模型,对数据进行线性拟合(二次函数拟合)和回归分析。
根据散点图的特点,两组因素都用二次函数拟合:
Y=β0+β1XCig+β2X2Cig+ε Y=β0+β1XCO+β2X2CO+ε
利用Mathematica中的LinearModelFit[]函数,即可使模型得解。 函数代码:
Partfun[data_,i_,start_,m_]:=Module[ {dapart={},j,tran,min,max,dat,n},
dat=Table[data[[l,i]],{l,start,Length[data]}]; Min=Min[dat];max=Max[dat]; If[IntegerQ[m]&&0<=max-min, n=(max-min)/m, N=1];
6
For[j=0,min+j*n AppendTo[dapart,min+j*n+n/2,Mean[tran]}]] ]; Dapart ] 表2.每天抽烟支数-戒烟天数回归分析 参数 β0 β1 β2 参数估计值 99.0969 -5.39584 0.082034 参数置信区间 [61.6743,136.52] [-9.81353,-0.978157] [-0.0289668,0.193035] R2=0.761314 F=25.9115 P=0.000653633 表3.CO浓度-戒烟天数回归分析 参数 β0 β1 β2 参数估计值 89.882 -0.293954 0.00025613 参数置信区间 [62.605,117.159] [-0.460374,-0.127535] [0.0000343839,0.000477875] R2=0.695233 F=28.1568 P=0.0000879904 7 从表2和表3的回归分析可知每天抽烟支数对应的决定系数R2比CO浓度对应的决定系数R2稍小,而且每天抽烟支数对应的参数置信区间比CO浓度对应的参数置信区间总体上要短,这说明每天抽烟支数与抽烟天数的关系比戒烟者体内CO浓度与戒烟天数的关系稍强。 综上可知,每天抽烟支数和CO浓度是影响戒烟成功的主要因素,总体上,每天抽烟支数越多,CO浓度越高,戒烟时间越短,戒烟越不容易成功。 6结果分析与建议 综合前三问的分析,可以发现不同年龄,不同性别的戒烟者累加发病率和戒烟天数虽然都有差别,但差别并不大,调整的CO浓度与戒烟天数的散点图也很分散,关系不大。而每日抽烟支数和CO浓度与戒烟天数的关系相对来说较为明显,据此本文对有意愿戒烟的人士提出以下几点建议: (1)年龄和性别对戒烟成功的影响不是很大,所以有志于戒烟的人不论男性还是女性,也不论年龄大小都是有可能戒烟的,不要认为自己年纪大了,就戒不掉烟了。 (2)每日抽烟支数对戒烟成功的影响较大,戒烟者先前每日抽烟的支数越多,戒烟天数可能就越短。戒烟成功就越困难,这应该是来自于自己习惯的力量,所以要想戒烟首先应该有坚强的毅力。 (3)CO的水平反映了一个烟民先前抽烟的数量,经过本文的分析论证,它也是影响戒烟成功的主要因素,这说明克服先前的烟瘾,把烟成功的戒掉确实是需要毅力的,想成功戒烟没有坚强的毅力是不行的。 7模型的评价与改进 (1)本文以原题所提供的数据为基本,对数据进行了详尽细致的处理和分析,充分挖掘了数据中隐含的信息; (2)全文紧密围绕寻找影响戒烟成功的主要因素的核心,方向明确,重点突出; (3)在建立模型求解之前,先对原始数据做了预处理,利用分组统计平均的方法,使原本十分散乱的数据更加集中,能更好的在宏观上看出数据之间的关系,方便了后续的建模求解; (4)建立了统计回归模型,通过Mathematica求解计算和回归分析,比较细致地、定量地分析了不同影响因素对戒烟天数的影响程度。 参考文献: [1]吴赣昌,《概率论与数理统计》中国人民大学出版社,2011:105-110; [2]黄红莲,《两个随机变量的独立性与不相关性》咸宁师专学报,2001,21(6); [3]姜启源,谢金星,叶俊《数学模型》(第三版)高等教育出版社,2009:294-301; [4]姜启源,谢金星,邢文训,张立平《大学数学实验》(第二版)清华大学出版社,2010。 8