基于变参数和混合模型的医学纵向数据研究

时间：2021-01-27 20:28:11 毕业论文范文我要投稿

基于变参数和混合模型的医学纵向数据研究

　　下面是小编为大家整理的药学专业毕业论文范文，欢迎参考~

基于变参数和混合模型的医学纵向数据研究

　　基于变参数和混合模型的医学纵向数据研究

　　第 1 章引言

　　我们通常认为，时间序列资料(time series data)为某个对象的数据在不同时间点的多次测量，而横断面数据(cross section data)则为某个对象的某一个时间点的数据，可以有多个影响因素，而纵向资料数据为两者的结合，也叫时间序列截面数据(time series and cross section data)，就单个面来讲，是由个体在一些时间点上组合形成的横断面观测值，但又有一个完整的随时间推移的变化趋势，即存在时间序列效应，纵向数据和时间序列数据有明显的不同点：纵向数据研究的是很多个个体;而时间序列数据研究的是很少的个体(通常情况下只有一个个体)和重复很多次，重复测量的次数在一般情况下并不是很多，但他们多次测量是存在某种相关的，并且有一些共性，并且：1：数据的相邻相关性相对来说一般是较大的，2：而时间点离得较远的数据则逐渐减小了其相关性，可能因为时间的间隔增大而增大，而另一方面，时间序列数据具有很强的序列相关性，跟一般的线性方程和简单的ARIMA时间序列模型相比，这种方法能够分析出具有现实价值的'结果或结论[13]。

　　...........

　　第 2 章模型的选择

　　2.1 变参数模型

　　也被称作协整性检验，即当我们根据所得到的样本数据，并且要用变参数模型来构造模型的时候，我们应该对所用的模型进行 F 检验，来避免残差序列的不平稳而出现构造的方程有可能成为一个伪回归的方程模型，我们所利用到的协整性检验是在 1987 年，由 Engle 和 Granger 提出的一种对回归方程的不能解释部分的残差进行单位根检验协整性检验的方法，也就是，从协整理论的思想来看，因变量可以有自变量的线性组合来解释，并且残差要保持均衡，即，当模型构造完成之后，模型中的因变量要能被自变量的线性组合所解释[22]。F 统计量服从某种自由度下 F 分布，如果统计量 F 计算出来大于某个检验水准的(一般取检验水准为0.05)F 分布临界值，则我们认为可以拒绝原假设，反之则接受原假设。对于混合估计模型的假设，接受原假设则表示利用混合估计模型拟合样本;拒绝则不能接受，即变截距模型比混合估计模型更合适;对于变截距模型，接受则表示利用变截距模型拟合样本;拒绝则表示利用变系数模型拟合样本。

　　2.2 线性混合模型

　　线性混合模型(Linear Mixed Model)是一种既拥有随机效应又拥有固定效应的模型，今年来越来越多的被用在各个领域。一般来讲，在多元回归分析里面，人们常常为了全面起见，就将很多和结果变量有关或者可能会有关的解释变量纳入模型方程，结果是导致把某些对因变量影响特别小的，有一些甚至是没有影响的解释变量也包含在模型方程里面，而且过量的解释变量也会使方程模型对结果变量预测的准确度下降，而且还会造成回归模型参数的估计和计算量增加，同时对于一些实际问题，某些自变量的观测数据的获得代价比较昂贵，过多的自变量选入也势必会造成观测数据收集和模型应用费用的不必要增加[4]。

　　第3 章模型的模拟与比较 ................................ 22

　　3.1 时间序列截面回归模型与传统回归模型的模拟比较 ...............................22

　　3.2 传统回归模型：POOLED OLS 回归 ...........................22

　　3.3 时间序列截面回归模型：TSCSREG 模型回归 ............25

　　第4 章讨论 ......................... 30

　　第5 章结论 ................. 33

　　第 4 章讨论

　　由于线性混合模型本身的数学原理和特点，使它在处理重复测量等纵向数据时更具有优势，这个模型考虑到结果变量之间可能存在的相关性，使得模型拟合参数更加可靠，而对于簇群聚集资料，线性混合模型也能利用随机作用变量使得模型更为精炼，易于解释，并且估计参数变异较小，结果更为稳定，线性混合模型的估计参数稳定，偏倚较小，结果更加苛刻，线性混合模型的估计参数，如回归斜率(Regression Coefficient)、标准误(Standard Error, SE)、OR(Odd Ratio)及其 95%置信区间(Confidence Interval, CI) [19],还有估计参数[24]多数情况下都比经典的一般线性模型更为稳定，由于线性混合模型中每个随机效应的作用变量所占用的DF 均为 1，并且假定为服从正态分布，所以能够减少因影响因素的样本量不均衡而导致的偏差，使模型更容易收敛[19]。一般的统计分析方法是用传统的线性模型，这个方法必须满足三个假定：①各样本来自正态分布②各样本来自相互独立的随机样本③各总体的方差相等。而纵向数据不满足②和③两个假定，所以用传统的统计分析方法去拟合纵向数据的资料难免欠妥当，就有可能扩大犯Ⅰ类错误概率的风险，从而出现较多的拒绝无效假设，造成较多的假阳性错误[1]。

　　............

　　第 5 章结论

　　本文把变参数模型和线性混合模型推广到医学领域，做了一次大胆的尝试，两个模型有以下优势就变参数模型来说：

　　1、打破了传统的固定参数模式，取消了斜率和截距的限制。

　　2、针对不同的纵向数据资料类型，可以拟合不同的模型，以达到拟合最优化。

　　就线性混合模型来说：

　　1、将固定效应模型和随机效应模型进行有机的融合，进一步减少了混杂因素所造成的随机误差。

　　2、利用多种方差-协方差结构模型对不同效应设计矩阵进行拟合，一方面是对传统方差进行的有效扩展，另一方面也放宽了对影响因素的条件和假定的限制。本研究的创新点本篇论文打破了传统统计模型的瓶颈，提出了分析医学纵向资料和数据的新方法。

　　1、扩大了模型的适用范围。用新方法和新模型替代纵向数据不适应或强行拟合的模型。

　　2、增加了模型的拟合程度。让模型的噪声更小，损失的信息更少。

　　本研究的不足之处

　　1、在模型的算法方面，有其一定的局限和不足之处。