逐步回归分析到底可不可靠?

在多因素分析中,一个十分常见而又令初学者非常迷惑的问题就是,如何筛选有意义的影响因素。当变量较多的时候,各个变量之间的关系错综复杂,并不是简单根据单因素分析结果来确定是否有统计学意义,而是需要一定的分析策略。

首先明确一个问题,什么是变量筛选?估计很多人都会不以为然,竟然问这么简单的问题。好吧,我们先来举个例子:

某研究欲分析心功能分级(自变量)与心理健康(因变量)的关系,研究者通过量表测量了心理健康得分,并评价了心功能分级,同时调查了性别、年龄、BMI、吸烟、饮酒等变量。

那现在问一下:对于这一研究,要做变量筛选吗?

一定要注意,这里不是变量筛选的问题,而是校正混杂因素的问题。因为研究者已经有了非常明确的研究因素(心功能分级),调查其它指标只是考虑到这些因素可能会影响自变量与因变量的真实关系,所以对其校正。所以,这种情况下就不是因素筛选。

再看另一个例子:

某研究欲分析焦虑的危险因素有哪些,研究者通过量表测量了焦虑得分,并调查了性别、年龄、体重、家庭收入、人际关系等变量。

这一研究是较为典型的变量筛选,研究者并不清楚哪些因素可能与焦虑有关,只是做一些探索性的研究,这时可以考虑变量筛选。但要注意,这时候就不要说混杂因素之类的字眼。没有主要研究因素,何来混杂因素?

所以,在多因素分析前,一定要先明确你的研究目的。因为在统计软件中,不管你是分析主要研究因素和混杂因素,还是所有因素都作为探索性危险因素,它们的操作都是相同的,都是把变量纳入相应的界面。如果你没有一个正确的统计分析思路指导,很容易陷入混乱,不知道该如何解释你的结果。统计软件给我们带来便利的同时,也带来了很多风险。一定要记住:统计软件只是辅助我们计算结果而已,分析思路才是最关键的,如果没有正确的分析思路,无论用什么统计软件,结果都只会是“garbage in,garbage out”。

关于变量筛选,我想可能很多人第一反应就是用逐步回归法(stepwisemethod)。很多统计学教材都介绍了向前选择法(forwardselection)、向后剔除法(backwardelimination)和逐步法三种变量筛选策略,也有不少人都为弄不懂到底该选择哪种方法而头疼。

本文来自投稿,不代表投问问立场,如若转载,请注明出处:https://www.touwenwen.com/zhishi/735919/

发表评论

登录后才能评论
关注我们