毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）

慬夏婉安 2023-06-09 21:14:40

收藏赞分享

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(1)

今天将各个模块中，具有代表性的分析方法的数据格式进行一个汇总说明，本文主要介绍以下内容：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(2)

一、规范格式说明

‍1、原始数据格式

我们在进行数据分析时，最常见的数据格式是原始数据格式。

下图是一份常见的原始数据，它的特点是：一行代表一个样本，一列代表一个属性（变量）。

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(3)

原始数据格式的特点是，调查有多少样本，就需要录入多少行数据；如果调查了500个样本，那么就需要录入500行数据。每一行代表每个样本收集的所有数据，每一列代表每个属性（变量）的所有数据。

‍2、加权数据格式

除原始数据格式外，还有一些分析方法还会使用到加权数据格式，在医学/实验研究中，很多时候只有汇总数据，即带加权项的数据，如卡方检验等。下图为卡方检验的加权数据，加权数据格式的特点是：基本只针对全部为定类数据的研究时使用，且只提供汇总数据，不提供原始数据。

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(4)

在进行数据分析时，单单掌握原始数据格式和加权数据格式还是不够的，因为每一种分析方法对应的数据类型与数据格式都不尽相同，只有将数据整理成分析方法要求的格式才能正常使用软件进行对应的分析，从而得到正确的分析结果。

接下来从几个方面介绍一些典型的分析方法的数据格式。

二、常用差异性分析方法数据格式

毕业论文常用的差异性分析方法有方差分析、t检验、卡方检验，一些代表性分析方法数据格式如下说明。

‍1、方差分析、t检验

方差分析和t检验都是常见研究不同组别之间差异性的方法，比如不同学历时收入的差异。那么数据中就一定要包括不同组别X（如学历）和分析项Y（如收入）。

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(5)

有时候只有分析项（比如3个分析项），但是现在希望对比这3个分析项的差异，那么就需要对数据进行改造，自己加入一列‘组别’，然后把数据重叠起来得到分析项Y，类似如下图：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(6)

提示：方差分析（单因素方差）与t检验的区别在于t检验只能对比两类数据之间的差异，而方差分析可对比多组数据之间的差异，但二者数据格式类似。

2、卡方检验

卡方检验用于研究X与Y之间的差异性，并且X与Y均为定类数据。使用SPSSAU中的卡方检验进行研究时，支持常规数据格式和加权数据格式两种形式。常规数据格式适用于原始数据，加权数据格式适用于只有汇总数据的情况。

加权数据格式说明如下：比如下图中X有2种情况，Y有3个情况，一种有2*3=6种组合，数据信息只有6种组别的汇总项（即加权项），分别是40，10，20，30，20，50；相当于总共有170个样本。整理为加权格式即只需要录入6行即可。

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(7)

除了卡方检验外，还有一些方法支持加权数据格式，如下：

【可视化】词云
【问卷研究】对应分析
【实验/医学研究】卡方检验
【实验/医学研究】Kappa
【实验/医学研究】配对卡方
【实验/医学研究】Poisson回归
【实验/医学研究】Ridit分析
【实验/医学研究】卡方拟合优度
【实验/医学研究】Poisson检验

3、配对t检验

配对数据的格式比较特殊，例如研究实验组与对照组之间的差异，常见的配对数据研究方法比如配对样本t检验、配对卡方、配对样本Wilcoxon检验等。数据格式如下图：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(8)

配对数据一般是在实验时使用，而且配对数据的特点为：行数一定完全相等并且只有两列。

如果研究数据的行数不相等，那可能不是配对数据，如果还想对比差异，可能需要使用独立t 检验。

4、重复测量方差

重复测量数据是指同一批样本（病例）在不同的时间点测量了多次数据，因此重复测量数据的特殊之处在于一定会有ID号（即样本或者病例号），以及时间点数据。

如下图：同一个ID会有多个时间点的数据，比如下面有12个样本（12个ID号），并且测量5个时间点。那么就一定会有12*5=60行数据。同一个ID号会重复5次，同一个时间点会重复12次。

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(9)

三、常用影响关系分析方法数据格式

1、多元线性回归

多元线性回归分析用于研究自变量X对因变量Y的影响关系情况，通常自变量个数不止一个，数据格式如下：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(10)

2、条件logit回归

条件logit（logistic）回归时，配对编号ID用于标识ID，而且是配对，因此一个ID会出现多次，比如1:1配对，那么1个ID就会出现2次（1:2配对时，1个ID就会出现3次）；因变量Y一定只能包括数字0和1，类似数据格式如下图：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(11)

3、Possion回归、负二项回归

Poisson回归或负二项回归时，如果数据中带有基数，比如‘患癌症’人数是Y，而且患癌症人数是基于某个省而言，那么基数就是‘每省的人口总数’，类似数据格式如下图：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(12)

四、常用降维分析方法数据格式

因子分析&主成分分析

因子分析和主成分分析时，一列标识1个指标，一行为1个样本；如果为面板数据，比如100家公司每家公司10年，那么就会有100*10=1000个样本，可能需要单独两列分别是公司名和年份来标识面板格式而已，但因子分析与主成分分析并不区分是否面板数据，只针对指标进行分析即可，另一般分析样本量需要超出分析项（指标）的5倍，类似数据格式如下图：

毕业论文设计的内容及要求怎么写（毕业论文常见分析方法数据格式汇总）(13)