sci的基础知识（近6分SCI套路零代码复现）

唯世星辰 2023-01-02 02:34:01

跟着做5分的文章也没那么难！

大家好，我是歌~本周为大家复现的是一篇2021年9月发表在“Frontiers in Endocrinol”上面的一篇纯生信文章，文章题目是《Heterogeneous miRNA-mRNA Regulatory Networks of Visceral and Subcutaneous Adipose Tissue in the Relationship Between Obesity and Renal Clear Cell Carcinoma》，该期刊目前的影响因子是5.555。

期刊信息

文章思路

Fig1:流程图

数据集：GSE24883、GSE46699、GSE50574、GSE25402

挑（表达差异）：Fig2-4

圈（功能聚类）：无

联（交互网络）：Fig5

靠（临床意义）：Fig6-7

复现工具

仙桃学术：https://www.xiantao.love/

TargetScanHuman 7.2：http://www.targetscan.org/vert_72/

Cytoscape软件

复现操作

Fig2:内脏脂肪组（VAT）中超重、肥胖和肥胖合并代谢综合征的差异基因

打开仙桃，进入数据集检索模块，在搜索框中输入“GSE24883”，接下来会出现数据集的中英文介绍，点击右下角的“选择样本”，会出现下面的框，我们可以看到这个数据集是非常好的，首先样本数比较大其次，内脏脂肪和皮下脂肪都分了超重、肥胖和肥胖合并代谢综合征三组疾病组和一组对照组。因此Figure2和Figure3的分析方式其实是一样的，只不过一个是内脏脂肪组内的分析，一个是皮下脂肪组内的分析。

接下来我们选择样本并且设置组别，首先我们先按照文章顺序选择内脏脂肪的4个小组，如上图所示，按“Title”列进行分组，比如选定“Visceral Adipose tissue_Overweight”这个组的8个样本，在下面【备注】的框中填入“VAT_Overweight”，然后点击【添加到样本库】。按照这个操作顺序依次将32个皮下脂肪组的样本均选入。然后县级左边的【进入我的样本库】。

进入【我的样本库】后，如下图所示，首先将“VAT_lean”的8个样本选中，然后点击【加入参考组】，这8个样本前面的【group】列就会出现“参考组”。同样的方法，选择“VAT_Overweight”，然后点击【加入实验组】，这8个样本前面的【group】列就会出现“实验组”。同时，样本框下面会显示参考组和实验组的样本个数，然后点击右边的【提交分析】

这里注意一个地方，就是在提交分析这里有一个参数设置，这里是有【缺失值处理】和【标准化处理】的方法选择的哈，接下来给大家演示一下，是否选择【缺失值处理】和【标准化处理】的区别。

下图是使用【缺失值处理】和【标准化处理】后的箱式图。

下图是未使用【缺失值处理】和【标准化处理】的箱式图。

大家可以看一下，使用标准化处理后的样本的均一性明显是好了很多，所以大家在分析自己的数据的时候真的可以选一下。然后点击【结果报告下载】就可以获得文中的火山图和热图。

点击【差异基因.csv】就可以获得差异基因的Excel表。

大家可以在【logFC】那一列的旁边再插入一列【|logFC|】,下面第一个行输入“=abs()”,选择同一行的【logFC】的数值，下拉，就可以得到一列【logFC】的绝对值，使用筛选功能，选择【adj.P.val】<0.05,且【|logFC|】>2的基因。然后将基因名粘贴到一个新的excel中。根据原文选择参数【P.val】<0.05,且【|logFC|】>2。此处强调一下，本文是用的【P.val】<0.05而不是【adj.P.val】<0.05，因为【adj.P.val】<0.5会导致一个数据集没有合格的基因，大家分析自己数据的时候首选当然是【adj.P.val】<0.5但是如果没有的话，就退而求其次，因为后面还要合并，基因不能太少了。

将三个分组的差异基因粘到同一个excel中，如下图所示。

打开仙桃，进入生信工具模块，点击右侧【基础绘图】中的【韦恩图】，将整理好的表格上传，就会获得下图所示的韦恩图。

点击Excel下载，会得到如下的表格

这里我们得到了3个差异基因，分别是TRIM13、LOC730125、GABRQ三个基因。这里和原文是有出入的，可能我们前期数据的处理方式和原文作者的处理方式不同，因此最后的差异基因是不一样的。

Fig3: 皮下脂肪组（SAT）中超重、肥胖和肥胖合并代谢综合征的差异基因

Figure3的作图和Figure2是相同的，我们只要更改选择的样本就可以，操作是一样的。

Fig4: 肥胖在 VAT 和SAT中的差异miRNA。

这里使用的是GSE50574和GSE25402数据集。

打开NCBI，在左侧中选择【GEO DataSets】，右侧搜索框中写入“GSE50574”，

点击下方的【Analyze with GEO2】即可进入以下界面，然后选择点击【Define groups】，输入“Lean”和“Obese”,然后选择对应的样本放入组中，点击下方的【Analyze】即可获得结果。

出现结果后，点击【Download full table】即可获得结果表格。

同理在搜索框中输入GSE25402就可以得到的样本表格，这里需要选择平台，

根据芯片描述的页面，这里有两个平台，其中GPL8786是miRNA的平台，因此我们选择GPL8786。

同理，选择相应的样本入对应的组中，也是然后点击【Analyze】，下载分析结果，点击【Download full table】即可获得结果表格。

根据原文中的描述，进行基因筛选，筛选条件为【P.val】<0.5,且【|FC|】>1.2，这里有一个有意思的地方大家发现没，这里用的不是【|logFC|】>1.2,而是【|FC|】>1.2。因此我们收先需要计算|FC|这一列。

这两个数据集还有一个特点，就是他们不只是包含hsa-开头的人类的miRNA,因此，根据条件进行筛选后，我们还需要进行进一步的文本筛选，

miRNA这一列点击【文本筛选】，选择篇【包含】，输入“hsa”就可以得到人类的miRNA。

然后我们需要获得差异的miRNA的靶基因列表，根据原文中的描述，我们使用Targetscan database对miRNA的靶基因进行预测。然后和Fig2和Fig3获得的 DE mRNAs取交集。

进入Targetscan database的主页

在下面的搜索框中输入要查询的基因【hsa-mir-758-3p】点击submit

然后会出现预测的靶基因的列表，点击【Download table】即可获得该基因的预测靶基因。将筛选的VAT的DE miRNA和SAT的DE miRNA分别整理成一张表。

下载表格是长下图这个样子的，保留基因和miRNA这两列。将VAT和SAT的miRNA的预测靶基因分别整理成一个表。

然后VAT的miRNA的预测靶基因与Fig2D的所有的差异基因取交集

将VAT的miRNA的预测靶基因与Fig2D的所有的差异基因整理到一张表格中：

打开仙桃，进入生信工具模块，点击右侧【基础绘图】中的【韦恩图】，将整理好的表格上传，就会获得如原文中所示的韦恩图。相同的方法操作SAT组，可获得Fig4D。

这里大家可能会问，那Fig4A-B应该怎么办呢？这时候就又请出来我们的仙桃了，进入【仙桃】-【分析工具】-【表达差异】-【火山图】

打开上面的【教程文档】发现所需的数据格式如下：

我们将SAT的miRNA数据整理成如下格式

这里从左边列变成右边的列需要巧用excel的【数据】-【分列】分列功能：

因此在这里我们只提供P值。进入【仙桃】-【分析工具】-【表达差异】-【火山图】-上传整理好的数据，然后在右边参数设置这里进行设置，logFC阈值0.29，P<0.05,这里logFC的阈值是根据FC>1.2筛选数据后，发现最小的logFC>0.29,因此logFC阈值设置为0.29

差异热图的操作方法也一样，

点击进入【仙桃】-【分析工具】-【表达差异】-【复杂数值热图】，然后点击右上角的【教程文档】，发现需要的数据格式如下：

我们需要下载基因表达谱

进入【NCBI】-【GEO Datasets】-输入“GSEGSE25402”,然后点击下方的【Series Matrix File(s)】进行数据下载。

下载的表格中就有每个基因对应的每个样本的表达值。

将表达谱整理成如下图格式

同一个excel的sheet2上注释：

点击进入【仙桃】-【分析工具】-【表达差异】-【复杂数值热图】，上传整理好的excel。

就可以获得差异热图。至此Fig4复现完毕。

Fig5:构建VAT和SAT的miRNA-mRNA 网络

作者使用GSE46699数据集的12组配对的肾透明细胞癌的样本进行差异分析获得差异基因，最后通过与肥胖miRNA靶基因取交集获得DE mRNA。

进入【NCBI】-【Datasets】-输入“GSE46699”-进入【GEO2R】，复制其样本信息

12名肥胖受试者中的每一名具有可获得的关于患者匹配的肿瘤和邻近正常组织的微阵列数据。作者使用的这24个配对样本进行的差异分析。

选择批次=1，肥胖=“是的”，组织=“正常”的作为对照组，批次=1，肥胖=“是的”，组织=“瘤”的作为疾病组。

进入仙桃-【数据集检索】-搜索“GSE46699”，按照上述分组进行数据集选择和差异分析。得到差异结果后，分别与VAT和SAT的miRNA靶基因取交集。就可以得到肥胖与肾透明细胞癌有关的基因，此处不再赘述。

最后得到基因表格如下：

然后根据筛选出的mRNA和miRNA进行网络图构图。此处我们需要构架一个表格，表格中包含2个sheet，第一个是mRNA和miRNA对应关系，第二个是每个基因的属性。

打开Cytoscape，首先在快捷方式中导入网络表格，选择node1和node2：

然后再导入属性表格，在【Style】中进行颜色修改。

Layout选择“group attribute layout”→“attribute”得到的图像如下。再调整位置。

我们就可以得到Figure5A 右图。然后我们可以重复操作，获得Fig5。

Fig6

根据上面的分析，最后VAT还有 7 mRNA和 8个配对miRNAs，SAT是3 mRNA 和 2个配对 miRNAs。

作者使用TCGA数据库，验证筛选出的基因对肾透明细胞癌的诊断效能。我们使用仙桃进行这一步：

点击进入【仙桃】-【分析工具】-【临床意义（靠）】-【[云]ROC曲线】-然后选择肾透明细胞癌的数据，右侧参数栏里输入基因名称“ATP2B2”然后点击确认，就可以出现ATP2B2在肾透明细胞癌的诊断效能。剩下的基因也都使用这个方法就可以获得Figure6A-D。

下一步，我们来做桑葚图，

点击进入【仙桃】-【分析工具】-【基础绘图】-【桑葚图】-点击右上方的【教程文档】查看所需的数据格式。

大家可以看一下，我们需要两列数据，分别是miRNA和mRNA就可以做桑葚图啦。

把数据整理成下面的格式，

然后上传至仙桃的桑葚图界面，点击确认，就会出现下面的图形。然后把表格整理一下，就是Fig6F了。

Fig 7

Figure7C-E其实就是把风险因子图拆开了。

将筛选出的基因通过【仙桃】-【预后分析】-【[云]多基因/单基因COX回归分析】预后分析-选择【肾透明细胞癌】的数据集，然后将分子都填在下面的框中。

下载Word三线表，看多因素分析有统计学意义的基因，将这些基因再一次按照同样的方法进行【[云]多基因/单基因COX回归分析】，就可以下载RiskScore的表，还可以获得回归模型的参数

然后将这个表整理成这样的格式：

上传至【仙桃学术】-【临床意义】-【预后分析】-【风险因子图】-点击确认。

就可以出现

文章思路

这篇文章其实工作量挺大的，虽然没有特别独到的分析手段，但是一步一步筛选差异基因作者应该也是花了不少心思。还有一点让我觉得很受启发的，患者其实一开始是从皮下脂肪和内脏脂肪的肥胖开始入手的，然后分析了之后和肾透明细胞癌进行了联动，所以才有了后面的临床预后的分析，整个文章感觉层次一下就上去了，不受非肿瘤研究缺少预后信息的局限性，但是又比一般的肿瘤分析抓人眼球，这一点我觉得不管是研究非肿瘤疾病的小伙伴，或者是研究肿瘤的小伙伴都可以借鉴一下思路，大家快找找有没有可以和自己的疾病挂上钩的可以增加我们研究层次的数据集呢？
,