WGCNA相关文献记录【自找】
【01】Identifying miRNA and gene modules of colon cancer associated with pathological stage by weighted gene co-expression network analysisGEO的表型验证的做法?在本研究中,我们首次应用系统生物学方法 WGCNA 来识别 CAC 病理阶段相关基因和 miRNA 模块。我们发现三个模块,包括两个基因模块(Gmagenta 和 Ggreen)和一个 miRNA 模块(Mblack),与病理阶段显着相关,表明这些模块在 CAC 进展中的意义。共鉴定了 20 个中枢基因和 10 个中枢 miRNA。成功验证了两个基因模块的稳定性和模块-临床性状关系。大多数中枢基因和中枢 miRNA 在肿瘤基质中显着上调。生存分析表明,11个hub基因和5个hub miRNA与CAC患者的预后相关,提示了它们的预后价值。此外,miRNA-基因相互作用网络分析揭示了一个高度连接的miRNA-基因相互作用区域。这些发现有助于更好地了解肿瘤基质在 CAC 进展中的意义,并为临床决策提供预后生物标志物。肿瘤由肿瘤细胞和肿瘤基质组成。基质由 Str 细胞组成,如 CAF、神经胶质、Ep、血管和免疫细胞,以及 ECM 成分,如胶原蛋白、纤连蛋白、蛋白聚糖和糖胺聚糖。41人们普遍认为,在肿瘤进展过程中,肿瘤细胞与周围的肿瘤基质共同进化。肿瘤细胞与肿瘤基质之间存在大量相互作用,这有助于细胞增殖、迁移、侵袭和耐药性。42在本研究中,我们确定了与结肠癌病理分期相关的三个模块。有趣的是,大多数hub基因和hub miRNA在肿瘤基质中显着过表达,尤其是在肿瘤基质的CAF中,这表明1)肿瘤基质在CAC进展中起重要作用;2)在肿瘤基质中的基因表达模式。 Str 细胞趋于相似,这可能有利于靶向治疗。
【02】Colorectal Cancer Prediction Based on Weighted Gene Co-Expression Network Analysis and Variational Auto-Encoder一些数据库的使用方法
研究人员提出了许多预测CRC的方法,如SVM、逻辑回归模型、判别式深度信念网络(DDBN)等。赵等人。选择权重、肿瘤类型和肿瘤分级等因素作为基于逻辑回归 (LR) 和支持向量机 (SVM) [ 4 ]的分类器的分类特征。阿格森等人。选取与CRC密切相关的13个基因的基因表达数据作为分类特征构建ColoGuideEx分类器,从而实现II期结直肠癌的有效分类[ 5 ]。加贝尔等人。使用与CRC密切相关的30个基因的基因表达数据作为SVM的分类特征预测CRC,分类器的准确率满足0.95 [6]]。库比拉等人。将年龄、性别、粪便血红蛋白和癌胚抗原等 11 个因素应用于筛选 CRC 的逻辑回归模型 [ 7 ]。卡拉布鲁特等人。构建了具有基因表达谱数据的判别深度信念网络 (DDBN),用于预测结直肠癌 [ 8 ]。勇等人。将癌组织和血液样本中差异基因的 miRNA 表达谱数据应用于预测 CRC 的逻辑回归模型 [ 9 ]。
模块中的hub基因通常具有高GS、高MM和高K.in。因此,我们首先选择 GS > 0.5 和 MM > 0.8 的基因。191 个基因满足这些条件,其中 165 个基因在癌症样本和正常样本之间存在显着差异。
【03】https://pubmed.ncbi.nlm.nih.gov/32815531/此外,基于 TCGA 数据库的分析平台UALCAN 数据库 ( http://ualcan.path.uab.edu/analysis.html ) 被用于验证与 CRC 相关的各种模块中排序中心基因的表达。
从数据集中获得的临床信息包括性别、年龄和疾病状态 ( 12 )。【获取方法】
(https://pubmed.ncbi.nlm.nih.gov/32218799/)https://pubmed.ncbi.nlm.nih.gov/32218799/看GSEA分析
【04】https://pubmed.ncbi.nlm.nih.gov/33897765/GEPIA ( Tang et al., 2017 ) 4是一个网络服务器,用于分析来自癌症基因组图谱 (TCGA) 和基因型组织表达 (GTEx) 项目的 9736 个肿瘤和 8587 个正常样本的基因表达谱。在这项研究中,使用 Kaplan-Meier 绘图仪绘制顶级模块基因的生存分析,然后使用 GEPIA 网络服务器确认生存分析的结果。
image.pngTFs-miRNAs-Hub基因网络的构建StarBase ( Li et al., 2014 ) 7是一个探索 microRNA-mRNA 相互作用图谱的数据库,根据筛选标准 CLIP Data ≥ 1 和至少一种肿瘤中存在表达,用于预测与 hub 基因结合的 miRNA。
image.png
【05】https://pubmed.ncbi.nlm.nih.gov/32036224/为了更好地了解中枢基因在结直肠腺癌中的作用,我们使用 Oncomine 数据库 ( http://www.oncomine.org/ )研究了该基因的 mRNA 表达水平,该数据库是公开可用的阵列数据源。
【06】https://pubmed.ncbi.nlm.nih.gov/34259324/我们使用来自 TCGA 泛癌图谱中结直肠腺癌数据集的 594 个 CRC 样本的数据绘制了枢纽基因的基因组,包括突变、拷贝数变异 (CNV) 和 mRNA 表达 z 值 (RNASeqV2 RSEM)。我们还使用 MutationMapper 工具来描绘每个中枢基因的突变情况。我们使用 CBioPortal ( http://www.cbioportal.org/ )访问和分析了数据。
枢纽基因的突变景观根据 TCGA 中 594 名 CRC 患者的数据,使用 CBioPortal 数据库中中心基因的 OncoPrint 视图来可视化六个中心基因中的突变。这些患者中有近一半 (41%) 在所有六个中枢基因中都有突变。DIAPH3的突变率最高(17%),其中最常见的是错义突变和导致更高 mRNA 表达的突变([图 5A](javascript:;))。BAI3的体细胞突变率最高(6.7%),最常见的突变是错义突变和缺失([图](javascript:;)5B)。
使用 GEPIA 网站,我们确认所有这些枢纽基因的表达在正常和 CRC 组织之间存在显着差异([图 4](javascript:;) G-L)。
【07】https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8314434/使用 GEPIA 网站 ( http://gepia.cancer-pku.cn/ )探索了 CRC 样本中 hub 基因的表达水平,并基于 Kaplan-Meier 分析使用 ' R 套件中的生存包(版本:3.2-7)。然后,我们根据来自 TCGA 和 GEPIA 网站上的基因型-组织表达项目(GTEX) 的结肠腺癌 (COAD) 和直肠腺癌 (READ) 数据筛选正常和 CRC 组织之间中枢基因表达的差异。使用 GEPIA 网站,我们确认所有这些枢纽基因的表达在正常和 CRC 组织之间存在显着差异。图 4G-L)。
【08】https://pubmed.ncbi.nlm.nih.gov/33251137/Hub 基因表达与肿瘤浸润免疫细胞浸润的关联分析我们利用 TISIDB ( http://cis.hku.hk/TISIDB/ ) 探索基因表达与肿瘤浸润免疫细胞浸润的关系,包括 CD4 + T 细胞、CD8 + T 细胞、B 细胞、中性粒细胞、单核细胞、嗜酸性粒细胞、肥大细胞、DC、NKT 细胞、NK 细胞、MDSC 和 CD56 细胞 ( 27 , 28 )。使用 R 包“clusterprofiler”(29)对中枢基因进行 GSEA
CLCA1 蛋白表达和预后价值的验证我们利用 GEO 在线工具 PROGgene 在线数据库 ( http://genomics.jefferson.edu/proggene/ )、人类蛋白质图谱 ( https://www.proteinatlas.org/ ) 和 Kaplan-Meier Plotter ( http:// kmplot.com/analysis/)来探索CLCA1的蛋白质表达和预后价值。
image.png图 3通过稳健的秩聚合 (RRA) 分析在基因表达综合 (GEO) 数据集中显着差异表达的基因。图7预后模型的可视化。(A)结直肠癌 (CRC) 患者的风险评分分布。(B) CRC 患者 1 年、3 年和 5 年生存率的 ROC 曲线。(C)低风险和高风险组的 KM OS 曲线。我们利用 randomForest 来验证预后模型。这个文章有深度
【09】https://pubmed.ncbi.nlm.nih.gov/31612481/2.5. 验证枢纽基因基因表达谱交互式分析(GEPIA;http ://gepia.cancer-pku.cn/ )用于分析来自TCGA的RNA测序数据。COAD 的 TCGA 数据用于验证已识别中枢基因的表达。人类蛋白质图谱 ( http://www.proteinatlas.org ) 用于通过免疫组织化学验证候选中心基因。
2.6. TF监管网络建设StarBase ( http://starbase.sysu.edu.cn/index.php ) 用于预测与枢纽基因结合的 miRNA,标准是 CLIP Data >=3 并且至少在一个肿瘤样本中存在表达。然后选择7个数据库中交叉最多的miRNA(图S3A-G)。Cytoscape 的插件 iRegulon 用于预测 TF 调节网络。
【10】https://pubmed.ncbi.nlm.nih.gov/29497907/从 Oncomine 和 GEPIA 数据库获得的数据显示,与正常结肠组织相比,结肠腺癌组织中 COL8A1 的表达更高。Kaplan-Meier 生存曲线显示 COL8A1 的较高表达导致较短的总生存时间和无病生存时间。单变量和多变量 Cox 比例风险分析表明,COL8A1 表达是结肠腺癌患者生存的独立预后因素。
【11】Comprehensive Analysis of the Expression Profiles of Long Non-Coding RNAs with Associated ceRNA Network Involved in the Colon Cancer Staging and ProgressionCC中DElncRNAs-DEmiRNAs-DEmRNAs网络的构建ceRNA网络CC中关键lncRNA、miRNA和mRNA的验证我们的研究首次揭示了 DElncRNA 与癌症分期及其 ceRNA 网络相关。我们还提供了几种候选的 DElncRNAs 和相关的 DEmiRNAs 和 DEmRNAs,它们涉及 CC 的不同病理阶段和发展。
【12】https://pubmed.ncbi.nlm.nih.gov/33968341/从基因表达综合 (GEO) 数据库中检索微阵列数据并进行分析。一些生物信息学工具和数据库被用于进一步阐明。对四个数据集分别运行主成分分析 (PCA)。建立了失调的circRNA-miRNA-mRNA、共表达和蛋白质-蛋白质相互作用(PPI)网络。circRNA-miRNA-mRNA网络首先,CircInteractome 在线数据库 ( 7 ) 用于通过生物信息学发现在 DE ciRNA 上具有互补种子区域的潜在 miRNA。首先,PPI 由 String 数据库(14)识别,然后 PPI 网络由 Cytoscape 可视化。为了识别枢纽节点,考虑了程度和中介中心性。接下来,运行 Cytoscape 应用程序 MCODE 以查找最重要的蛋白质模块。然后,使用Enrichr 数据库(15)了解PPI 网络中hub 基因的生物学功能。【】根据 ceRNA 假说,推测 circRNA 作为 miRNA 海绵,在 circRNA-miRNA-mRNA 轴上与其下游 miRNA 的表达方向相反,与下游 mRNA 的方向相同,因为从circRNA-miRNA-mRNA 网络,包括 5 个 circRNA、4 个 miRNA 和 8 个 mRNA。
【13】https://pubmed.ncbi.nlm.nih.gov/32256214/【结直肠转移】【合并之后然后一起打包WGCNA分析?如何实现?】
【14★★★步骤详细】https://pubmed.ncbi.nlm.nih.gov/31960204/在III/IV期CRC和正常组织之间提取差异表达的lncRNA、mRNA和miRNA(DElncRNA、DEmRNA和DEmiRNA)。我们使用 DEG 构建了 ceRNA 网络,并分析了关键 lncRNA 与 III/IV 期 CRC 患者的总生存率 (OS) 之间的相关性。
加权基因共表达网络分析 (WGCNA) 应用于关键 lncRNA。我们对靶基因进行功能富集分析,并通过重叠与关键lncRNA和转录因子(TFs)靶基因共表达的mRNA构建lncRNA-TF-mRNA网络。随后基于GENCODE(V22)注释从DEGs中筛选出差异表达的lncRNAs(DElncRNAs)和mRNAs(DEmRNAs)。
根据之前的研究,lncRNA 可以通过 miRNA 影响 mRNA 是一个众所周知的理论,可以在此基础上构建 lncRNA 相关的 ceRNA 网络。【步骤】具体步骤如下: 首先,应用高度可靠的miRcode在线miRNA参考数据库(http://www.mircode.org/),基于交叉DEmiRNAs搜索lncRNA-miRNA相互作用。然后,从 Targetscan v7.1 ( http://www.targetscan.org/vert_71/ )、miRDB ( http://www.mirdb.org/miRDB/ ) 和 DIANA-Tarbase v7.0中检索到 miRNA 靶向的 mRNA ( http://diana.imis.athena-innovation.gr/DianaTools/index.php?r=site/index)。我们分别保留了重叠预测结果与上述 DElncRNA 和 DEmRNA 的交集。此外,交叉 DEmiRNA 与相应 mRNA 之间的 Pearson 相关分析使我们能够保留潜在的靶基因。Cytoscape v3.7.1 用于可视化 lncRNA-miRNA-mRNA ceRNA 网络。网络中显示的 LncRNA 被认为是本研究中潜在的候选 lncRNA。在测试集 GSE41657 中进一步验证了候选 lncRNA。进行接收器操作特征(ROC)曲线分析以鉴定更可靠的lncRNA。Kaplan-Meier 方法和 Cox 的比例风险 (PH) 回归模型通过进行生存和生存者包来评估总体生存。与总生存相关的最终lncRNA因此被认为是关键的。构建WGCNA并预测关键lncRNA的靶mRNA*
lncRNA 反式调控的鉴定 【TF的具体步骤】为了进一步研究 CRC 肿瘤组织中转录因子 (TF) 对 lncRNA 的反式调节功能,从三个主要数据库下载了可能参与关键 lncRNA 反式调节的预测 TF,包括 GeneCards、JASPAR 和 Promo。从 Ensembl ( http://asia.ensembl.org/index.html )中确定了所有潜在的 TF 。lncRNA-TF-mRNA网络是通过将上述lncRNA的靶mRNA与预测TF的靶基因重叠来构建的。在 TCGA 数据集中确定了 III/IV 期 CRC 中 lncRNA 和 TFs 之间表达的显着相关性。ceRNA网络的构建与分析为了确定 398 个相交的 DEmiRNA 是否靶向上述维恩图中的 26 个 DElncRNA,根据 miRcode,筛选了 36 个 miRNA 以预测 17 个独特的 lncRNA。Targetscan、miRdb 和 DIANA-Tarbase 测量了 455 个与交叉 DEmRNA 重叠的 miRNA 靶向 mRNA。
https://pubmed.ncbi.nlm.nih.gov/33912443/通过综合生物信息学分析鉴定与基于** 5-氟尿嘧啶**的结直肠癌化疗敏感性相关的 Hub 基因
https://pubmed.ncbi.nlm.nih.gov/33646276/免疫细胞浸润。
分组????怎么分的Survminer R 包找到了风险评分的最佳临界值,而接收者操作特征 (ROC) 和 Kaplan-Meier 曲线用于评估风险评分的预测能力。我们首先将来自TCGA和GEO数据集的样本根据Th17细胞浸润情况分为三组,比较高表达组和低表达组,绘制风险评分分布图(图 8),时间相关的 ROC 曲线 (图 9),以及 TCGA 和 GEO 数据集的生存分析(图 10)。
https://pubmed.ncbi.nlm.nih.gov/32743717/【分析左右结肠】稳健的秩聚合 (RRA) 方法用于整合结肠癌微阵列数据集并筛选左侧和右侧结肠癌之间的差异表达基因 (DEG) 谱。然后,进行加权基因共表达网络分析(WGCNA)以将 DEG 聚类为模块并识别中枢基因。使用癌症基因组图谱数据集和临床组织验证选定的中心基因。我们评估了所选中枢基因与免疫细胞甲基化状态的关联hub基因的临床意义及预后价值分析为了验证hub基因的临床意义和预后价值,通过分别根据结肠癌的位置和每个hub基因的平均值对样本进行划分,使用TCGA-COAD数据集进一步研究了这些基因。还使用 R 环境中的“survminer”包对 hub 基因进行了生存分析。
hub基因的甲基化分析枢纽基因与肿瘤浸润免疫细胞的关联在线工具 TIMER ( https://cistrome.shinyapps.io/timer/ ) 包含来自 TCGA 数据库中可用的不同癌症类型的 10,897 个样本,用于研究所选中枢基因与肿瘤浸润免疫细胞之间的关联。
枢纽基因的基因集富集分析(GSEA)clusterprofiler”包 .................根据每个hub基因的中位表达水平,将样本分为两组,筛选出显着的通路。P值小于0.01的分析项目被认为具有统计学意义。
hub基因表达对免疫细胞和体细胞拷贝数改变的影响临床样本中枢纽基因的验证
https://pubmed.ncbi.nlm.nih.gov/32522293/本研究根据以下标准选择符合条件的数据集:(1)数据集中的样本为 COAD 患者的实体组织;(2) COAD样本总数不少于500个;(3) 数据集包含样本的复发和预后信息。最终,获得GSE39582并用作训练数据集。该数据集由GPL570 Affymetrix Human Genome U133 Plus 2.0 Array 平台生成,包含 585 个 COAD 样本,574 个样本具有复发信息 [15]。
训练集和验证集首先,训练和验证数据集中的所有 mRNA 和 lncRNA 都基于 HUGO 基因命名委员会(HGNC,http://www.genenames.org/)数据库 [ 16 ] 进行注释,由注释的 19,198 个蛋白质编码基因和 4120 个 lncRNA 组成。然后,在这两个数据集之间获得重叠的 mRNA 和 lncRNA。训练数据集中的所有 COAD 样本被分为复发组和非复发组。特征lncRNA的筛选caret 包(版本 6.0-76,https: //cran.r-project.org/ web/packages/caret ) [ 21 ] 在 R 中用于识别基于递归特征消除(RFE) 算法的优化签名 lncRNA。接下来,构建了基于** SVM 的分类器**以基于特征 lncRNA 预测 COAD 复发。此外,分类器的性能分别在训练数据集和验证数据集中进行评估。
https://pubmed.ncbi.nlm.nih.gov/33680920/使用 R 包“glmnet”( 14 )进行最小绝对收缩和选择算子 (LASSO) 回归,
转录因子-mRNA相互作用网络构建从TRRUST第2版数据库(https://www.grnpedia.org/trrust/)下载转录因子与mRNA之间的调控关系,筛选出与预后IRG有相互作用关系的转录因子。使用 Cytoscape ( 15 )构建了一个包含转录因子和 IRG 的网络。
免疫评分和矩阵评分的计算免疫细胞和基质细胞是肿瘤微环境中的两大类非肿瘤成分,已表明它们在肿瘤的诊断和预后方面具有重要价值。使用R包ESTIMATE计算高危组和低危组免疫细胞和基质细胞的基因表达特征。
免疫细胞类型比例的评估CIBERSORT ( http://cibersort.stanford.edu/ ) 用于根据复杂组织的基因表达谱来表征细胞组成。
https://pubmed.ncbi.nlm.nih.gov/33666342/2.2. 中性粒细胞浸润的评估
2.3. 肿瘤纯度评估使用 R package Estimate 评估肿瘤纯度。 17 ESTIMATE是一款基于表达数据评估肿瘤纯度、基质细胞比例和免疫细胞在肿瘤组织中浸润程度的R软件。
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8138443/ 沙利铂耐药相关基因特征,具有很强的结肠癌预测能力此外,我们使用这些基因使用 R 包 ConsensusClusterPlus(V1.48.0;参数:reps=100、pItem=0.8、pFeature=1 和 distance=“spearman”)进行样本一致性聚类。我们对来自训练集的临床数据和风险评分进行了单变量和多变量 Cox 回归分析,并计算了相应的 HR、95% CI、和P 值。基因集富集分析 (GSEA) 检测到的高风险和低风险组之间富集的途径的差异。
https://pubmed.ncbi.nlm.nih.gov/33441161/【这个与其他看到的不一样】通过荟萃分析鉴定DEG【这个不多?怎么操作?】横跨TCGA,公共DEGS GSE44861和GSE44076数据集,使用在R MetaDE包MetaDE.ES方法鉴定(https://cran.r-project.org/web/packages/MetaDE/)[ 26,27 ] . 简而言之,首先根据统计tau2、Q值和Q pval 对来自不同平台的基因表达谱进行异质性检验。根据以下标准筛选出常见的 DEG:tau 2=0,p < 0.05,Q pval > 0.05,错误发现率 (FDR) < 0.05,log 2倍数变化 (FC) 在三个数据集(> 0 或 < 0)中具有相同的差异表达方向。保留上述 WGCNA 模块基因与三个数据集中常见 DEG 之间的重叠基因,用于进一步的功能富集分析和预后预测模型的构建。
列线图生存模型分析最终的列线图是使用R3.4.0 中的“rms”包(版本 5.1-2;https: //cran.r-project.org/web/packages/rms/index.html)建立的,以估计结肠癌患者。预后相关的临床因素和基因特征模型用于构建列线图。
预后预测模型的构建与评价【找其他来比较,看看差异】在构建预后预测模型之前,使用 R 生存包(2.4 版,https: //cran.r-project.org/web/packages/survival)中的单变量和多变量 Cox 回归分析确定了与预后相关的 DEG /index.html ) [ 30 ]。当对数秩p值 < 0.05时,确定了 TCGA 训练集(n=432)中与预后相关的 DEG 。然后,使用惩罚包(版本 0.9-50,http: //bioconductor.org/packages/penalized/ ) [ 31 , 32]。随后,使用以下基因特征模型计算每个样本的预后风险评分:风险评分=∑β基因×Exp基因,其中β代表LASSO系数,Exp代表表达水平。TCGA 训练集中的所有样本根据风险评分中位数分为高风险组和低风险组。R生存包(2.41-1版)中的Kaplan-Meier(KM)曲线分析和受试者工作特征(ROC)曲线用于评估风险评分与结肠癌患者总生存期的相关性。同样,验证集中的样本(GSE17538和GSE38832)根据上述预后模型分别分为高危组和低危组。使用KM生存检验和ROC曲线在验证集(GSE17538和GSE38832)中验证了上述基因特征模型在预测结肠癌预后方面的性能。
https://pubmed.ncbi.nlm.nih.gov/33987007/【溃疡性结肠炎相关性结直肠癌 (UC-CRC) 】功能富集分析基于使用 gseGO 和 gseKEGG 函数的差异表达分析获得的 log 2 FC排序的基因列表进行基因集富集分析 (GSEA) ( Subramanian et al., 2005 )。单基因GSEA是根据每个基因与指定hub基因之间的Spearman相关系数排序的基因列表进行单基因GSEA,以预测与hub基因相关的重要生物学过程和途径。一个p 值 <0.05 被认为是显着的。为了进一步探索 hub 基因与 UC 相关致癌作用的潜在关联,进行了简短的文献综述以寻找其致癌作用的证据
https://pubmed.ncbi.nlm.nih.gov/34335633/image.png结直肠癌 (CRC) 由于其淋巴结转移 (LNM) 而对个体化治疗提出了巨大挑战。首先,我们使用 ssGSEA 算法对来自癌症基因组图谱 (TCGA) 和基因表达综合 (GEO) 数据库的 CRC 样本的免疫浸润图谱进行了表征。通过层次聚类分析将 CRC 患者分为几个免疫亚组。然后,在 TCGA 和 GEO GSE39582中,在免疫亚组和 CRC与正常组织之间鉴定了差异基因队列,分别。接下来,采用加权相关网络分析(WGCNA)构建共表达网络以查找 LNM 相关模块和中枢基因。随后,我们评估了 hub 基因在预后预测和化疗/免疫治疗中的临床价值。此外,在我们中心的外部队列中验证了关键基因的蛋白质水平。最后,我们通过基因功能注释和相关性分析探索了FSTL3介导的LNM的潜在机制。CRC 中 FSTL3 与 TME 的相关性为了更好地表征 FSTL3 在 TME 中的免疫学作用,我们评估了 FSTL3 与 CRC 中免疫/基质细胞浸润之间的关系。首先比较FSTL3高表达组和低FSTL3表达组的ImmuneScore、StromalScore和TumorPurity。通过目前公认的方法计算的TILL 丰度,包括 TIMER、CIBERSORT-AB、XCELL、QUANTISEQ、MCPcounter、EPIC 和 CIBERSORT 算法,从 TIMER2.0 网站下载,以探索 FSTL3 mRNA 与免疫浸润状态之间的关系(33)。FSTL3 的泛癌分析
https://pubmed.ncbi.nlm.nih.gov/32010608/在瑞典和 TCGA-COREAD 患者中,我们研究了 MRE11 表达、肿瘤浸润性炎症细胞 (TIIC) 和微卫星状态与右侧结肠癌 (RSCC) 和左侧结肠直肠癌 (LSCRC) 生存率的关联。 )。使用加权基因共表达网络分析和 ClueGO 进一步分析了 MRE11 相关的信号传导。
https://pubmed.ncbi.nlm.nih.gov/34346563/然后,我们使用R中的“caret”包将467个样本随机分为两组,其中235个样本分配给训练组,232个样本分配给测试组。在训练组中,使用单变量Cox回归分析重新筛选了91个基因,获得了p值<0.05的62个基因。然后,我们继续对训练组的这62个基因进行Lasso回归分析,省略协同基因,得到17个基因。最后,通过对训练组这17个基因进行multi-cox回归分析,建立9个基因的预后预测模型,预测CRC患者的OS率。
3.1 基因选择和预后特征构建【Lasso回归分析】在我们的研究中,通过Kaplan-Meier 方法获得了 1464 个与诊断为 CRC 的患者的 OS 相关的基因。对这 1464 个基因进行单变量 Cox 比例风险回归分析,发现其中 224 个具有统计学意义,p值低于 0.05。将过滤标准设为 HR>1.5 或 HR<0.8,p值 < 0.01,选择 91 个基因进行进一步研究。共467例CRC患者随机分为两组:训练组(n=235)和测试组(n=232)。再次采用单变量Cox回归分析验证91个基因对训练组CRC患者OS的影响,62个基因达到统计学显着性。为了提高回归模型的可解释性和预测精度,解决变量的共线性问题,我们对训练数据集中的62个基因进行了Lasso回归分析,结果显示筛选出17个基因作为我们进一步研究的基础。构建预测 CRC 患者 OS 的模型(图 2))。最后,训练组对这17个基因进行多变量Cox回归分析,建立了一个由9个基因组成的预测CRC患者OS的特征。这九个基因的总体信息见表 2。
基于多变量 Cox 分析和获得的回归系数,建立预后特征,通过该特征计算患者的风险评分。基因特征的预后特征独立于其他临床病理因素为了评估 9 基因特征是否可以被视为 CRC 患者 OS 预测的独立预后因素,对整个队列以逐步方式进行多变量 Cox 回归分析。协变量包括风险评分(高与低)和临床病理因素,如年龄、性别和 TNM 分期。结合年龄、性别、分期和9基因特征构建临床实践的列线图
https://pubmed.ncbi.nlm.nih.gov/33321467/ESTIMATE 和 CIBERSORT 可以评估 TME,包括多种免疫细胞和基质细胞的浸润[11]、[12]、[13]、[14]。预后风险评分模型的构建与评价按照 7:3 的比例将发现集分为内部训练组和内部验证组。内部训练集用于构建特征以评估 I-III 结肠癌患者的 RFS。进一步执行 LASSO 以选择变量。执行多变量 Cox 以形成签名。通过Kaplan Meier生存分析、风险评分分析和ROC,验证了签名的准确性。风险评分和一些临床特征被列为风险因素,并通过单变量 Cox 分析进一步分析。多变量Cox分析用于分析单变量Cox分析后认为显着的危险因素。使用主成分分析(PCA)和t-Distributed Stochastic Neighbor Embedding评估特征区分高低风险组的效率(以7个基因的表达为参考)。发现集的划分、Lasso、单变量 Cox 回归、多变量 Cox 回归、PCA 和 t-SNE 均由 R(版本 3.6.2)进行。P < 0.05 被认为具有统计学意义。
免疫浸润分析TME评分采用ESTIMATE算法计算,可根据与免疫细胞相关的特定基因标志物的表达情况,分析肿瘤样本中的免疫评分和矩阵评分[25]。该过程由 R(版本 3.6.2)通过包 limma 和估计进行。CIBERSORT用于识别浸润免疫细胞的特征。它可以根据来自大块组织的基因表达数据计算细胞数量[12]。基因表达的标准化数据上传到 CIBERSORT 门户网站 ( http://cibersort.stanford.edu/ )。最后,计算每个样本22种免疫细胞的丰度,筛选出具有统计学意义的个体样本。P < 0.05 被确定为具有统计学意义。
https://pubmed.ncbi.nlm.nih.gov/33767290/我们从基因集富集分析 (GSEA) 平台 ( http://software.broadinstitute.org/gsea/downloads )下载了代谢基因。为了评估 DEG 强度的相互关联以及它们与特征数据之间的关系,使用 WGCNA R 包进行了加权基因共表达网络分析 (WGCNA)。蛋白质 - 蛋白质相互作用(PPI)网络由用于检索相互作用基因的搜索工具(STRING,https: //string-db.org/)和Cytoscape软件(版本3.7.1)中的CytoHubba插件构建。
先DEG然后WGCNA图例注意:与刚开始就WGCNA的区别。前面是一系列的图。这里只有normal和tumor
https://pubmed.ncbi.nlm.nih.gov/34050762/ ncFANs v2.0:非编码RNAs功能注释的综合平台
https://pubmed.ncbi.nlm.nih.gov/33816214/免疫细胞类型分数的估计“sva”R 包中的战斗规范化用于将三个数据集共同规范化为一个群组。为了量化 GC 样本中免疫细胞的比例,我们将带有标准注释的标准化基因表达数据上传到 CIBERSORT 门户网站 ( https://cibersort.stanford.edu/ ),该算法使用 1000 个排列和LM22 基因标记如前所述(14)。在随后的 Kaplan-Meier (KM) 分析中仅考虑 CIBERSORT 输出为 P < 0.05 的样品(补充图 2)。免疫相关基因 (IRG) 数据来自 InnateDB ( https://www.innatedb.ca/ )。通过“ConsensusClusterPlus”R 包的无监督聚类分析用于执行免疫亚型的共识分子亚型(16)。免疫评分预后模型的构建和验证:使用“glmnet”R 包进行最小绝对收缩和选择算子(LASSO)回归分析(19) 以使用 10 折交叉验证选择具有最佳预测性能的最有用的基因。然后将LASSO回归分析得到的Cox系数(β)与其尺度表达值的乘积线性组合,建立GC患者的免疫评分模型,即免疫评分=基因Xi的ΣCox系数×基因的尺度表达值。列线图模型的构建和验证通过“rms”R 包采用多变量 Cox 回归分析来确定独立的预后因素,从而产生具有三个因素的基于免疫评分的预后列线图(p < 0.05);仅包括具有完整临床数据的患者。通过 ROC 曲线的 AUC、Harrell 一致性指数 (C-index) 和决策曲线分析 (DCA) 测量和比较列线图的预测准确性。
https://pubmed.ncbi.nlm.nih.gov/34195188/【找到别人分析好的,然后在分析】基因集富集分析和单样本基因集富集分析基因集富集分析 (GSEA) 用于鉴定可能在 CRC 过程中发挥重要作用的生物学途径。输入参考基因集是来自三个差异分析交集的所有蛋白质编码基因。进行单样本基因集富集分析 (ssGSEA) 以根据特定参考计算单个样本的分数。
蛋白质-蛋白质相互作用网络的构建蛋白质-蛋白质相互作用 (PPI) 网络是基于 STRING 2绘制的。
https://pubmed.ncbi.nlm.nih.gov/33763372/基于左右结肠腺癌差异表达基因的预后免疫相关分析【The CRCs in cecum, ascending colon and hepatic flexure were defined as LCCs. The CRCs in plenic flexure, descending colon, sigmoid colon, and rectosigmoid junction were defined as RCCs.】【盲肠、升结肠和肝曲中的CRC被定义为LCC。脾曲、降结肠、乙状结肠和直肠乙状结肠交界处的CRC被定义为RCC。】
https://pubmed.ncbi.nlm.nih.gov/31432149/长链非编码RNA LINC00668和蛋白质编码基因在肝细胞癌中的临床意义和分子机制的全基因组研究药理学研究:。Connectivity Map 确定了 7 种治疗 HCC 的候选目标药物,
https://pubmed.ncbi.nlm.nih.gov/33737696/ceRNA 相关风险模型预测头颈部鳞状细胞癌患者的不良预后
image.png
Biomarker有助于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。今天将介绍一篇新的文献:针对多形性胶质母细胞瘤,利用WGCNA筛选关键模块中的hub基因,同时结合生存分析、ROC曲线利用其他数据库数据进行验证并筛选最终Biomarker的过程。
背景简介
多形性胶质母细胞瘤是一种非常严重的脑瘤,占所有类型的15%左右,生存时间一般少于15个月,目前主要的治疗手段是外科手术,但常出现复发。因此,通过研究其分子和结构水平的机制将有助于疾病的治疗。
数据来源
通过GEO数据库下载GSE50161数据(34个肿瘤样本/13个正常对照样本)利用WGCNA,筛选hub基因。
通过
TCGA下载了148个样品的表达数据和临床数据,对hub基因进行生存分析,从而验证结果并筛选Biomarker。
再次下载
GEO数据库数据:GSE24084数据,基于ROC曲线分析,对hub基因进行验证,同样筛选Biomarker。
数据分析
下载GSE50161数据,利用limma包进行标准化处理,之后针对47个样品的数据进行差异表达基因的筛选。以P < 0.05,|LFC|> 2,共筛选了1913个差异基因(见下图a、b),结合热图可以明显发现这些差异基因在两组样品中表达变化趋势明显。
之后,按照无尺度网络的标准,设定power(18),对差异基因表达数据构建共表达网络,
共获得了4个有效模块(见下图c、d)。
针对模块内的基因,分析其表达模式,结果发现:turquoise和 yellow两个模块的基因,整体上在肿瘤样本中较之正常样本出现下调,blue和brown模块表现相反的趋势,呈现上调状态(见下图)。
计算模块特征基因和性状之间的关联,结果表明:blue和brown模块和疾病状态显著正相关,而turquoise和 yellow两个模块负相关(见下图a),同时统计每个模块中基因同性状之间的相关性:基因显著性GS,并计算均值(见下图b)。
为掌握各模块中基因的主要功能,进行GO和KEGG富集分析,最终发现绝大部分的显著富集的GO term和pathway都和该疾病相关(见下表)。
进一针对有效模块进行关键基因的鉴定,通过基因在模块内连通性的大小,从每个模块内筛选出TOP20的基因,并利用Cytoscape绘制相关的网络图,展示如下:
生存分析验证筛选
基于筛选的hub基因,利用TCGA数据库下载相关的148个样品的表达数据和临床数据进行生存分析,最终基于每个模块中的minimal P值,筛选出了四个基因,分别是SULT4A1 (yellow)、FXYD1 (blue),、NUSAP1 (brown),、GPR65 (turquoise),后三者同时包含FXYD domain。
ROC曲线验证筛选
下载GEO数据库数据:GSE24084数据,同样对每个模块中的hub基因进行验证,最终从四个模块中获取到了如下图四个基因,这些基因对应的|AUC-0.5|最大(作为有效的分类标准)。
结论
这篇文章通过WGCNA的方法获得有效模块之后,基于常规的方式筛选获取网络中的hub基因,同时充分利用了现有数据,譬如结合其他数据库中的数据或者同一数据库不同数据集进行验证和筛选,可以获得更准确高效的Biomarker进行疾病的诊断和治疗。
参考文献: Yang Q, Wang R, Wei B, et al. Candidate Biomarkers and Molecular Mechanism Investigation for Glioblastoma Multiforme Utilizing WGCNA[J]. BioMed research international, 2018.
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:
https://study.163.com/course/introduction/1209048893.htm?share=1&shareId=1031484705
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:
https://study.163.com/course/introduction/1004723037.htm?share=1&shareId=1031484705
https://study.163.com/course/introduction/1005207017.htm?share=1&shareId=1031484705
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:
https://study.163.com/course/introduction/1005023004.htm?share=1&shareId=1031484705
4. 转录组数据怎么挖掘?学习链接:
https://study.163.com/course/introduction/1005084024.htm?share=1&shareId=1031484705
5.微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程,学些链接:
https://study.163.com/course/introduction/1004569015.htm?share=1&shareId=103148470
https://study.163.com/course/introduction/1005831025.htm?share=1&shareId=1031484705
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图,链接:
https://study.163.com/course/introduction/1006149012.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1004833023.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1006448023.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1006346005.htm?share=2&shareId=1031484705
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析、TCGA甲基化分析,学习链接:
https://study.163.com/course/introduction/1005543028.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1005640003.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1005645022.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1005807030.htm?share=2&shareId=1031484705
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读,学习链接:
https://study.163.com/course/introduction/1005267042.htm?share=2&shareId=1031484705
https://study.163.com/course/introduction/1004452005.htm?share=2&shareId=1031484705
上一篇:BEAQAR这牌子中文是什么?
下一篇:500平方米会场音响功率要求?
发表评论