免疫相关基因数量到底是多少个
卖萌控的博客
点击这里进入电脑版页面!体验更好
免疫相关基因数量到底是多少个
2023-4-22 萌小白
种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。


其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析, 仅仅是拿着几千个免疫相关基因的表达矩阵即可



但是关于这一点,就有很多粉丝问我,为什么看了很多文献,大家的 免疫相关基因集的数量都不一样,希望我给出一个可靠的数据源!



随便列举几个免疫基因集数据挖掘文献:




你可以迅速解读一波,因为都大同小异,仅仅是癌症不一样,图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;



免疫基因集数据库



其实可以看到, 大多就是来源于 ImmPort(The Immunology Database and Analysis Portal)数据库的:




如果你是初出茅庐,就选择它好了,反正数据库都提供了列表:https://www.immport.org/shared/genelists






或者你去KEGG和GO等数据库人工筛选免疫相关基因集,然后去冗余也行,再或者其它数据库,比如:



何止是免疫


我一直觉得, 这样的挑选其实是引入了人工偏差,但是这样的策略文章却屡见不鲜。比如几年前我总结的TCGA泛癌研究策略,其中一类就都是集中于某生物学功能基因集:




这个完全是取决于大家的生物学背景啦,很多人的课题组,实验室祖传就是研究某个通路,某个基因的,那么你就有先天优势。



发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容