2021 12-26 R语言数据处理——数据合并与追加 数据结构的塑造是数据可视化前重要的一环,虽说本公众号重心在于数据可视化,可是涉及到一些至关重要的数据整合技巧,还是有必要跟大家分享一下的。在可视化前的数据处理技巧中,导入导出、长宽转换已经跟大家详细的介绍过了。今天跟大大家分享数据集的合并与追加,并且这里根据所依赖函数的处理效率,给出诺干套解决方案。数据合并操作涉及以下几个问题:横向合并;1. 是否需要匹配字段1.1 匹配字段合并 1.1.1 主字... 阅 读 全 部 >
2021 10-16 使用dplyr进行数据操作(30个实例) dplyr软件包是R中功能最强大,最受欢迎的软件包之一。该软件包由最受欢迎的R程序员Hadley Wickham编写,他编写了许多有用的R软件包,如ggplot2,tidyr等。本文包括一些示例和如何使用使用dplyr软件包来清理和转换数据。这是一个关于数据操作和数据处理的完整教程。什么是dplyr?dplyr是一个强大的R软件包,用于处理,清理和汇总非结构化数据。简而言之,它...阅读全文>... 阅 读 全 部 >
2021 10-11 R语言网络爬虫初学者指南(使用rvest包) 引言网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源。所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,我坚信网络数据爬取已经是每个数据科学家的必备技能了。在本文的帮助下,你将会突破网络爬虫的技术壁垒,实现从不会到会。大部分网上呈现的信息都是以非结构化的格式存储(html)且不提供直接的下载链接,因此,我们需要学习一些知识和...阅读全文>... 阅 读 全 部 >
2021 10-08 R语言对象的操作总结 现在本文将4种对象的程序方法进行进一步总结和凝练。一、is和as系列函数is 和as系列函数涉及不同类型数据和对象的鉴定和转换。我们经常在R语言编程过程中需要了解某一种数据的类型,也可能进行转换方便计算,所以诸位要熟悉他们。is系列是判断某一个数据中的观察值是何种类型,或者数据属于何种对象与结构• is.character(x) #判断是否为字符型• is.numer...阅读全文>>... 阅 读 全 部 >
2021 08-25 蛋白组学/代谢组学如何快速从主流数据库中获取人/小鼠数据? 随着生物科技的迅速发展,每天都会有海量的生物学数据产生,如何有效的分析这些“生物学大数据”?生物信息学的应用变得尤为重要,在生物领域从基因测序,到基因编辑,再到基因疗法的精准医疗,由生物科技引发的又一场变革正悄然而至。试问大家做好准备迎接它到来了吗?本次分享的主题为:如何快速获取海量数据?我们就从物种的DNA或蛋白质序列说起,在我们的科学研究中下载序列是一件简单不过的事情,无非就是...阅读全文&... 阅 读 全 部 >
2021 08-14 Protein Cell:扩增子和宏基因组数据分析实用指南 扩增子和宏基因组数据分析实用指南A practical guide to amplicon and metagenomic analysis of microbiome dataProtein Cell [IF: 10.164]DOI: https://doi.org/10.1007/s13238-020-00724-8Review: 2020-5-11第一作者:刘永鑫1,2,3, 秦媛1,2,3... 阅 读 全 部 >
2021 08-11 微生物基因组数据上传指南 今天小编将与大家一起分享云平台里的微生物基因组数据上传指南,一起学起来吧~BioProject ID 的获得1.在 NCBI 主页右上角(https://www.ncbi.nlm.nih.gov/)My NCBI 登录系统中创建新的账号(已有就不需要),点击 Register for an account 创建账号:2.登录 BioProject(https://submit.ncbi.nlm.n... 阅 读 全 部 >
2021 07-26 3分钟搞定GO/KEGG富集分析 在进行差异基因表达分析时,得到显著差异基因后,接下来就需要分析这些基因参与了哪些功能,常见的就是GO功能注释和KEGG通路富集分析,今天为大家介绍在线分析工具的使用——DAVID与KOBAS 3.0。DAVID是一个生物信息数据库,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路...... 阅 读 全 部 >
2021 07-08 lncRNA生物标记 癌症是一种复杂疾病,与多个基因的突变相关,包括表观遗传变异、染色体易位、基因缺失和拷贝数变异。非编码RNA(non-coding RNA,ncRNA) 是一种具有基因组的编码域但大部分都没有翻译成蛋白质的新兴转录本,在各种细胞的生理功能中,ncRNAs扮演关键角色,特别是长非编码RNA(long non-coding RNA,lncRNA),在染色质动力学、基因表达、细胞生长和分...阅读全文&g... 阅 读 全 部 >