咱们先说说β多样性指数是干嘛的,它主要就是拿来衡量不同样本或者样本组之间的菌群结构差别。不像α多样性只盯着一个样本内的物种多不多,β多样性把眼睛往“样本之间”瞅。通常用各种“距离指数”或者“差异系数”来算,数值越高,说明两个样本的组成和进化关系离得越远。 接下来快速过一遍四个常用的β多样性指数。首先是Jaccard距离,这个指数只关心某个物种在不在这两个样本里,用“交集外的并集”除以总物种数。它对组成的差异最敏感,但没考虑物种的多少。再看Bray-Curtis距离,这就把每个物种的丰度拉进来算了,直接从相似系数矩阵得出结果。它更适合比较样本的量差,不太看质的差异。 UniFrac这个指数就更高级了,把系统进化的信息也融进去了。加权UniFrac看重系统发育的远近,给稀有物种也留点面子;非加权UniFrac是先把丰度标准化了再算进化距离,结果更能看出“核心类群”的不同。 下面讲怎么把高维的距离矩阵变成一张图好让人看。PCoA和NMDS这两个方法都能把高维数据压缩成二维或三维的图形。图里点离得近,说明样本菌群就像两兄弟一样相似。 最后咱们实战一下用Phyloseq包把距离算出来。先把QIIME格式的那四个文件导进去:OTU表、地图文件、树文件还有序列文件。然后筛选一下OTU,只留下那些总序列数超过10的,这样能减少噪声的干扰。接着就能直接算出Jaccard、Bray-Curtis、加权和非加权UniFrac四种距离,最后存成CSV文件备用。