Pangenome学习：A gentle introduction to pangenomics

5 Nov 2025

学习泛基因组的基本概念以及构建方法

Definition

一个物种或者一个群体存在的自然的变异，一个群体或者物种所有的基因组信息
使用生物信息学工具得到的泛基因组

Core genome

sequence shared by all individuals

Accessory / Shell genome

Sequence present in some but not all individuals

Dispensable / Cloud genome

Sequence found in only one individual

Type of pangenomes

Prensence-absence variation pangenome (PAV)

关注基因的存在与否，不关注基因具体的位置，序列，以及多样性等

core genome ：群体中每个个体都存在的基因，或者物种间每个物种都存在的基因

accessory genome：只在群体中部分个体存在的基因或者物种间部分物种存在的基因

Construction

homolog-based strategy

对每个样本进行de novo组装，组装后提取基因组中注释到的编码基因，并且在不同样本间根据基因序列相似性聚类，某个类别中如果包含所有的样本那么就认定为Core gene，否则认定为Accessory genes，通常用于原核生物，原核生物基因无内含子，比对，聚类成本较小。

map-to-pan strategy

将whole-genome sequencing reads比对到经过注释的具有代表性的泛基因组

测序深度最低10X
基因外显子至少5%的区域被至少1个reads覆盖，被认为基因存在的标志

softcore 当有一个样本中的Core gene没能被正确识别到的时候，那么整个Core gene合集可能就没有这个基因，为了防止这种情况，有些研究提出这个概念，允许在小部分样本中没识别到的基因为softcore

Representative sequence pangenome

使用尽可能少同源序列，并尽可能多的表示基因组多样性，通常由一个参考基因组以及其他非冗余参考序列组成(NRR, nonredundant reference), 其中NRR包含只在某一个成员中出现，但是不在reference中出现的

Construction

将在参考基因组中不存在的基因组区域作为额外contig来构建

metagenome-like assembly of unaligned reads （低于10X的大样本测序数据首选）

先将所有样本reads比对到参考基因组，没比对上的所有reads一起进行de novo assembly ，形成contig

independent assembly of unaligned reads

先将每个样本reads比对到参考基因组，没比对上的按样本进行de novo组装，将组装好的contig根据序列相似度进行聚类，从每个聚类中选出一个作为参考基因组的补充（需要至少10x的read coverage）

iterative assembly of unaligned reads

迭代式创建，单个样本先进行比对，然后将未比对的reads进行de novo assembly，用于扩充参考基因组，然后更新的参考基因组再用于其他样本。后续样本就先比对到更新的参考基因组，然后扩充参考基因组，一直迭代。

independent whole-genome assembly

先将每个样本的reads进行de novo assembly至contig水平，然后将contig比对到参考基因组，所有样本未能比对至参考基因组的contigs进行聚类，从聚类结果中挑选每个类别中最长的序列用于扩充参考基因组

pangenome graph (graphic pangenome)

可以是面向序列的和面向基因的，展示群体中变异和基因的位置关系。

Construction

Predetermined variants

需要一个参考基因组，以及包含已有变异的VCF文件，后来新添加的变异作为分支节点添加到图上，形成一个有向无环图

Multiple sequence alignment

多序列比对，直接将序列两两比对进行图形基因组构建，这种方法需要大量的计算资源，但是对于定相的基因组十分有用(Phased genome)

De Bruijn graphs

将reads分成k-mers，然后根据k-1(k为kmer的长度)的重叠来进行图构建，kmer为图节点

Applications

变异检测与分型（variants calling and genotyping）
单倍型推断 (Haplotype inference; phasing of assemblies)

Files and formats

	Linear	Pangenomic
Reference genome	.fa	.gfa
Indexing	.bwt	.gbwt
Alignment	.bam / .paf	.gam / .gaf

Reference

Chelsea A Matthews, Nathan S Watson-Haigh, Rachel A Burton, Anna E Sheppard, A gentle introduction to pangenomics, Briefings in Bioinformatics, Volume 25, Issue 6, November 2024, bbae588, https://doi.org/10.1093/bib/bbae588

Pangenome学习：A gentle introduction to pangenomics

Definition

Type of pangenomes

Prensence-absence variation pangenome (PAV)

Construction

Representative sequence pangenome

Construction

pangenome graph (graphic pangenome)

Construction

Applications

Files and formats

Reference

Table of Contents