理解结构变异BED在VCF中的描述

结构变异种类


  • INFO字段: SVTYPE
value meaning
DEL deletion
DUP duplication
 INS insertion
INV inversion
CNV copy number variation
BND breakend

结构变异在VCF文件中具体描述


普通的变异都好理解,只是BND有点麻烦

ALT中会出现的四种情况

ALT meaning
N]chr:pos] 当前染色体是断裂染色体的左边部分、N是断裂点、从N开始向右延伸至与染色体chr的pos位置断点连接
]chr:pos]N 当前片段是断裂染色体的右边一半、N是断裂点,从N开始左边与染色体chr的pos位置断裂的片段接上,N所在的片段还是充当右边片段,接上的另一片段充当左边部分
N[chr:pos[ 当前片段是断裂染色体的左边的一半,所以N就是断裂点,从该位置向右与染色体chr的pos位置接上,即接上后该片段仍充当左边,接上的另一片段就充当右边部分
[chr:pos[N 当前染色体的N,染色体断裂后右边那条的断裂点,所以从N开始,将另一条的chr断裂的pos处接到N的左边,替换掉左边断掉的

总结上述四种变异的组织方式有以下规律

  • 只要是断裂后的左边片段,那么断裂点总是出现在标识另一片段的左边,断裂的右片段同理
  • 如果两个相接的片段在断裂前分别是一左一右,那么必然是$N[CHR:POS[$$]CHR:POS]N$ 相连
  • 但是如果两个相接的片段在断裂前都是左边的话,那么必然是$N]CHR:POS]$$N]CHR:POS]$ 相连
  • 如果两个相接的片段在断裂前都是右边的话,那么必然是$[CHR:POS[N$$[CHR:POS[N$ 相连

下面是官方文档给的例子

#CHROM POS ID REF ALT QUAL FILTER INFO  
2 321681 bnd W G G]17:198982] 6 PASS SVTYPE=BND
2 321682 bnd V T ]13:123456]T 6 PASS SVTYPE=BND
13 123456 bnd U C C[2:321682[ 6 PASS SVTYPE=BND
13 123457 bnd X A [17:198983[A 6 PASS SVTYPE=BND
17 198982 bnd Y A A]2:321681] 6 PASS SVTYPE=BND
17 198983 bnd Z C [13:123457[C 6 PASS SVTYPE=BND

表头部分分别是:染色体号、变异起始位置、变异ID、参考基因组中的序列、变异的碱基、质量、过滤情况、INFO

第一条变异:G]17:198982] 表示该片段断裂后是左边片段,连接到17号染色体的198982号位置;与之配对的第5个变异,A]2:321681]表示17号染色体这个断裂后也是左边片段,所以与第一条变异的连接

第二条变异:]13:123456]T 表示该片段断裂后是右边片段,连接到13号染色体断裂后的左边片段;与之配对的第三条变异C[2:321682[表示该片段断裂后是左边片段,连接到2号染色体断裂后的右边片段

第四条变异:[17:198983[A表示该片段断裂后是右边片段,连接到17号染色体的198983位置;与之对应的第6个变异,[13:123457[C表示该片段断裂后是右边片段,连接到13号染色体的右边片段

image.png

实际上还有其他情况

  • BND接着insertion
  • Large Insertion
  • Multiple mates
  • et

未完………………