理解结构变异BED在VCF中的描述
结构变异种类
- INFO字段: SVTYPE
| value | meaning |
|---|---|
| DEL | deletion |
| DUP | duplication |
| INS | insertion |
| INV | inversion |
| CNV | copy number variation |
| BND | breakend |
结构变异在VCF文件中具体描述
普通的变异都好理解,只是BND有点麻烦
ALT中会出现的四种情况
| ALT | meaning |
|---|---|
| N]chr:pos] | 当前染色体是断裂染色体的左边部分、N是断裂点、从N开始向右延伸至与染色体chr的pos位置断点连接 |
| ]chr:pos]N | 当前片段是断裂染色体的右边一半、N是断裂点,从N开始左边与染色体chr的pos位置断裂的片段接上,N所在的片段还是充当右边片段,接上的另一片段充当左边部分 |
| N[chr:pos[ | 当前片段是断裂染色体的左边的一半,所以N就是断裂点,从该位置向右与染色体chr的pos位置接上,即接上后该片段仍充当左边,接上的另一片段就充当右边部分 |
| [chr:pos[N | 当前染色体的N,染色体断裂后右边那条的断裂点,所以从N开始,将另一条的chr断裂的pos处接到N的左边,替换掉左边断掉的 |
总结上述四种变异的组织方式有以下规律
- 只要是断裂后的左边片段,那么断裂点总是出现在标识另一片段的左边,断裂的右片段同理
- 如果两个相接的片段在断裂前分别是一左一右,那么必然是$N[CHR:POS[$ 和 $]CHR:POS]N$ 相连
- 但是如果两个相接的片段在断裂前都是左边的话,那么必然是$N]CHR:POS]$ 和 $N]CHR:POS]$ 相连
- 如果两个相接的片段在断裂前都是右边的话,那么必然是$[CHR:POS[N$ 和 $[CHR:POS[N$ 相连
下面是官方文档给的例子
| #CHROM | POS | ID | REF | ALT | QUAL | FILTER | INFO | |
|---|---|---|---|---|---|---|---|---|
| 2 | 321681 | bnd | W | G | G]17:198982] | 6 | PASS | SVTYPE=BND |
| 2 | 321682 | bnd | V | T | ]13:123456]T | 6 | PASS | SVTYPE=BND |
| 13 | 123456 | bnd | U | C | C[2:321682[ | 6 | PASS | SVTYPE=BND |
| 13 | 123457 | bnd | X | A | [17:198983[A | 6 | PASS | SVTYPE=BND |
| 17 | 198982 | bnd | Y | A | A]2:321681] | 6 | PASS | SVTYPE=BND |
| 17 | 198983 | bnd | Z | C | [13:123457[C | 6 | PASS | SVTYPE=BND |
表头部分分别是:染色体号、变异起始位置、变异ID、参考基因组中的序列、变异的碱基、质量、过滤情况、INFO
第一条变异:G]17:198982] 表示该片段断裂后是左边片段,连接到17号染色体的198982号位置;与之配对的第5个变异,A]2:321681]表示17号染色体这个断裂后也是左边片段,所以与第一条变异的连接
第二条变异:]13:123456]T 表示该片段断裂后是右边片段,连接到13号染色体断裂后的左边片段;与之配对的第三条变异C[2:321682[表示该片段断裂后是左边片段,连接到2号染色体断裂后的右边片段
第四条变异:[17:198983[A表示该片段断裂后是右边片段,连接到17号染色体的198983位置;与之对应的第6个变异,[13:123457[C表示该片段断裂后是右边片段,连接到13号染色体的右边片段

实际上还有其他情况
- BND接着insertion
- Large Insertion
- Multiple mates
- et
未完………………