Background: The variant call format (VCF) is currently used to store information on genetic variants. Variant description from the VCF is not unique or standardized. A recent survey indicated that more than half of the clinical laboratories in Korea have not performed VCF normalization procedures in their bioinformatics pipeline during routine analysis. We evaluated the effect of variant normalization on variant nomenclature using two tools.
Methods: Two binary alignment map files (GNG-21-01 and GNG-21-04) and validated variant descriptions (single-nucleotide variations [n=51] and insertions/duplications/deletions [n=13]) were provided by the Korean Association of External Quality Assessment Service. Variant calling and annotation were performed using Torrent Suite and snpEff, respectively. The vt-normalize and Genome Analysis Toolkit (GATK) LeftAlignAndTrimVariants (LAATV) were used to evaluate the effect of VCF normalization.
Results: The accuracy of the nomenclature of un-normalized variants was 99% (63/64); one variant of NM_173630.3(RTTN): c.725_727dupGAG was incorrectly described as c.724_726dupGGA. The variant description was corrected through VCF normalization. The normalization results obtained using vt-normalize and GATK LAATV were comparable.
Conclusions: VCF normalization may not generate completely correct nomenclature but contributes to more accurate annotation of variants. VCF normalization should be introduced into bioinformatics pipelines in clinical laboratories to ensure more reliable annotations of variants.
Keywords: Variant call format, Variant, Normalization, Nomenclature
์๋ก
์ ์ ๋ณ์ด์ ์ ํํ ๋ช ๋ช (nomenclature)์ ์ ์ ์งํ์ ์ง๋จ์ ์ํด ์ค์ํ ๋ฟ๋ง ์๋๋ผ ์์์ ์ ์ฒด๊ฒ์ฌ์ ์ ๋๊ด๋ฆฌ ๋ฐ ํ์คํ ์ธก๋ฉด์์ ํ์์ ์ด๋ค. ๋ถ์ ํํ ๋ณ์ด ๋ช ๋ช ์ผ๋ก ์ธํด ๋ณ์์ฑ ๋ณ์ด(pathogenic variants)๋ฅผ ๋์น ์ ์์ผ๋ฉฐ, ์์ฑ ๋ณ์ด(benign variants)๋ฅผ ์๋ชป ์ ๋ณํ์ฌ ๋ณ์ด ํด์์ ์ค๋ฅ๋ฅผ ์ด๋ํ ์๋ ์๋ค. ๋ฐ๋ผ์ ์์์ ์ ์ฒด๊ฒ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ๊ฑฐ๋ ๋๋ ์ ์ ๋ณ์ด ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ ๋ ํ์คํ๋ ๋ณ์ด ๋ช ๋ช ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๋ค.
Variant call format (VCF)์ ์ฐจ์ธ๋์ผ๊ธฐ์์ด๋ถ์์ ํตํด ์์ฑํ ์ ์ ๋ณ์ด๋ฅผ ๋ณด๊ดํ๋ ํ์ผํํ ์ค ํ๋๋ก, ๋ค์ํ ์ ์ ๋ณ์ด๋ฅผ ํํํ๋ ํ์ค ํ์ผํ์์ด๋ค[1]. VCF์๋ ์ ์ ๋ณ์ด์ ์์น(genomic position), reference allele, alternative allele ๋ฑ์ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ด ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ๋ณ์ด ๋ช ๋ช ์ด ์ด๋ฃจ์ด์ง๋ค. ๊ทธ๋ฐ๋ฐ ๋ค์ค์ผ๊ธฐ๋ณ์ด(multiple-nucleotide polymorphism)์ ๊ฒฝ์ฐ, ๊ฐ์ ๋ณ์ด๋ผ๋ ์ฌ๋ฌ ๋ฐฉ์์ผ๋ก ํํํ ์ ์๊ธฐ ๋๋ฌธ์, ์ฌ๋ฌ VCF ํ์ผ์ ๋น๊ตํ๊ธฐ ์ํด์๋ ํ์คํ๋ ํํ๋ฐฉ์์ด ์์ฒญ๋๋ค(Fig. 1). ์ฌ๋ฌ ๋ฐฉ์์ผ๋ก ํํ๋ ์ ์๋ ๋ณ์ด์ ๋ํด ํธ๋ฆฌ๋ฐ(trimming)๊ณผ ์ ๋ ฌ(alignment) ๊ณผ์ ์ ์ ์ฉํ์ฌ ์๋ก ๋น๊ต ๊ฐ๋ฅํ ํํ๋ก ๋ง๋๋ ๊ณผ์ ์ VCF ์ ๊ทํ(VCF normalization)๋ผ๊ณ ํ๋ค[2-4].
Figure 1. Example of different representations of the same variant. There are several ways for representation of c.5delGGC. The variant call format described in A is generated through the normalization.์ต๊ทผ ๊ตญ๋ด ์์์ ์ ์ฒด๊ฒ์ฌ์ค์ ์๋ฌผ์ ๋ณดํ์ ๋ถ์ ํ์ดํ๋ผ์ธ์ ๋ํ ํํฉ ์กฐ์ฌ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ์ ๋ฐ ์ด์์ ๊ฒ์ฌ์ค(52%, 12/23)์์๋ VCF ์ ๊ทํ๋ฅผ ์ํํ์ง ์๋๋ค๊ณ ๋ณด๊ณ ํ ๋ฐ ์๋ค[5]. ๋ํ VCF ์ ๊ทํ๋ฅผ ์ํํ๋ ๊ฒฝ์ฐ์๋ Genome Analysis Toolkit (GATK) LeftAlignAndTrimVariants (LAATV)์ vt-normalize ํดํท์ ์ด์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๊ฐ๊ฐ 13% (3/23), 22% (5/23)๋ก ํ์ธ๋์๋ค[3-5]. GATK-LAAVT๋ฅผ ์ด์ฉํ๋ ์ ๊ทํ๋ ์ฝ์ /์ค๋ณต/๊ฒฐ์์ ๋ํด์ ์ผ์ชฝ ์ ๋ ฌ์ ์ํํ๋ ๊ณผ์ ๊ณผ ์ค๋ณต์ผ๊ธฐ์์ด์ ๋ํด ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ์์ ํธ๋ฆฌ๋ฐ์ ์ํํ๋ ๊ณผ์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค[3]. ๋ํ vt-normalize์ ์ํ ์ ๊ทํ๋ ์ฝ์ /์ค๋ณต/๊ฒฐ์์ ๋ํ ์ ๋ ฌ๊ณผ ์์ธก ํธ๋ฆฌ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ค๋ ์ ์์ GATK-LAAVT์ ์ ์ฌํ์ง๋ง, ๋ณตํฉํ ๋ณ์ด์ ๋ํด์๋ ์ผ์ชฝ ์ ๋ ฌ์ ์ํํ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์๋ค[4].
๋ณธ ์ฐ๊ตฌ์์๋ VCF ์ ๊ทํ ์ํ ์ฌ๋ถ์ ๋ฐ๋ผ ์ ์ ๋ณ์ด ๋ช ๋ช ์ ์ ํ๋๊ฐ ๋ฌ๋ผ์ง๋์ง ํ๊ฐํ๊ณ ์ ํ๋ค. ์ด๋ฅผ ํตํด ์์์ ์ ์ฒด๊ฒ์ฌ์ค ๋ถ์ํ์ดํ๋ผ์ธ์ VCF ์ ๊ทํ ๊ณผ์ ๋์ ์ ํ์์ฑ์ ํ์ธํ๊ณ , ์์์ ์ ์ฒด๊ฒ์ฌ์ ์ ๋๊ด๋ฆฌ ๋ฐ ์ ํ๋ ๊ฐ์ ์ ๊ธฐ์ฌํ๊ณ ์ ํ๋ค.
์ฌ๋ฃ ๋ฐ ๋ฐฉ๋ฒ
๋ํ์์๊ฒ์ฌ์ ๋๊ด๋ฆฌํํ๋ก๋ถํฐ ์ ์ ๋ณ์ด(๋จ์ผ์ผ๊ธฐ๋ณ์ด[n=51], ์ฝ์ /์ค๋ณต/๊ฒฐ์[n=13]) ์ ๋ณด๊ฐ ๊ฒ์ฆ๋ binary alignment map (2021๋ ์ ๋น๋์กฐ์ฌ GNG-21-01, GNG-21-04; Thermo Fisher Scientific, Waltham, MA, USA) ํ์ผ์ ํ๋ํ์ฌ Torrent Suite ver. 5.10 ์ํํธ์จ์ด(Thermo Fisher Scientific)๋ฅผ ์ด์ฉํ์ฌ VCF ํ์ผ์ ์์ฑํ์๋ค. snpEff (v4_3_GRCh37.p13.RefSeq; http://pcingola.github.io/SnpEff/)๋ฅผ ์ด์ฉํ์ฌ Human Genome Variation Society ๊ถ์ฅ์ฌํญ์ ๋ฐ๋ผ ์ผ๊ธฐ๋ณ์ด๋ฅผ ๊ธฐ์ ํ์๊ณ , vt-normalize์ GATK LAATV (GATK ver. 4.1.2.0; Broad Institute, Cambridge, MA, USA)๋ฅผ ์ด์ฉํ์ฌ VCF ์ ๊ทํ๋ฅผ ์ํํ์๋ค[3,4,6]. ๋ํ์์๊ฒ์ฌ์ ๋๊ด๋ฆฌํํ๋ก๋ถํฐ ์ ๋ณด๊ฐ ๊ฒ์ฆ๋์ง ์์ ๋ณ์ด์ ๋๋ฆฝ์ ์ ์ ๋น๋๊ฐ 15% ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ์ predicted mRNA ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ๋๋ ๊ฒฝ์ฐ๋ ๋ณ์ด ๋ถ์๋์์์ ์ ์ธํ์๋ค. ๊ฒ์ฆ๋ ๋ณ์ด 64๊ฐ์ ๋ํด ์ ๊ทํ๋ฅผ ์ํํ์ง ์๊ณ ์์ฑํ ๋ณ์ด ๋ช ๋ช ๊ณผ VCF ์ ๊ทํ ์ํ ํ ์์ฑํ ๋ณ์ด ๋ช ๋ช ์ ๋น๊ตํ์ฌ ์ ํ๋ ์ฐจ์ด๊ฐ ์๋์ง ๋น๊ตํ์๋ค. ๋ณ์ด์ ํํ๋ integrative genomics viewer (IGV)๋ฅผ ํตํด ์๊ฐ์ ์ผ๋ก ํ์ธํ์๋ค.
๊ฒฐ๊ณผ
์ ์ฒด 937๊ฐ์ ๋ณ์ด(๋จ์ผ์ผ๊ธฐ๋ณ์ด[n=822], ์ฝ์ /์ค๋ณต/๊ฒฐ์[n=115])๋ฅผ ์์ฑํ์์ผ๋ฉฐ, VCF ์ ๊ทํ ๊ณผ์ ์ ํตํด ๋๋ต 1.0% (n=9/937) (vt-normalize ๋จ๋ : 0.9% [8/937], GATK LAATV ๋จ๋ : 0.9% [8/937], vt-normalize์ GATK LAATV: 0.7% [7/937])์ ๋ณ์ด ๋ช ๋ช ์ด ๋ฌ๋ผ์ง๋ ๊ฒ์ ํ์ธํ์๋ค. ์ ๊ทํ ๋ฐฉ๋ฒ ์ฐจ์ด(vt-normalize vs. GATK LAATV)๋ก ์ธํด ๋ช ๋ช ์ด ๋ฌ๋ผ์ง๋ ๋ณ์ด๋ 2๊ฐ๋ก ํ์ธ๋์๋ค(Table 1).
Table 1 . Variant nomenclature changed based on the results of variant call format normalization.
ChrPositionRefAltGeneTranscriptPre-normalizationGATK LAATVvt-normalizeValidationchr5 | 74021847 | ACTCAAA | A | PYGL | NM_001281302.1 | c.1921_1926delTTTGAG | c.1922_1927delTTGAGT | c.1922_1927delTTGAGT | No |
chr14 | 51375699 | TA | TAA | PIEZO1 | NM_002863.4 | c.2178-28dupT | c.2178-27dupT | c.2178-27dupT | No |
chr16 | 88793089 | CA | CG | PIEZO1 | NM_001142864.2 | c.3699+33T>C | c.3699+33T>C | c.3699+33_3699+ 34delTGinsCC | No |
chr18 | 67863851 | C | CTCC | RTTN | NM_173630.3 | c.724_726dupGGA | c.725_727dupGAG | c.725_727dupGAG | Yes |
chr2 | 179634391 | TATT | TT | TTN | NM_001267550.1 | c.8902+13_8902+ 14delAT | c.8902+28_8902+ 29delTA | c.8902+13_8902+ 14delAT | No |
chr6 | 65016997 | AGA | A | EYS | NM_001142800.1 | c.6079-24_6079- 23delTC | c.6079-4_6079-3delTC | c.6079-4_6079-3delTC | No |
chr6 | 70983674 | ATAAA | A | COL9A1 | NM_001851.4 | c.1065+72_1065+ 75delTTTA | c.1065+102_1065+ 105delTATT | c.1065+102_1065+ 105delTATT | No |
chr11 | 86658278 | ACAA | A | FZD4 | NM_012193.3 | c.*3903_*3905delTTG | c.*3908_*3910delGTT | c.*3908_*3910delGTT | No |
chrX | 31165667 | AAAAGAAAGAA | AAAAGAA | DMD | NM_004006.2 | c.10554-42_10554- 39delTTCT | c.10554-36_10554- 33delCTTT | c.10554-36_10554- 33delCTTT | No |
Abbreviations: Chr, chromosome; Ref, reference allele; Alt, alternative allele; GATK, Genome Analysis Toolkit; LAATV, LeftAlignAndTrimVariants..
๊ฒ์ฆ๋ 64๊ฐ์ ๋ณ์ด๋ง์ ๋์์ผ๋ก ๋ถ์ํ์ ๋, ์ ๊ทํ ์ํ ์ ์์ฑ๋ ๋ณ์ด ๋ช ๋ช ์ ์ค๋ฅ๋ 1.6% (1/64: ๋จ์ผ์ผ๊ธฐ๋ณ์ด[n=0/51], ์ฝ์ /์ค๋ณต/๊ฒฐ์[n=1/13])๋ก ํ์ธ๋์๋ค. ์ ๊ทํ ์ํ ์ ๋ณ์ด ๋ช ๋ช ์์ ์ค๋ฅ๋ฅผ ๋ณด์ธ ๋ณ์ด NM_173630.3(RTTN): c.724_726dupGGA๋ ์ ๊ทํ ์์ ์ ํตํด NM_173630.3(RTTN): c.725_727 dupGAG๋ก ๊ต์ ๋์๋ค(Table 1). ์ด ๋ณ์ด๋ IGV๋ฅผ ํตํด ์ง์ ํ์ธํ์ ๋ NM_173630.3(RTTN): c.725_727dupGAG๋ก ๋ช ๋ช ๋์๋ค. 64๊ฐ์ ๊ฒ์ฆ๋ ๋ณ์ด ๋ช ๋ช ์์ ์ ๊ทํ ๋ฐฉ๋ฒ(vt-normalize vs. GATK LAATV)์ ๋ฐ๋ฅธ ์ฐจ์ด๋ ๊ด์ฐฐ๋์ง ์์๋ค.
๊ณ ์ฐฐ
๋ณธ ์ฐ๊ตฌ์์๋ VCF ์ ๊ทํ์ ํ์์ฑ์ ํ์ธํ๊ธฐ ์ํด vt-normalize์ GATK LAATV๋ฅผ ์ด์ฉํ์ฌ VCF ์ ๊ทํ๋ฅผ ์ํํ์ฌ ๋ณ์ด ๋ช ๋ช ์ ๋ฏธ์น๋ ์ํฅ์ ํ๊ฐํ์๋ค[3,4]. VCF ์ ๊ทํ ๊ณผ์ ์ ์ ์ฉ์ ํตํด ๋ช ๋ช ์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ๋ณ์ด์ ๋น์จ์ ์๋์ ์ผ๋ก ๋ฎ์ง๋ง, ์ ๊ทํ ์ํ ์ ์ค๋ฅ๋ฅผ ๋ณด์๋ ๋ณ์ด ๋ช ๋ช ์ด ์ ๊ทํ ์ ์ฉ์ ํตํด ์ ํํ๊ฒ ๊ต์ ๋ ๊ฒฐ๊ณผ๋ ์ฃผ๋ชฉํ ๋งํ๋ค. VCF ์ ๊ทํ๋ ์ ํํ ๋ณ์ด ๋ช ๋ช ์ ์์ฑํ๊ธฐ ์ํ ๊ณผ์ ์ด ์๋์๋ ๋ถ๊ตฌํ๊ณ , ์ฌ๋ฌ ๋ฐฉ์์ผ๋ก ํํ๋ ์ ์๋ ๋ณ์ด์ ๋ช ๋ช ์ ํ๋์ ๋ฐฉ์์ผ๋ก ํํํ๋ ๊ณตํต๋ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ์ ํตํด ๋ณ์ด์ ์ ํํ ๋ช ๋ช ์ ๊ธฐ์ฌํ๋ ๊ฒ์ผ๋ก ์ถ์ ๋๋ค.
์ ๊ทํ ๋ฐฉ๋ฒ์ ์ฐจ์ด์ ๋ฐ๋ผ ๋ช ๋ช ์ด ๋ฌ๋ผ์ง๋ ๋ณ์ด์ ๋น๋๋ 1.0% (n=9/937)๋ก ํ์ธ๋์๋ค. ๋ํ ๊ฒ์ฆ๋ 64๊ฐ์ ๋ณ์ด๋ง์ ๋์์ผ๋ก ๋ถ์ํ์ ๋ ์ ๊ทํ ๋ฐฉ๋ฒ(vt-normalize vs. GATK LAATV)์ ๋ฐ๋ฅธ ์ฐจ์ด๋ ์์๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด vt-normalize๋ฅผ ํตํด ์ ๊ทํ๋๋ ์ฝ์ /์ค๋ณต/๊ฒฐ์์ ๋น๋๋ GATK LAATV๋ณด๋ค 3.4% ๋ ๋ง์ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋ ๋ฐ ์๋ค[2]. ๋ณธ ์ฐ๊ตฌ์์๋ ๋์ ๋ณ์ด์ ๊ฐ์๊ฐ ์ ์ ๋ฟ๋ง ์๋๋ผ ์ ๊ทํ ํจ๊ณผ(effectiveness)๋ฅผ ํ๊ฐํ์ฌ ๋ฐฉ๋ฒ์ ๋ฐ๋ฅธ ๋ถ์ผ์น(disagreement)์ ์ ๋๋ฅผ ๋น๊ตํ ๊ฒ์ด ์๋๋ฏ๋ก, ๋ณธ ์ฐ๊ตฌ๊ฒฐ๊ณผ์ ๊ธฐ์กด ์ฐ๊ตฌ๊ฒฐ๊ณผ์ ์ง์ ์ ์ธ ๋น๋ ๋น๊ต๋ ์ ์ ํ์ง ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ VCF ์ ๊ทํ ์์ ์ด ๋ณ์ด ๋ช ๋ช ์ ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋์ ๋ณ์ด์ ๊ฐ์๊ฐ 64๊ฐ์ ๋ถ๊ณผํ๋ค๋ ์ ์์ ํ๊ณ๊ฐ ์๋ค. ๋ํ ๋ค์ํ ๋จ์ผ์ผ๊ธฐ๋ณ์ด์ ์ฝ์ /์ค๋ณต/๊ฒฐ์์ ํฌํจํ์์์๋ ๋ถ๊ตฌํ๊ณ horizontally complex variant์ vertically complex variant์ ๊ฐ์ ๋ณตํฉํ ๋ณ์ด์ ๋ช ๋ช ์ ๋ํด์๋ ํ๊ฐํ์ง ๋ชปํ๋ค. ์ฝ์ /์ค๋ณต/๊ฒฐ์์ ๋ํด์๋ง ์ ๋ ฌ๊ณผ์ ์ ์ํํ๋ GATK-LAAVT์ ๋ฌ๋ฆฌ vt-normalize๋ ๋ณตํฉํ ๋ณ์ด์ ๋ํด์๋ ์ ๋ ฌ์ํค๋ ๊ณผ์ ์ด ํฌํจ๋์ด ์์ผ๋ฏ๋ก ์ถํ์๋ ๋ณตํฉํ ๋ณ์ด๋ฅผ ํฌํจํ์ฌ vt-normalize์ GATK LAATV์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋น๊ตํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค[3,4].
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋ณธ ์ฐ๊ตฌ๋ ๊ตญ๋ด ์์์ ์ ์ฒด๊ฒ์ฌ์ค์ ์ ๋ฐ ์ด์์์ ์ํํ์ง ์๋ VCF ์ ๊ทํ ๋์ ์ ํ์์ฑ์ ์ ์ํ๋ ๊ทผ๊ฑฐ ์๋ฃ๋ฅผ ์์ฑํ๋ค๋ ์ ์์ ์์๊ฐ ์๋ค. VCF ์ ๊ทํ ๊ณผ์ ์ ํตํด ์ ํํ ๋ณ์ด ๋ช ๋ช ์ ๋ณด์ฅํ ์ ์๋ ๊ฒ์ ์๋๋ผ๋ ์ฌ์ค ๋ํ ์ฃผ์งํ ํ์๊ฐ ์๋ค. ์ ํํ ๋ณ์ด ๋ช ๋ช ์ ์ ๊ณตํ๊ธฐ ์ํด์๋ VCF ์ ๊ทํ ๊ณผ์ ๊ณผ ๋ณ๋๋ก IGV๋ฅผ ํตํ ๋ณ์ด์ ํํ ํ์ธํ๊ณ , Mutalyzer (https://mutalyzer.nl/), VariantValidator (https://variantvalidator.org/), ๋๋ VarSome (https://varsome.com/) ๋ฑ์ ํตํด ๋ณ์ด ๋ช ๋ช ์ ์ฌํ์ธํ๋ ๊ณผ์ ์ด ์๋ต๋์ด์๋ ์ ๋๋ค. ์ถํ VCF ์ ๊ทํ ๊ณผ์ ์ ์ต์ ํ ๋ฐ ๋์ ์ ํตํด Sanger ์ผ๊ธฐ์์ด๋ถ์์ ํตํ ๋ณ์ด ๊ฒ์ฆ์ ๋น์ฉ์ ์ ๊ฐํ๋ฉด์๋ ์์์ ์ ์ฒด๊ฒ์ฌ์ ์ ๋๊ด๋ฆฌ ๋ฐ ์ ํ๋ ๊ฐ์ ์ ๊ธฐ์ฌํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.