이 연구는 기존의 단일염기변이(SNV) 중심의 short-read genome sequencing로는 구조변이 분석에 한계가 있어, 이를 극복하고자 PacBio Revio 기반의 HiFi long-read sequencing을 이용하여 염색체 구조변이를 고해상도로 분석하고 임상 진단에 활용 가능성을 탐색 하였습니다.
연구방법)
이 연구는 스웨덴 전역의 희귀질환 환자 13가족(총 16명)을 대상으로 PacBio Revio 시스템을 활용한 HiFi Long-Read Genome sequencing을 수행하여 구조변이(SV)를 정밀 분석한 파일럿 프로젝트입니다. 샘플은 병원 표준 방식으로 추출된 DNA와 일부 고분자 DNA를 포함하며, 각 샘플은 25M SMRT Cell 하나로 20X 이상의 커버리지와 15–20kb 길이의 리드를 확보했습니다. 분석에는 스웨덴 Genomic Medicine Sweden(GMS)에서 개발한 오픈소스 파이프라인 ‘Nallo*’가 사용되었습니다.
아래는 대표 figure 중 일부를 발췌해 소개해드립니다.
*Nallo 파이프라인
: Nallo pipeline은 스웨덴의 GMS-RD(Genomic Medicine Sweden – Rare Diseases) 프로젝트에서 희귀질환 진단을 위한 long-read genome sequencing 분석을 표준화하고 공유하기 위해 개발된 공통 분석 파이프라인입니다.
▲ 그림 1. Long-Read Genome sequencing을 통해 검출된 전좌(translocations)와 역위(inversions)
그림 1은 PacBio HiFi Long-Read Genome sequencing을 통해 검출된 전좌(translocations)와 역위(inversions) 변이 사례 4가지를 Circos plot 형식으로 시각화한 것 입니다.
(P1) 4번 염색체와 9번 염색체 간의 전좌(translocation)
: 두 염색체 사이의 연결선은 재배열을 나타내며, 복제 증감은 녹색(증가)과 빨간색(감소)으로 표시됨
(P7.1 & P7.3) 1번과 10번 염색체 전좌(translocation), 2번 염색체 역위(inversion)
: 모녀가 동일한 변이를 보유. 전좌(translocation)로 인해 SORBS1, TMCO4, ANKAR 유전자가 영향을 받음
(P9) X염색체와 9번 염색체 간 전좌
: T2T-CHM13 레퍼런스를 사용했을 때만 검출 가능했던 구조변이로, 기존 GRCh38에서는 놓쳤던 사례
(P12) 1, 4, 6번 염색체 간의 복합 전좌
: 총 4개의 절단점(BPJ)과 함께 13.8Mb 결실(4번 염색체) 및 1.2Mb 결실(6번 염색체)도 동반된 복잡한 구조변이
▲ 그림 2. Long-Read Genome sequencing을 통해 확인된 복잡한 염색체 재배열 사례
그림 2는 PacBio HiFi Long-Read Genome sequencing을 통해 확인된 복잡한 염색체 재배열 사례(P4, P5)를 Subway Plot 형태로 시각화한 것 입니다.
(위쪽 패널) P4 – Chromosome 2p 재배열
정상 염색체 2p (Chr 2p)는 A–I 구간으로 나뉘며, 기준 배열을 보여줌
여러 개의 삽입과 반복 구조가 결합된 매우 복잡한 구조 - DUP–TRIP–QUAD–TRIP–DUP–DEL 패턴 - 중복과 삼중, 사중 복제 구간이 서로 엉켜 있으며, 마지막에는 일부 구간이 결실됨
Chr 2p der (유도 염색체)는 이 재조합 결과로 형성된 변형 염색체 구조를 보여줌 - 역방향 화살표는 역위(inversion) 발생 구간을 나타냄
(아래쪽 패널) P5 – Chromosome 3 재배열
정상 염색체 3 (Chr r3)는 A–I 구간으로 나뉘며 기준 배열을 보여줌
이 구조는 다음과 같은 복잡한 변화로 구성됨 - DEL–INV–NML–DUP–NML–DUP 구조 - 일부 구간이 삭제되거나(빨간색), 역위(화살표)되거나, 반복 삽입됨
Chr 3 der는 위 구조적 변화를 통해 재조합된 염색체를 시각화한 결과
그림1과 그림2는 long-read 기반 분석이 기존 short-read에서는 검출이 어려운 복잡하고 다중적인 염색체 재배열 구조를 효과적으로 파악할 수 있고, 어떻게 시각적으로 파악 가능한지 보여줍니다. 특히, 전통적인 염기서열 분석으로는 놓칠 수 있는 임상적 유의미 변이를 포착하는 데 매우 유용함을 보여줍니다.
이 연구는PacBio HiFi 기반 long-read genome sequencing이 복잡한 구조변이(SV)를 정밀하게 해석할 수 있음을 보여주며, 희귀질환 진단의 임상 적용 가능성을 입증했습니다. 총 16건 중 13건의 SV를 염기 수준에서 분석했고, 일부는 반복서열 또는 모자이크 특성으로 long-read genome sequencing 단독 분석에 한계가 있음을 확인했습니다. 이 결과는 high read depth 기반 CNV 분석을 반드시 병행해야 함을 강조했으며, optical mapping이나 pangenome 분석 같은 보완적 접근이 필요할 수 있음을 시사했습니다. 또한, 본 연구에서는 nallo 파이프라인을 활용하여 다양한 SV 형성 매커니즘(Alu 반복서열 매개, NAHR, FoSTeS/MMBIR 등)도 확인하였으며, 기존 파이프라인 분석 결과보다 더 복잡한 유전체 구조를 밝혀냈습니다.
▲ 그림 3. 5년 내 Long-Read Genome sequencing을 전국 단위로 임상 도입하기 위한 계획
스웨덴은 이를 바탕으로 5년 내 Long-Read Genome sequencing을 전국 단위로 임상 도입하기 위한 계획을 수립 중이며, 이를 위해 DNA 추출부터 분석·해석까지의 자동화 및 표준화, 국가 레퍼런스 데이터베이스 구축, 시각화 도구 개선, 메틸레이션 분석 역량 강화 등이 필요하다고 제안하며 논문을 마무리하고 있습니다.
💡 테라젠바이오 Long Read Sequencing
복잡한 염색체 재배열을 정밀하게 분석할 수 있는 Long Read Genome Sequencing이 현재 테라젠바이오에서 프로모션 중입니다!
그 동안 short read sequencing으로는 확인하지 못했던 복잡한 구조 변이들을 저렴한 기회로 이용해보세요!