Cell QC는 이후 분석에서 기술적 노이즈를 최소화하고, 생물학적으로 의미 있는 신호를 정확히 포착하기 위한 핵심적인 전처리 단계입니다.
하지만 다음과 같은 여러 가지 challenge가 존재합니다
샘플의 통계 지표를 고려해 QC 기준을 설정해야 하므로 분석자의 주관이 개입될 수 있음
이상적인 QC 패턴과 다른 샘플의 경우, 적절한 기준을 정하기 어려움
biological replicate나 조건이 다른 여러 샘플을 동시에 분석해야 할 경우, 일관된 기준을 적용하기 어려움
이러한 문제를 해결하기 위해 테라젠바이오에서는 Dropkick이라는 도구를 활용해 cell QC 자동화를 구현하고 있습니다.
▲그림1. Dropkick의 cell QC 및 분류 과정 [출처 1]
그림1은 dropkick이 scRNA-seq 데이터에서 barcodes를 유전자 수(n_genes)를 기준으로 초기 라벨링한 뒤, 로지스틱 회귀(logistic regression) 모델을 통해 고차원 유전자 공간에서 세포일 확률(cell score)을 계산하는 과정을 보여줍니다. 이를 통해 단순 thresholding으로 분리하기 어려운 세포와 empty droplet을 더 정밀하게 구분할 수 있습니다.
Dropkick은 logistic regression 기반의 기계학습 모델로 세포와 empty droplet을 구분하며, 다음과 같은 주요 장점을 갖습니다.
수동 thresholding 없이 자동으로 기준값(threshold)을 설정하여, 별도의 수동 QC 없이도 신뢰도 높은 세포 분류가 가능함
cross-validation 기반의 regularization(정규화) 기법을 적용해 모델의 일반화 성능을 높이고, 특정 샘플에 치우친 분류를 방지함
다양한 조건의 샘플이나 데이터 세트에도 유연하게 적용 가능한 높은 범용성 보유
즉, Dropkick을 활용하면 분석자의 주관 개입을 줄이면서도, 여러 샘플 간 일관된 기준을 유지하고 정교한 QC 수행이 가능합니다.
2️⃣ Cell Type Annotation(세포 유형 주석)
Single cell RNA sequencing(scRNA-seq) 분석에서 cell type annotation(세포 유형 주석)은 데이터 해석의 방향을 결정짓는 가장 핵심적인 단계입니다.
테라젠바이오는 많은 연구자들에 의해 validation 이 완료된 Human 및 Mouse 기반 세포 마커 데이터베이스를 바탕으로, scoring 방식의 정밀한 cell type annotation 서비스를 제공하고 있습니다.
(Human : Sctype DB / Mouse : Panglao DB)
하지만 Human 및 Mouse와 같이 잘 정립된 종(species) 외의 생물체에 대해서는, 공신력 있는 마커 유전자 정보가 부족해 annotation 정확도에 한계가 존재할 수 있습니다.
이를 보완하기 위해 테라젠바이오는 GPT-4 기반의 자동화 annotation 툴인 GPTCelltype을 도입하였습니다.
해당 도구는 마커 유전자 리스트만으로도 다양한 종의 세포 유형을 신속하고 정확하게 예측할 수 있어, 비모델 생물종 또는 마커 정보가 부족한 샘플에서도 효과적인 cell type annotation이 가능합니다.
▲그림2. GPT-4 기반 cell type annotation 결과의 정확도[출처 2]
그림2 (b) : 다양한 조직(tissue), 세포 유형(cell type), 그리고 데이터 조건에 따라 GPT-4 기반 cell type annotation의 정확도를 시각화한 것입니다. 대부분의 조직에서 GPT-4가 생성한 annotation은 manual annotation 결과와 높은 수준의 일치도를 보였습니다.
그림2. (d) : 다양한 scRNA-seq 데이터셋을 대상으로 GPT-4와 기존 cell type annotation 도구(SingleR, ScType, CellMarker2.0)의 성능을 비교한 heatmap입니다. GPT-4가 기존 도구들보다 훨씬 높은 정확도와 일관성을 가지고 다양한 scRNA-seq 데이터셋에 적용 가능함을 보여줍니다.
Human 및 Mouse 종이라고 하더라도 scRNA-seq 을 통한 많은 연구가 이루어지지 않은 조직 유래 샘플일 경우 annotation 결과가 좋지 않을 수 있어, 이럴 경우에는 모델종이라고 하더라도 GPTcelltype을 사용하는것이 더 효과적일 수 있습니다.
💡 테라젠바이오의 차별화된 single cell RNA sequencing 분석 서비스를 이용해보세요!
Cell QC(세포 품질 평가)와 Cell Type Annotation(세포 유형 주석)은 scRNA-seq 분석의 핵심 단계로, 생물학적으로 의미 있는 신호를 포착하고 전체 데이터 해석의 방향을 결정짓는 중요한 과정입니다. 이처럼 분석의 정확성과 신뢰도를 좌우하는 핵심 단계에서 차별화된 접근을 제공하는 테라젠바이오의 scRNA-seq 서비스를 경험해보세요!