카테고리 없음

RNA-Seq 분석의 단계별 과정: 유전자 발현을 정량화하는 정밀 분석의 길

10051005ns 2025. 3. 27. 21:20

1. 서론: 유전자 발현 분석의 진화

세포가 특정한 기능을 수행할 수 있는 이유는 유전체 안에 존재하는 수많은 유전자 중 일부가 활성화되기 때문이다. 이 활성화된 유전자는 전사 과정을 거쳐 RNA로 전환되며, 이후 번역되어 단백질을 만들어낸다. 따라서 RNA의 양과 종류를 측정하는 것은 세포 상태, 조직 기능, 질병 발생과 같은 생물학적 현상을 이해하는 핵심 방법 중 하나다.
과거에는 마이크로어레이 기술이 주로 사용되었지만, 해상도와 정확도, 유연성에서 한계가 있었다. 이를 극복한 기술이 바로 RNA 시퀀싱(RNA-Seq)이며, 이 방법은 차세대 시퀀싱(Next Generation Sequencing, NGS) 기술을 이용해 전사체 전체의 RNA를 정량적이고 정확하게 분석할 수 있게 한다.
본 글에서는 RNA-Seq의 전체 분석 흐름을 단계별로 설명하며, 각 단계에서 주의할 점과 활용되는 기술, 도구들에 대해 상세히 다루고자 한다.


2. 실험 준비: 샘플 수집과 RNA 추출

RNA-Seq 분석은 시작부터 신중해야 한다. 가장 먼저 수행해야 할 단계는 세포 또는 조직으로부터 총 RNA(total RNA)를 추출하는 것이다. 이 과정에서 RNA의 양뿐만 아니라 순도와 무결성(RNA Integrity)이 매우 중요하다. RNA는 매우 불안정한 분자로, RNase에 쉽게 분해되기 때문에 실험 전반에 걸쳐 철저한 RNase-free 환경이 필요하다.

RNA 추출 후에는 농도 측정(Nanodrop, Qubit 등)과 품질 검증(Bioanalyzer 또는 TapeStation)을 통해 RNA Integrity Number(RIN)를 확인하며, 일반적으로 RIN 값이 7 이상일 때 고품질 RNA로 간주한다. 만약 특정 세포 유형의 RNA만 분석하고자 할 경우, 레이저 미세절제 기술(Laser Capture Microdissection)을 사용하거나 세포 분류 후 RNA를 추출할 수도 있다.


3. 라이브러리 준비: mRNA 선택 및 cDNA 합성

RNA-Seq 분석의 두 번째 단계는 라이브러리(library) 제작이다. 이 단계에서 RNA를 시퀀싱 가능한 형태로 변환하게 된다. 가장 보편적인 RNA-Seq은 mRNA만을 분석하는 방식이므로, total RNA 중에서 poly-A tail을 가진 mRNA만을 선택한다. 이를 위해 poly-T 비드(beads)를 이용해 mRNA를 선택적으로 포획하거나, rRNA 제거 키트를 이용해 다른 RNA를 제거하는 방식이 활용된다.

선택된 mRNA는 역전사(reverse transcription) 과정을 거쳐 cDNA(상보적 DNA)로 변환되며, 이후 단편화(fragmentation), 말단 수식(end repair), 어댑터(adaptor) 연결, PCR 증폭의 단계를 거친다.
이 모든 과정을 통해 만들어진 cDNA는 시퀀싱 플랫폼(주로 Illumina)에 맞게 구성된 시퀀싱 라이브러리가 된다.

이 단계에서 주의할 점은 어댑터 중복 제거, PCR 바이어스 최소화, 고유 분자 식별자(UMI, Unique Molecular Identifier) 활용 등이다. 특히 UMI는 후속 데이터 분석 시 중복 리드 제거와 정량 정확도 향상에 큰 도움이 된다.


분자생물학

4. 시퀀싱: 염기서열 데이터 생성

라이브러리가 준비되면, 이제 시퀀싱을 통해 염기서열 데이터를 생성한다. RNA-Seq에서는 일반적으로 Illumina 플랫폼이 가장 많이 사용되며, 고정밀 단독 리드(single-end) 혹은 양방향 리드(paired-end) 방식으로 시퀀싱이 수행된다.

양방향 리드는 하나의 cDNA 조각의 양 끝에서 시퀀싱을 수행하기 때문에, 전사체 조립이나 스플라이싱 분석 등에 더 유리하다. 시퀀싱의 깊이(depth)는 분석 목적에 따라 달라지는데, 일반적으로 유전자 발현 정량이 목적이라면 10~30 million reads, 대체 스플라이싱 탐색까지 필요하다면 50~100 million reads 수준의 데이터를 생성한다.

시퀀싱 결과물은 FASTQ 형식의 파일로 출력되며, 각 리드의 염기서열과 함께 품질 점수(Q score)가 포함되어 있다. 이 품질 점수는 후속 분석에서 낮은 품질의 데이터를 제거하거나 가중치를 부여하는 데 사용된다.


5. 전처리: 품질 평가 및 클린 데이터 확보

생성된 FASTQ 파일은 바로 분석에 사용되지 않고, 먼저 품질 평가(quality control, QC)와 전처리 과정을 거쳐야 한다. 이를 통해 분석 정확도를 높이고 오류를 최소화할 수 있다.

가장 널리 사용되는 품질 평가 도구는 FastQC이며, 이를 통해 염기별 품질 분포, GC 비율, 어댑터 오염 여부 등을 확인할 수 있다. 이후 Trimmomatic, Cutadapt 등의 도구를 이용해 저품질 리드, 어댑터 서열, 너무 짧은 조각 등을 제거한다.

이 과정은 단순히 데이터를 정리하는 절차가 아니라, 잘못된 결과를 예방하고 분석의 신뢰도를 높이는 핵심 단계다. 특히 어댑터 오염이 심하거나 Q-score가 낮은 리드는 반드시 제거해야 한다.


6. 리드 정렬: 기준 유전체에 매핑

전처리가 끝난 클린 데이터는 이제 기준 유전체(reference genome)에 정렬(mapping)하는 과정을 거친다. 이는 각 리드가 어느 유전자에서 유래한 것인지를 확인하는 과정이다.

이 단계에서 널리 사용되는 정렬 도구로는 STAR, HISAT2, TopHat 등이 있으며, 이들은 RNA의 스플라이싱 특성을 반영할 수 있도록 설계되어 있다. DNA 정렬과 달리, RNA는 엑손-인트론 구조를 가지기 때문에, 정렬 프로그램은 이 분할 구조를 인식하고 정확한 위치에 리드를 배치해야 한다.

정렬이 완료되면 SAM/BAM 파일로 결과가 저장되며, 이후 SamtoolsPicard 등을 사용해 정렬 품질 확인, 중복 제거, 정렬 통계 등을 확인한다.


7. 정량화: 유전자별 발현량 계산

정렬이 완료되면, 각 유전자에서 발생한 리드의 수를 세어 발현량을 정량화하는 단계가 진행된다.
이때 사용되는 대표적인 도구로는 HTSeq-count, featureCounts, Salmon, Kallisto 등이 있으며, 유전자 또는 전사체 수준의 발현량을 계산할 수 있다.

전통적으로는 FPKM (Fragments Per Kilobase of transcript per Million reads) 또는 TPM (Transcripts Per Million)과 같은 지표가 사용되었으며, 최근에는 raw count 데이터를 직접 이용해 통계적 모델링을 수행하는 방식이 주류를 이룬다.

정량화된 발현 데이터는 행(유전자) × 열(샘플)의 형태를 가지며, 이를 기반으로 발현 비교, 클러스터링, 시각화, 연관 분석 등 다양한 후속 분석이 가능해진다.


8. 차등 발현 유전자 분석 (Differential Expression Analysis)

RNA-Seq의 주요 목적 중 하나는 서로 다른 조건 간에 어떤 유전자가 의미 있게 많이 또는 적게 발현되었는지를 파악하는 것이다. 이를 위해 차등 발현 유전자(Differentially Expressed Genes, DEG) 분석이 수행된다.

이 분석은 발현량 데이터의 통계적 모델링을 기반으로 하며, 대표적인 도구로는 DESeq2, edgeR, limma-voom 등이 있다. 이들 패키지는 유전자 발현의 변동성과 라이브러리 크기를 고려하여 로그 변환된 발현 차이(log2 fold change)와 통계적 유의성(p-value, adjusted p-value)를 계산해준다.

분석 결과에서 일정 기준(예: log2FC ≥ 1, FDR ≤ 0.05)을 만족하는 유전자는 DEG로 간주되며, 이들을 기반으로 기능 분석, 바이오마커 탐색, 생물학적 해석이 이루어진다.


9. 기능 분석과 시각화

DEG 분석이 완료되면, 이를 해석하기 위한 기능적 분석이 진행된다. 주로 사용되는 분석은 Gene Ontology(GO) 분석, KEGG Pathway 분석, Reactome, GSEA (Gene Set Enrichment Analysis) 등이며, 이를 통해 특정 생물학적 경로가 활성화되었는지, 특정 기능의 유전자군이 집단적으로 변화했는지를 판단할 수 있다.

이러한 결과는 시각화를 통해 더 명확하게 전달될 수 있다. 히트맵(heatmap), 볼케이노 플롯(Volcano plot), PCA plot, 클러스터링 트리, 엔리치먼트 맵 등 다양한 시각화 방법이 사용되며, 이들은 데이터의 패턴과 핵심 유전자를 한눈에 파악하는 데 매우 유용하다.


10. 결론: RNA-Seq, 유전자 발현을 해석하는 창

RNA-Seq 분석은 단순한 염기서열 해독을 넘어서, 세포의 동적인 유전자 발현 상태를 정량적으로 측정하고 해석하는 가장 강력한 도구 중 하나다. 샘플 준비부터 데이터 시각화까지 여러 단계로 구성되어 있으며, 각 단계마다 기술적, 통계적, 생물학적 이해가 요구된다.

이 기술은 현재 암 연구, 줄기세포 분화, 면역 반응 분석, 약물 반응성 평가, 희귀 질환 진단 등 다양한 분야에서 활용되고 있으며, 정밀의료와 오믹스 기반 바이오 헬스케어의 중심 도구로 자리매김하고 있다.

앞으로 RNA-Seq은 더 정밀해지고, 더 빠르며, 더 통합적인 분석으로 진화할 것이며, 단일세포 수준의 전사체 분석이나 공간 전사체학(Spatial Transcriptomics) 등과의 결합을 통해 새로운 생명정보 혁신을 이끌게 될 것이다.