-
GSEA 분석Bio-info/analysis 2023. 3. 10. 01:06
GSEA (Gene Set Enrichment Analysis)
-내가 관심있는 Gene Set이 어떤 Pathway에 Enrich하게 존재하는지를 파악하고 싶을 때 사용하는 분석
-내가 관심있는 Gene Set이 이미 알려진 Gene set에 얼마나 enrich하게 overrepresented 되는지를 파악하고 싶을 때 사용
* 일단 나의 Gene set을 ranked 하게 sort 진행
: 특정 cutoff를 만족시키는 gene list를 가지고, 이 list의 유전자들이 known gene과 겹치는가? > Hypergeometric Test
: 모든 rank에서, known gene sets에 있는유전자들이 non-random한 방식으로 ranked list에서 발견되는가? > Kolmogorov-Smirnov (K-S) Test
* Hypergeometric Test - 초기하분포 검정
비복원추출에서 N개 중 n번 추출했을 때, 원하는 것 k개가 뽑힐 확률의 분포 계산..
: 전체 gene set에서 deg를 뽑았을 때.. 이 중 k개가 원하는 pathway gene lists에 들어가 있을 확률
http://barc.wi.mit.edu/education/hot_topics/Enrichment2016/GeneSetEnrichment_062016_print.pdf
https://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideTEXT.htm#_Enrichment_Score_(ES)
GSEA statistics가 report 해 주는 4 values :
1) ES (Enrichment Score)
-순위가 있는 유전자 목록 (ranked gene list)을 따라 내려가면서 지정된 pathway gene set에 포함된 유전자들이 나열된 순위의 [특정 영역]에 몰려서 나타나는 확률을 계산 -> 이 확률의 최대치를 보이는 부분을 output으로 가짐
: gene list 정렬의 예 - 발현 값(Fold Change)에 따라서..
-보통 ranked gene list의 상단 혹은 하단에 몰려있는 유전자 set를 (ES의 절대값이 큰) interest 하게 본다
https://www.ibric.org/myboard/read.php?Board=report&id=1198
https://bio-chae.com/gene-set-enrichment-analysis/
pathway의 유전자들이 내가 관심 있는 조건 (gene A KD vs con)에서 어느 정도(증가?감소?)의 발현값을 가지는가. 상대적으로 유의하게 가지는가?
2) NES (Normalized Enrichment Score)
ES를 gene set 크기를 고려하여 normalized 한 값
https://m.blog.naver.com/jinp7/221613173571
3) FDR (False Discovery Rate)
- multiple test의 결과로 나타날 수 있는 False Positive(위양성)의 결과를 추정하는 확률
- 주어진 NES를 가진 gene set이
- an FDR of 25% indicates that the result is likely to be valid 3 out of 4 times.
: FDR < 0.25로 잡아야 4번 중에 3번 이상 valid할 가능성이 ..
: 그러나 sample 수가 적고 표현형이 아닌 gene_set 순열을 사용할 경우 0.05같은 더 strict한 cutoff 를 ..
4) Nominal P Value
- single gene set에 대한 ES의 P-value
* GSEA 분석의 3단계
1) ranked gene list를 이용하여 각 pathway의 ES를 구한다
2) ES의 통계적 유의성인 nominal P value를 구한다 ; 이 때 k번의 순열(permutation)을 생성하여 귀무가설을 기각할 수 있는지 확인
3) ES를 집합의 크기에 대하여 정규화하여 NES 구함. 각 NES에 대한 FDR을 계산함
https://koreascience.kr/article/JAKO200827464606883.pdf
'Bio-info > analysis' 카테고리의 다른 글
single cell analysis - after cell type annotation (0) 2025.03.05 single cell 분석 - cluster 개수 정하기 (1) 2025.03.05 single-cell analysis (0) 2025.03.05 single cell - spatial transcription analysis (0) 2023.03.29