전체 글
-
Tx-LLM카테고리 없음 2025. 11. 25. 15:21
Tx-LLM (Therapeutics Large Language Model) - 구글 딥마인드(Google DeepMind)와 구글 리서치(Google Research)가 개발한 신약 개발 특화 대규모 언어 모델- 기존의 신약 개발 AI가 독성 예측, 물성 예측 등 특정 작업에만 특화된 '좁은 AI(Narrow AI)'였다면, Tx-LLM은 신약 개발의 전 과정을 아우르는 범용(Generalist) AI 모델이라는 점에서 큰 차이- '텍스트 지식(논문 등)'과 '분자 구조 정보'를 동시에 고려하여 타겟을 추천받거나 약물의 효능을 예측하는 데 강력한 도구1. 핵심 구조와 원리기반 모델: 구글의 거대 언어 모델인 PaLM-2를 기반으로 파인튜닝(Fine-tuning) 되었습니다.데이터 처리 방식: 화..
-
scRank : drug-sensitive cell type inferenceBio-info/paper 2025. 11. 7. 01:17
2024.06 Cell Report Medicine 🔹 1. 연구 배경 (Background) 핵심 문제의식세포는 동일한 약물에도 불구하고 세포 아형(cell subtype) 에 따라 이질적인 반응을 보임.scRNA-seq 발전 : 질병에서 어떤 세포가 약물에 반응하는가 를 규명하는 것이 정밀의학의 핵심기존 접근법(예: DEG 수나 Augur 기반 separability 분석)은 전·후 처리 데이터(disease vs treatment pair) 가 필요약물의 표적(target) 정보를 반영하지 못함.핵심 가설 및 제안현실적으로는 “약물 처리되지 않은(scRNA-seq)” 질병 데이터가 풍부하므로, drug-responsive cell type을 untreated 데이터만으로 추론할 수 있는 방법이 필..
-
Pathway Ensemble Tool (PET)Bio-info/paper 2025. 11. 5. 00:32
24.08 Nature communication에 published된 논문 🔹 1. 연구 배경 (Background)질병 발병의 핵심은 pathway level dysregulation임.그러나 현재 대부분의 연구는 단일 유전자 중심 접근(single-gene focus) 또는 연구자가 미리 가정한 pathway만을 검증하는 가설 기반(hypothesis-driven) 방식임.GSEA, Enrichr, ORA 등 널리 쓰이는 pathway 분석 툴은 “특정 pathway가 enrichment 되어 있는지”를 검증하는 데는 유용하지만, 편향 없는(discovery-driven) 상황에서 실제 교란된 pathway를 1순위로 찾는 데에는 부정확함.기존 툴들의 성능은 주로 모의(simulated) 데이터나 ..
-
anndata의 값이 raw cnt인지 확인하는 법Note 2025. 3. 6. 17:51
AnnData X가 log1p 변환되지 않은 raw count인지 확인하는 방법1. 최소값 확인log1p 변환이 된 데이터는 최소값이 0 이상입니다.하지만 raw count 데이터는 0 또는 자연수(정수) 값이므로, 최소값이 0 이하인지 확인하면 됩니다.import numpy as npmin_value = np.min(adata.X)print(f"Minimum value in X: {min_value}")결과 해석min_value >= 0: log1p 변환되었을 가능성이 높음.min_value min_value == 0: 아직 raw count일 가능성이 있음.2. 정수값 여부 확인raw count 데이터는 항상 정수값을 가집니다.반면 log1p 변환된 데이터는 대부분 소수점 값을 포함합니다.is_int..
-
single cell analysis - after cell type annotationBio-info/analysis 2025. 3. 5. 21:58
📌 Single-cell 분석에서 Cell Type Annotation 이후에 할 수 있는 추가 분석들Cell type annotation 이후에는 세포의 특성과 기능을 더 깊이 이해하고, 특정 생물학적 질문에 답하기 위해 다양한 분석을 수행할 수 있어.1️⃣ 차등 발현 유전자(DEA, Differential Expression Analysis) 분석👉 각 세포 유형에서 특이적으로 발현되는 유전자 찾기목적: 세포 유형 간의 차이를 나타내는 특이적(marker) 유전자 찾기방법: scanpy.tl.rank_genes_groups(), Seurat::FindMarkers() 사용분석 예제:면역세포 vs. 종양세포에서 차등 발현되는 유전자 찾기특정 조건(예: 질병 vs. 정상)에서 발현 차이가 나는 유전자..
-
single cell 분석 - cluster 개수 정하기Bio-info/analysis 2025. 3. 5. 20:48
참고 : scanpy - preprocessing & clusteringhttps://scanpy.readthedocs.io/en/stable/tutorials/basics/clustering.html#manual-cell-type-annotationwritten by chatGPT 4o🔍 클러스터 개수를 정하는 가장 근거 있는 방법클러스터 개수(Optimal Number of Clusters)를 정하는 방법은 데이터의 구조와 분석 목적에 따라 다르지만, 일반적으로 다음과 같은 방법들이 신뢰할 수 있습니다.📌 1. 데이터 기반의 정량적 방법1️⃣ Elbow Method (엘보우 방법)클러스터 개수 k를 변화시키면서 클러스터 내 응집도(SSE, Within-cluster sum of squares, W..
-
NVIDIA driver, CUDA, torchNote 2025. 3. 5. 13:59
기본 개념1 ) Base에 설치된 CUDA 버전을 확인 (nvcc --version) 하는 법- 시스템에 설치된 CUDA toolkit의 버전 정보→ 설치된 toolkit 버전은 PyTorch 실행과 직접적인 상관 없음 nvidia-smi 기본 개념1 ) GPU 머신을 이용하기 위해서는 torch와 cuda의 호환성이 중요함기본 개념2 ) 홈페이지(https://download.pytorch.org/whl/torch_stable.html )에서 원하는 version의 torch를 직접 다운받아서 설치 가능함 CUDA 버전 에러UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (f..
-
single-cell analysisBio-info/analysis 2025. 3. 5. 13:39
- var index로 유전자 이름 설정->> anndata concat- nan 값을 0으로 변환 -> 나중에 count 셀 때 인식 가능- obs 인덱스 재설정 anndata.concatadata = anndata.concat(filtered_ann_list.values(), label='batch', join='outer') # var의 합집합 사용 (var_names 기준)-여러 개의 anndata 합침-row (cell) 단위로 stack 함-label : obs에 새로운 그룹 지정-index_unique : 중복 유전자 이름을 처리*var의 index로 유전자 이름이 들어가 있어야 함UserWarning: Observation names are not unique. To make ..