-
Tx-LLM (Therapeutics Large Language Model)
- 구글 딥마인드(Google DeepMind)와 구글 리서치(Google Research)가 개발한 신약 개발 특화 대규모 언어 모델
- 기존의 신약 개발 AI가 독성 예측, 물성 예측 등 특정 작업에만 특화된 '좁은 AI(Narrow AI)'였다면,
Tx-LLM은 신약 개발의 전 과정을 아우르는 범용(Generalist) AI 모델이라는 점에서 큰 차이- '텍스트 지식(논문 등)'과 '분자 구조 정보'를 동시에 고려하여 타겟을 추천받거나 약물의 효능을 예측하는 데 강력한 도구
1. 핵심 구조와 원리
- 기반 모델: 구글의 거대 언어 모델인 PaLM-2를 기반으로 파인튜닝(Fine-tuning) 되었습니다.
- 데이터 처리 방식: 화학 구조나 단백질 서열을 언어처럼 처리합니다.
- 입력: 자연어 텍스트(질문/지시) + 화학 구조 문자열(SMILES) + 단백질 서열 등을 섞어서 입력받습니다.
- 학습: Therapeutics Data Commons (TDC)를 포함한 66개의 다양한 신약 개발 관련 데이터셋으로 학습되었습니다.

2. 주요 기능 (66개 태스크 수행)
Tx-LLM은 하나의 모델로 다음과 같은 신약 개발 파이프라인의 다양한 단계를 모두 수행할 수 있습니다.
- 약물성 평가 (ADMET): 후보 물질의 독성, 흡수율, 용해도 등을 예측.
- 타겟 발굴: 질병과 관련된 유전자나 단백질 타겟을 식별.
- 결합 친화도 (Binding Affinity): 약물이 타겟 단백질에 얼마나 잘 결합하는지 예측 (Regression).
- 임상 결과 예측: 임상 시험의 성공 가능성 등을 예측.
- 분자 생성 및 반응 예측: 화학 반응의 결과물이나 역합성 경로 예측.

3. Tx-LLM의 강점
- 텍스트 + 구조 정보의 결합: 기존 모델들은 화학 구조(SMILES)만 보거나 텍스트만 보는 경향이 있었으나, Tx-LLM은 두 정보를 결합할 때 성능이 극대화됩니다. 예를 들어, "특정 세포주(Cell line) 이름(텍스트)"과 "약물 구조(SMILES)"가 함께 주어졌을 때 약물의 반응성을 예측하는 능력이 매우 뛰어납니다.
- 전이 학습 (Transfer Learning): 단백질 관련 데이터에서 배운 지식을 소분자(Small molecule) 예측에 활용하는 등, 서로 다른 도메인 간의 지식을 전이하여 성능을 높입니다.
4. 최신 업데이트: TxGemma (오픈 모델)
Tx-LLM은 구글의 비공개 모델인 PaLM-2 기반이었지만, 2025년 상반기에 이를 기반으로 한 오픈 웨이트 모델인 'TxGemma'가 공개되었습니다.
- TxGemma: 구글의 개방형 모델인 Gemma 2를 기반으로 Tx-LLM의 학습 방식을 적용한 모델입니다.
- 연구자들이 직접 다운로드하여 자신의 데이터로 파인튜닝하거나 추론에 사용할 수 있어 접근성이 훨씬 높습니다.