DNA는 생명을 유지하는 데 필요한 기초정보를 담고 있다. 이러한 정보가 어떻게 저장되고 조직되는지를 리해하는 것은 20세기의 가장 큰 과학도전중 하나였다. 현재 인류 DNA 훈련을 기반으로 한 신형의 빅언어모델인 GROVER를 통해 연구원들이 유전체 속에 숨겨진 복잡한 정보를 해독해낼 수 있을 전망이다. 독일 드레스덴공업대학교 생물기술중심에서 개발한 GROVER는 인류 DNA를 문장으로 보고 그 규칙과 문맥에 대한 학습을 통해 DNA서렬의 기능 정보를 추출해냈다. 이 새로운 도구는 유전체학을 완전히 변화시키고 개성화 의료 발전을 가속화할 것으로 기대된다. 관련 론문은 국제학술지 《자연·기계지능》 최신호에 발표됐다.
빅언어모델은 문장 훈련을 통해 여러 언어환경에서 언어를 사용할 수 있는 능력을 발전시켰다.
연구진은 생명암호 DNA를 하나의 언어로 삼고 GROVER라는 빅언어모델을 훈련시켰다.
언어 면에서 사람들이 이야기하는 것은 문법, 문장법과 의미이다. DNA의 경우 이는 뉴클레오시드(核苷酸)의 서렬 등을 학습하는 것을 의미한다. 마치 GPT모델이 인간의 언어를 학습하는 것처럼 GROVER가 DNA ‘언어’를 거의 습득했다.
연구에 따르면 GROVER는 이어지는 다음 DNA서렬을 정확하게 예측할 수 있을 뿐만 아니라 생물학적 의의를 가진 상하문 정보를 추출하는 데 사용될 수도 있다. 례를 들면 DNA에 있는 유전자 시동자 혹은 단백질 결합 위치를 식별하는 것이다. 이외에 GROVER는 ‘외적 유전’ 과정에 대해서도 학습했다. 즉 DNA서렬이 바뀌지 않는 정황하에 유전자가 표달하는 유전성 변화이다.
GROVER는 DNA가 품고 있는 인간의 본질, 질병의 역감성, 치료반응에 대한 관건 정보를 풀어낼 수 있을 것으로 기대된다. 언어모델을 통해 DNA의 규칙을 리해하면 DNA 속에 숨겨진 생물 의의를 밝혀내는 데 유조할 것으로 유전체학과 개성화 의학 발전을 추동할 수 있다고 연구일군들은 믿고 있다.
과학기술일보
- 많이 본 기사
- 종합
- 스포츠
- 경제
- 사회