딥시크-R1 모델 훈련방법 발표

2025-09-23 17:13:33

딥시크-AI 팀 량문봉과 그의 동료들은 17일 국제학술지 《자연》에 오픈소스 AI 모델 딥시크-R1이 채용한 대규모 추리모델 훈련방법을 발표했다.

연구에 따르면 빅언어모델의 추리능력은 순 강화학습을 통해 제고될 수 있어 성능 증강에 필요한 인간의 입력 작업량을 줄일 수 있다. 이렇게 훈련된 모델은 수학, 편성경기대회와 STEM(과학, 기술, 공정과 수학교육에 대한 략칭) 령역의 연구생 수준 문제 등 임무에서 전통방식으로 훈련된 빅언어모델보다 성능이 더 뛰여나다.

딥시크-R1은 인간의 감독하의 한 사람의 심층훈련 단계가 포함되며 이것으로 추리과정을 최적화한다. 량문봉팀의 보고에 따르면 이 모델은 인간 례제가 아닌 강화학습을 사용해 추리절차를 개발함으로써 훈련 원가와 복잡성을 줄였다. 딥시크-R1에게 우수한 문제해결 사례를 보여준 후 추리과정을 생성하기 위한 템플릿(模板)이 제공된다. 즉 이 모식은 문제해결을 통해 보상을 얻음으로 학습효과가 강화된다. 향후 연구는 보상과정을 최적화하는 데 집중하는 것으로 추리와 임무 결과의 신뢰성을 확보할 수 있다고 연구팀은 전망했다.

AI 표현을 평가하는 수학기준 테스트에서 딥시크-R1-Zero와 딥시크-R1의 점수는 각기 77.9%와 79.8%로 나타났다. 편성경기대회 및 연구생 수준의 생물학, 물리와 화학 문제에서도 마찬가지로 우수한 성적을 보였다. 과학기술일보

来源:延边日报
初审:金麟美
复审:郑恩峰
终审:
 

주소:중국 길림성 연길시 신화가 2호 (中国 吉林省 延吉市 新华街 2号)

신고 및 련락 전화번호: 0433-2513100  |   Email: webmaster@iybrb.com

互联网新闻信息服务许可证编号:22120180019

吉ICP备09000490-2号 | Copyright © 2007-

吉公网安备 22240102000014号