챗GPT가 쓴 답안 못 가려내…점수도 더 높아

2024-07-09 10:21:30

생성형 인공지능(AI)이 작성한 답안의 94%가 채점자들에게 적발되지 않았고 83%는 실제 학생의 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다. 일전 국제학술지 《+1》에 발표된 연구에 따르면 영국 레딩대 심리및림상언어과학대학교 스카프 교수 연구진은 대학교 본과단계 시험에서 실험한 결과 이같이 나타났다고 밝혔다.

연구팀은 레딩대학교 심리학 학사학위 취득을 위한 5개의 시험(단답형 3개, 수필 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 위장해 제출했다. 채점자들은 연구에 대해 전혀 모르는 상태였다. 그 결과 챗GPT-4가 작성한 답안의 94%가 채점자들에게 적발되지 않았으며 성적 또한 실제 학생보다 평균적으로 더 높은 것으로 나타났다.

또 AI가 작성한 답안과 실제 학생의 답안을 무작위로 선택해 비교할 때 AI가 작성한 답안이 더 높은 성적을 거둘 확률이 83.4%였다.

실제 학생이 AI 작성 답안의 점수 중간값보다 높은 점수를 받는 비률은 4개 시험에서 4.35~17.63%에 불과했다. 수필시험 한개에서만 실제 학생 57.14% 점수가 AI 점수의 중간값을 넘었다.

AI 작성 답안의 점수는 실제 학생의 점수와 비교했을 때 가장 높은 등급을 얻는 경향이 있었다. 특히 성적분포가 넓게 분산되기 보다는 높은 등급에 밀집되는 모습이 나타났다.

연구진은 “이 연구는 지금까지 인간 교육자가 AI 생성 내용을 구별할 수 있는지 알아보는 실험중 가장 크고 강력한 무작위 실험”이라며 “이 결과는 AI가 대학교 시험에서도 컴퓨터와 인간을 구별해내는 튜링 테스트를 통과했음을 보여준다.”고 말했다.

다만 연구팀은 “학생들이 부정행위에 AI를 악용할 수 있다는 것을 보여준다.”며 “AI가 교육평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려된다.”고 했다. 이어 “전세계 교육부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제해결을 위해 노력해야 한다.”고 덧붙였다.  

외신

  •  
  • 많이 본 기사
  • 종합
  • 스포츠
  • 경제
  • 사회

주소:중국 길림성 연길시 신화가 2호 (中国 吉林省 延吉市 新华街 2号)

신고 및 련락 전화번호: 0433-2513100  |   Email: webmaster@iybrb.com

互联网新闻信息服务许可证编号:22120180019

吉ICP备09000490-2号 | Copyright © 2007-

吉公网安备 22240102000014号