챗GPT가 쓴 답안 못 가려내…점수도 더 높아-연변일보 Yanbian Daily

구독안내지면보기종합신문延边新闻网

延吉 -8～1℃ 晴西北风转西风

정치일반 당위∙당무 정부∙행정 인대∙정협

경제일반 산업∙건설 농업 과학∙IT 부동산 관광 자동차 소비

사회일반 민생 교육 환경 사건∙사고

문화일반 해란강 책 건강

사설 칼럼 시평 단상갤러리

중국의 창 세계는 지금 반도뉴스 천하만사

스포츠일반 우리축구 생활체육 스포츠스타 올림픽∙월드컵

사진속 연변 사진일반 지구촌 동영상

현재위치： 홈 > 경제 > 과학∙IT > 챗GPT가 쓴 답안 못 가려내…점수도 더 높아

챗GPT가 쓴 답안 못 가려내…점수도 더 높아

2024-07-09 10:21:30

생성형 인공지능(AI)이 작성한 답안의 94%가 채점자들에게 적발되지 않았고 83%는 실제 학생의 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다. 일전 국제학술지 《+1》에 발표된 연구에 따르면 영국 레딩대 심리및림상언어과학대학교 스카프 교수 연구진은 대학교 본과단계 시험에서 실험한 결과 이같이 나타났다고 밝혔다.

연구팀은 레딩대학교 심리학 학사학위 취득을 위한 5개의 시험(단답형 3개, 수필 2개)에 100% 챗GPT－4가 작성한 답안을 가짜 학생 33명의 이름으로 위장해 제출했다. 채점자들은 연구에 대해 전혀 모르는 상태였다. 그 결과 챗GPT－4가 작성한 답안의 94%가 채점자들에게 적발되지 않았으며 성적 또한 실제 학생보다 평균적으로 더 높은 것으로 나타났다.

또 AI가 작성한 답안과 실제 학생의 답안을 무작위로 선택해 비교할 때 AI가 작성한 답안이 더 높은 성적을 거둘 확률이 83.4%였다.

실제 학생이 AI 작성 답안의 점수 중간값보다 높은 점수를 받는 비률은 4개 시험에서 4.35~17.63%에 불과했다. 수필시험 한개에서만 실제 학생 57.14% 점수가 AI 점수의 중간값을 넘었다.

AI 작성 답안의 점수는 실제 학생의 점수와 비교했을 때 가장 높은 등급을 얻는 경향이 있었다. 특히 성적분포가 넓게 분산되기 보다는 높은 등급에 밀집되는 모습이 나타났다.

연구진은 “이 연구는 지금까지 인간 교육자가 AI 생성 내용을 구별할 수 있는지 알아보는 실험중 가장 크고 강력한 무작위 실험”이라며 “이 결과는 AI가 대학교 시험에서도 컴퓨터와 인간을 구별해내는 튜링 테스트를 통과했음을 보여준다.”고 말했다.

다만 연구팀은 “학생들이 부정행위에　AI를 악용할 수 있다는 것을 보여준다.”며　“AI가 교육평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려된다.”고 했다. 이어 “전세계 교육부문이　AI 발달에 대응해 새로운 정책과 지침을 만들어 문제해결을 위해 노력해야 한다.”고 덧붙였다.　

외신

많이 본 기사
종합
스포츠
경제
사회

주소:중국 길림성 연길시 신화가 2호 (中国吉林省延吉市新华街 2号)

신고 및 련락 전화번호: 0433-2513100 | Email: webmaster@iybrb.com

互联网新闻信息服务许可证编号：22120180019

吉公网安备 22240102000014号

< img class="statcounter" src="https://c.statcounter.com/12982939/0/3e5edb40/1/" alt="web stats" referrerPolicy="no-referrer-when-downgrade">