최신 AI 챗봇, 무릎 인공관절수술 의학정보 제공에 높은 정확도 입증

한림대동탄성심병원 송시영 교수팀, 5종 AI 모델 성능 비교 연구 결과 국제학술지 게재

최신 인공지능(AI) 모델이 제공하는 의학 정보의 정확도가 높아 환자 교육과 진료실 상담을 보조하는 도구로 활용될 수 있음을 보여주는 연구 결과가 나왔다.

한림대학교동탄성심병원 정형외과 송시영 교수 연구팀은 무릎 인공관절수술 관련 정보를 제공하는 AI 챗봇 5종의 성능을 비교 분석한 연구 결과를 발표했다. GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5의 무릎 인공관절수술 관련 질문에 대한 답변 능력을 비교한 이번 논문은 정형외과 및 스포츠의학 분야 SCIE 저널인 'Orthopaedic Journal of Sports Medicine' 올해 1월호에 게재됐다.

연구팀은 구글 검색 경향과 정형외과 전문의 자문을 바탕으로 환자들이 무릎 인공관절수술 전후로 자주 묻는 질문 43개를 선정했다. 질문은 수술 개요 및 과정, 수술 적응증과 결과, 부작용 및 합병증, 통증과 회복 과정, 수술 후 허용되는 활동, 수술 대안 및 변형 술기 등 6개 영역으로 구성됐다.

각 질문을 5가지 거대언어모델(LLM) 기반 AI 챗봇에 동일하게 제시해 답변을 얻은 뒤, 무릎 인공관절수술을 전문으로 하는 정형외과 전문의 두 명이 블라인드 테스트 방식으로 답변의 정확도와 질문 적합성을 5점 척도로 평가했다.

분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 전체 질문에 대해 평균 4.8점 이상의 높은 정확도를 보였고, 질문과의 관련성도 100%로 평가됐다. 반면 Gemini Advanced는 전체 평균 정확도 4.07점, 관련성 83.7%로 다른 챗봇보다 다소 낮은 성적을 기록했다. 연구팀은 Gemini Advanced가 일부 질문에서 답변 대신 전문의와 상담하라는 안내를 제공하는 경향이 있었으며, 이는 잘못된 정보를 피하려는 안전장치의 영향일 수 있으나 환자 교육 도구로 활용할 때는 정보의 양과 구체성이 제한될 수 있다고 분석했다.

송시영 교수는 이번 연구에서 최신 AI 챗봇들이 무릎 인공관절수술과 관련된 의학 정보를 상당히 정확하게 제공할 수 있음을 확인했다고 밝혔다. 또한 의사의 설명을 보완하는 환자 교육 도구로써 AI 챗봇의 잠재적 유용성을 확인했다며, 임상 적용 가능성을 높이기 위해 AI 모델을 지속적으로 개선해야 한다고 강조했다.

이번 연구는 과학기술정보통신부의 재원으로 한국연구재단 우수신진연구 사업의 지원을 받아 수행됐다.