논문제목
한국어 수사를 포함한 문서를 위한 질의응답 시스템 개발
요약
본 문서에서는 기계 독해를 이용하여 한국어 수사를 포함한 문서를 위한 질의응답 시스템을 구축하는 방법을 제안한다. BERT 언어모형을 이용하여 한국어 수사를 포함한 한국어의 질의응답 데이터 세트를 구축하는 방법을 소개하고, 해당 시스템을 미세조정(fine-tuning)하여 성능을 높이는 방법을 제안한다. 한국어 수사를 포함한 질의응답 데이터 세트를 생성하기 위해서 안전기준 관련 법령 문서를 이용하여 질의응답 데이터 세트를 구축하는 방법을 제안하고, 해당 데이터 세트의 일반화를 위해 국제단위계, 한국어의 7가지 읽기 방식, 한국어의 단위를 이용한다. 해당 시스템은 한국어 수사를 포함한 문서를 위한 질의응답 검증 데이터 세트에 대해 EM 78.78%, F1 88.88%의 성능을 보였고, 해당 데이터 세트에 전자 신문 기사를 이용한 질의응답을 추가한 데이터 세트에 대해 EM 82.91%, F1 90.95%의 성능을 보였다. 실험 결과 기존 시스템보다 현재 시스템이 각 데이터 세트별 EM이 7.92%, 13.57%로, F1이 12.07%, 9.55%로 향상되었다.