논문제목
BERT를 활용한 문서 임베딩 및 분류
요약
컴퓨터와 정보 기술의 발달로 많은 문서들이 온라인으로 공유되고 있다. 문서는 많은 정보를 담고 있지만 원하는 정보를 가지고 있는 문서를 찾는 것은 어렵고 많은 시간을 필요로 한다. 문서 분류는 보유하고 있는 문서를 범주화하여 원하는 정보를 가지고 있는 문서에 빠르게 접근하기 위한 좋은 접근법이다. 딥러닝 기반의 문서 분류 방법으로 BERT가 있다. BERT는 언어 표현을 사전 학습하기 위한 방법으로 학습한 언어에 대해서 다양한 문제를 해결할 수 있는 잠재력을 가지고 있다. 하지만 BERT의 핵심 연산 중에 어텐션은 문서 길이에 제곱만큼 연산 비용이 필요하고 학습하는 문서의 길이는 GPU 용량과 학습 시간에 악영향을 미쳐 실제 학습되는 문서 길이에는 제약이 있다. 문서 길이에 제약이 있어 문서의 일부분을 가지고 문서 분류를 하는 것은 성능이 부족해지는 요인이 된다. 이를 해결하기 위해서 BERT를 활용하여 문서를 임베딩하고 임베딩 벡터를 통해 문서 분류하는 방법을 제안한다. 문서를 일정 크기로 잘라 사전 학습된 BERT 모델을 통해 임베딩하여 임베딩 입력 시퀀스를 구성하고 초기화된 BERT 모델을 학습한다. 이를 통해 토큰을 학습하는 BERT 분류 모델과 유사한 제약조건에서 더 많은 길이의 텍스트 정보를 학습할 수 있고 분류 정확도를 높일 수 있다. 학습하는 시퀀스 길이가 길어짐에 따라 문서 분류 정확도가 증가하는 추세를 보였고 시퀀스 길이별 분류 모델 성능을 비교하였을 때 16384 이상의 시퀀스 길이의 문서에 대해서 BERT 임베딩 분류 모델이 BERT 분류 모델보다 높은 정확도를 보였다. 마지막으로 사전 학습된 BERT 모델의 미세 조정 없이 BERT 모델을 학습하여 분류 성능을 개선 가능함을 보였다. 이를 통해 BERT를 활용하여 질의응답 같은 다른 자연어 처리 작업에 확장하여 성능 개선을 기대한다.