인터넷과 IT 기술의 발달로, 짧은 길이의 텍스트 기반 의사소통이 음성 기반보다 훨씬 활발하게 이뤄지고 있다.
채팅 기반 커뮤니케이션은 사람들로 하여금 많은 양의 짧은 메시지를 여러 사람과 빠르게 주고받을 수 있게 하였고, 이는 새로운 사회적 문제를 발생시켰다.
크로스 텍스팅(Cross-texting)이 그 예 중 하나이다.
크로스 텍스팅은 여러 개의 동시 대화로 인해 텍스트가 실수로 의도하지 않은 수신자에게 잘못 전송되는 경우를 일컫는다.
이는 존대법이 발달된 언어에서 발생할 경우 심각한 문제가 될 수 있다.
텍스트 기반 커뮤니케이션이 더욱 활발해질수록 한국어와 같이 높임 표현이 발달된 언어에서는 크로스 텍스팅을 사전에 방지하는 일이 매우 중요할 수 있다.
이 논문에서는 문체적 특성을 기반으로 두 문서의 저자가 동일한지를 여부를 판단하는 기존의 저자 검증 문제를 변형하여, 메신저 환경에서 작성된 채팅 텍스트에 대해 크로스 텍스팅을 탐지하는 모델을 제안한다.
동일한 사용자라도 상대방이 누구냐에 따라 태도를 달리한다는 점에 착안하여 사용자의 이전 채팅 내용으로 대화의 일관성을 모델링하고, 주어진 새로운 메시지에서도 이 일관성이 유지되고 있는가를 평가한다.
그러기 위해서는 한글 채팅 메시지의 특징을 고려하여 일관성을 모델링할 수 있는 특성을 설정해야 한다.
이 논문에서는 두 가지 접근법을 제안한다.
첫 번째는 채팅 메시지에 쓰인 표현에서 높임 정도와 완성도를 평가하는 기준을 설정하여 대화에 나타난 태도의 일관성을 모델링하는 방법이다.
이는 명시적으로 평가 기준을 설정하고 사전 학습을 통해 만들어진 내부 평가 모델의 조합으로 구성된다.
두 번째는 채팅 메시지에 사용된 음절들의 동시 출현 관계를 기반으로 그래프를 구축하여 대화에 자주 쓰이는 패턴의 일관성을 모델링하는 방법이다.
이는 사전 학습 없이 오로지 주어진 채팅 메시지에 내재된 패턴을 포착하는 모델로 구성된다.
모델의 탐지 성능을 평가하기 위해 실제 메신저 말뭉치를 토대로 크로스 텍스팅 메시지의 유형과 길이를 조절하여 탐지 난이도가 다른 크로스 텍스팅 데이터셋을 구축하였다.
실험 결과, 첫 번째 접근 방법은 비교적 작은 차원의 특성값 만으로 최고 95%의 정확도로 크로스 텍스팅을 탐지했으며, 그 특성값의 분포를 통해 제안 모델이 실제 채팅 메시지의 일관성을 효과적으로 모델링했음을 확인할 수 있었다.
두 번째 접근 방법은 채팅 메시지에 드러난 태도의 변화가 크지 않은 경우, 다른 모델에 비해 안정적인 성능을 보였으며 최고 82%의 정확도로 크로스 텍스팅을 탐지했다.