분류
2024년 8월
작성일
2024.04.05
수정일
2024.07.05
작성자
이다영
조회수
83

한글 메신저 채팅의 크로스 텍스팅 탐지를 위한 저자 검증 모형

인터넷과 IT 기술의 발달로, 짧은 길이의 텍스트 기반 의사소통이 음성 기반보다 훨씬 활발하게 이뤄지고 있다.

채팅 기반 커뮤니케이션은 사람들로 하여금 많은 양의 짧은 메시지를 여러 사람과 빠르게 주고받을 수 있게 하였고, 이는 새로운 사회적 문제를 발생시켰다.

크로스 텍스팅(Cross-texting)이 그 예 중 하나이다.

크로스 텍스팅은 여러 개의 동시 대화로 인해 텍스트가 실수로 의도하지 않은 수신자에게 잘못 전송되는 경우를 일컫는다.

이는 존대법이 발달된 언어에서 발생할 경우 심각한 문제가 될 수 있다.

텍스트 기반 커뮤니케이션이 더욱 활발해질수록 한국어와 같이 높임 표현이 발달된 언어에서는 크로스 텍스팅을 사전에 방지하는 일이 매우 중요할 수 있다.

 

이 논문에서는 문체적 특성을 기반으로 두 문서의 저자가 동일한지를 여부를 판단하는 기존의 저자 검증 문제를 변형하여, 메신저 환경에서 작성된 채팅 텍스트에 대해 크로스 텍스팅을 탐지하는 모델을 제안한다.

동일한 사용자라도 상대방이 누구냐에 따라 태도를 달리한다는 점에 착안하여 사용자의 이전 채팅 내용으로 대화의 일관성을 모델링하고, 주어진 새로운 메시지에서도 이 일관성이 유지되고 있는가를 평가한다.

그러기 위해서는 한글 채팅 메시지의 특징을 고려하여 일관성을 모델링할 수 있는 특성을 설정해야 한다.

 

이 논문에서는 두 가지 접근법을 제안한다.

첫 번째는 채팅 메시지에 쓰인 표현에서 높임 정도와 완성도를 평가하는 기준을 설정하여 대화에 나타난 태도의 일관성을 모델링하는 방법이다.

이는 명시적으로 평가 기준을 설정하고 사전 학습을 통해 만들어진 내부 평가 모델의 조합으로 구성된다.

두 번째는 채팅 메시지에 사용된 음절들의 동시 출현 관계를 기반으로 그래프를 구축하여 대화에 자주 쓰이는 패턴의 일관성을 모델링하는 방법이다.

이는 사전 학습 없이 오로지 주어진 채팅 메시지에 내재된 패턴을 포착하는 모델로 구성된다.

 

모델의 탐지 성능을 평가하기 위해 실제 메신저 말뭉치를 토대로 크로스 텍스팅 메시지의 유형과 길이를 조절하여 탐지 난이도가 다른 크로스 텍스팅 데이터셋을 구축하였다.

실험 결과, 첫 번째 접근 방법은 비교적 작은 차원의 특성값 만으로 최고 95%의 정확도로 크로스 텍스팅을 탐지했으며, 그 특성값의 분포를 통해 제안 모델이 실제 채팅 메시지의 일관성을 효과적으로 모델링했음을 확인할 수 있었다.

두 번째 접근 방법은 채팅 메시지에 드러난 태도의 변화가 크지 않은 경우, 다른 모델에 비해 안정적인 성능을 보였으며 최고 82%의 정확도로 크로스 텍스팅을 탐지했다.

학위연월
2024년 8월
지도교수
조환규 교수님
키워드
저자 검증, 채팅 텍스트, 크로스 텍스팅, 텍스트 그래프 임베딩
소개 웹페이지
https://schema-0.github.io/
첨부파일
첨부파일이(가) 없습니다.
다음글
Advanced Defense Framework against Physical Adversarial Camouflage via Continual Adversarial Training
김용수 2024-04-08 09:38:57.897
이전글
상태 기반 테스트 시나리오 보강 방법
이선열 2023-10-17 20:52:24.23
RSS 2.0 122
게시물 검색
박사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
122 Effective Deep Learning Primitives Design for Bina 황선진 2024.10.14 0 11
121 Toward Immersive Multi-view Video Streaming 탄중 디온 2024.10.14 0 10
120 A Low-cost Deep Learning Model for Real-time Surve 등 제강 2024.10.10 0 22
119 An Enhancement of Neural Network by a Nested Rule- 양홍진 2024.10.09 0 27
118 다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법 조상현 2024.10.09 0 22
117 Trust Guard Extension for Enhanced Security Featur 김해용 2024.05.04 0 58
116 Task-Specific Differential Private Data Publish Me 신진명 2024.04.09 0 57
115 Advanced Defense Framework against Physical Advers 김용수 2024.04.08 0 73
114 한글 메신저 채팅의 크로스 텍스팅 탐지를 위한 저자 검증 모형 이다영 2024.04.05 0 83
113 상태 기반 테스트 시나리오 보강 방법 이선열 2023.10.17 0 150
112 Manufacturing Testing Automation FrameworkBased on 강효은 2023.10.17 0 172
111 Synthesizing Robust Physical Camouflage for Univer 수랸토 나우팔 2023.10.16 0 166
110 복잡도 다양성을 고려한 C 프로그램의 시험 용이성 예측 모형 구축 방법 최현재 2023.10.16 0 140
109 Design and Optimization of Quantum Arithmetic Circ 라라사티 하라스타 타티마 2023.10.13 0 168
108 Improving 6TiSCH Network Formation and Transmissio 파와즈 자키 자키얄 2023.10.10 0 157
107 저지연 고신뢰 운전자 프로파일링을 위한 딥러닝 모델 및 조기 종료 기법 임재봉 2023.10.08 0 220
106 802.11ax 대규모 Wi-Fi 환경의 심층 생성 모델을 활용한 트래픽 모델링 및 AP 이재민 2023.04.07 0 132
105 뉴런 클러스터를 활용한 합성곱 신경망 이미지 분류 신뢰성 향상 방법 이영우 2023.04.06 0 124
104 Trust Guard Extension Framework for Enhanced Secur 김해용 2023.04.06 0 105
103 노이즈 오염 하에서의 효율적 최적화를 위한 확률적 평가 샘플 누적 전략 김정민 2023.04.06 1 135