제목
기계학습 기반 적대적 예제의 다중 레이블 분류 기법
요약
인공지능 분야에서 심층신경망(DNN, Deep Neural Network)은 최근 몇 년 동안 다양한 작업에서 매우 발전하였고 성능이 우수하여 널리 사용되고 있다. 하지만 심층신경망은 잡음(Noise)이나 적대적 섭동(Adversarial Perturbation)에 취약하다. 심층신경망을 속이기 위해, 데이터에 적대적 섭동을 명시적으로 생성하는 방법을 적대적 공격(Adversarial Attack)이라고 한다. 이를 통해 생성되는 적대적 공격의 산출물을 적대적 예제(Adversarial Example)라고 한다. 적대적 예제는 심층신경망을 기만하여 심층신경망이 잘못된 예측을 출력하도록 야기한다. 적대적 예제를 탐지하기 위한 이전 연구들은 주어진 데이터가 적대적 예제일 확률을 계산하여 데이터를 합법적 예제와 적대적 예제 중 하나로 이진 분류할 수 있다. 하지만 주어진 적대적 예제에 대해 적대적 공격 유형을 분류할 수 있는 방법은 현재까지 연구되지 않고 있다. 따라서 본 논문에서는 기계학습 기반으로 다중 레이블을 가지는 적대적 예제에 대해 적대적 공격 유형을 분류하는 방법을 제안한다. 제안하는 방법은 적대적 예제와 이에 대응하는 합법적 예제를 보유하고 있을 경우(화이트박스 방어 모델)뿐만 아니라 합법적 예제를 갖고 있지 않을 경우(블랙박스 방어 모델)에도 동작이 가능하도록 설계되었다. 그리고 제안하는 방법은 새로운 유형의 적대적 공격에 대한 적대적 예제를 기존의 학습 데이터세트에 포함하여 재학습한다면 새로운 유형의 적대적 공격도 분류할 수 있다. 제안하는 방법의 유효성을 평가하기 위해, 실험에서 각 MNIST, CIFAR-10 데이터세트로 학습된 각각의 심층신경망을 사용하였다. 제안하는 방법은 MNIST 데이터세트로 학습시킨 심층신경망을 대상으로 한 실험에서 높은 적대적 공격 군집 성능을 보였다. 반면 CIFAR-10 데이터세트로 학습시킨 심층신경망을 대상으로 한 실험에서 블랙박스 방어 모델을 사용할 경우 적대적 공격 군집 성능의 한계가 있었다. 하지만 적대적 공격의 유형 개수를 줄여서 CIFAR-10에 대해 블랙박스 방어 모델을 학습시킬 경우, 높은 군집 성능으로 FGSM 기반의 적대적 공격(FGSM, BIM, PGD)과 FGSM 기반이 아닌 적대적 공격(DeepFool, C&W)을 분류할 수 있었다.