최근 Virtual human(VH) 챗봇의 발달로 상호작용을 위한 기술들의 관심이 높아지고 있다. VH이 대화할 대상을 판단하고, 사용자의 대화 내용 구간을 판단하기 위해서는 발화하고 있는 사용자를 판단할 수 있어야 한다. 이러한 판단을 하기 위해서는 실시간으로 사용자의 발화 여부를 판단하는 기술이 필요하다. 해당 논문에서는 음성과 영상을 활용하여 실시간으로 화면상에 있는 사용자의 발화 여부를 판단하는 경량화된 멀티모달 모델을 제시한다.