본문 바로가기
Paper Review

[논문] How Do the Hearts of Deep Fakes Beat?

by riveryun 2021. 2. 6.
How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via Interpreting Residuals with Biological Signals
Umur Aybars Ciftci, Ilke Demir, Lijun Yin

[0] Abstract

- pure deep learning based approaches:
생성기의 residual을 학습하는 CNN을 이용하여 deepfake를 분류하려고 함
- 본 논문에서는 residual에 많은 정보가 담겨 있다고 생각하며, 생물학적인 신호를 이용하여 이를 찾아내는 방법을 통해 조작된 artifact를 드러내려고 함
=> 즉, 생물학적 신호의 시공간적인 패턴은 residual의 대표적인 projection이다.

 


[1] Introduction

(1) a deep fake source detector:

- 주어진 영상에 대한 source 생성 모델을 예측
- source detection
✓ deepfake 영상에 대한 생성 모델의 residual을 해석
✓ 생성 모델의 signature에 부합하지 않음으로써 일관적이지 않은 생물학적인 신호를 가진 진짜 영상들도 진짜 영상으로 제대로 분류할 수 있기 때문에 전반적인 face detection accuracy를 올릴 수 있음

 

(2) PPG signals

- Anatomical actions(e.g. 심장박동, 혈관의 흐름, 호흡)은 눈에 보이지는 않지만 computationally 탐지할 수 있는 미묘한 변화들을 만듦

 

- 예시: 혈액이 움직일 때 혈액의 헤모글로빈이라는 성분 때문에 시간에 따라 피부의 반사율이 달라지는데, 이런 변화를 감지해내기 위해 이미지 처리 방법을 이용하여 PPG signal을 추출해내는 여러 접근 방법들이 개발됨

=> 따라서, 생물학적인 신호를 알려진 차원의 residual projection으로 해석하여 모델마다 고유의 signature을 찾을 수 있다.

cf. 생물학적 신호를 사용하는 synthetic video detection 연구인 [23]는 생물학적 신호의 시공간적인 불일관성이 deepfake를 탐지해내는데 활용될 수 있다는 것을 증명하였음

 


 

 

[2] Related Works

생략

 


 

[3] PPG cells

- 가짜 영상에 나오는 가짜 사람은 진짜 영상에 나오는 사람의 심장박동과 다른 패턴을 나타냄
=> 이러한 생물학적인 신호를 모델 별 residual의 signature transformation을 포함하는 가짜 심장박동으로 해석할 수 있다. 이에 따라,
✓ 영상의 진위성을 판별해낼 수 있다.(real? fake?)
✓ 영상을 생성하는데 사용한 source mode를 분류할 수 있다.

 

- PPG cells
✓ a novel spatiotemporal block
✓ 고정된 window(a.k.a w)에서 추출한 여러 raw signal과 power spectra를 결합

 

- [PPG cell의 생성 방법]
1) face detector를 이용하여 매 프레임마다 얼굴을 찾아낸다.
2) 가장 안정적인 PPG signal을 가지고 있는 것 같은 얼굴들에서 ROI를 추출한다.
✓ 생물학적인 신호는 facial movements, illumination variations, facial occulsions에 민감
✓ 이런 영역을 강력하게 추출하기 위해 skin exposure를 최대화한 눈과 입 사이의 영역을 이용
✓ 얼굴의 각각의 영역에서 PPG signal은 서로 연관되어있기 때문에 ROI를 선정하고, 그 상관관계를 측정하는 과정은 탐지율을 향상시키는데 매우 중요

3) 비선형적인 ROI를 사각형의 이미지로 정렬한다.
✓ Delaunay triangulation을 적용
4-1) 각 이미지를 32개의 동일한 크기를 가진 square로 나눈다.
4-2) w frame의 크기로 고정된 window의 square 당 raw Chrom-PPG signal을 계산
4-3) 수정된 이미지에서 Chrom-PPG를 계산(정확도가 더 높음)
4-4) w times 32개의 raw PPG 값들이 얻어지는데, 이 값들을 32행 w열의 행렬로 재구성
이 떄, 밝은 열들은 PPG signal이 갑자기 변화할 때 발생하는 significant motion, illumination changes와 대응
5-1) window에서 각각의 PPG 값들에 대한 power spectral density(PSD)를 계산
5-2) PPG cell들에 대한 주파수 영역으로부터 얻어진 PSD 정보를 추가
=> main hypothesis : 생물학적인 신호 영역에 deepfake 생성기의 residual을 투영하면, source detection에 활용할 수 있는 고유한 패턴을 생성한다.

 

- [그 이후의 과정]
1) FaceForensics++ dataset의 각 영상 프레임에서 정렬된 얼굴에 temporal non-local means denoising을 적용
2) 원본과 denoise된 이미지의 차이를 모은 후 정규화하고, 각 대응하는 fake residual로부터 진짜 이미지의 noise를 뺀다.
3) 이런 방법으로 생성기 별 흔적으 보유할 수 있게 되고, 진짜 영상에서 나타나는 전반적인 noise 또한 축적할 수 있게 된다.
=> PPG-PSD의 색상은 이러한 residual spectrum의 다른 주파수에 해당하고, 이 주파수 중 일부는 실제로 residual 축적 영상에서 발견 가능하다. 즉, residual과 PPG cell의 상관관계를 설명할 수 있게 된다.

 


 

[4] Model Architecture

- multi-label classification task

- 학습 데이터셋: FF(70%-vs-30%)

- PPG cell의 window size: w=128

- FD(fake detection; binary classification)보다 SD(source detection)일 때 accuracy가 더 높음

 


 

[5] Video Classification

- 전체 영상은 PPG cell을 포함하는 몇 개의 window로 구성되는데, 이 때 window는 영상의 길이에 영향을 받는다.

- 각 cell에 대한 예측을 video에 대한 예측으로 종합하는 과정이 필요

=> 영상이 더 길수록 더 많은 PPG cell을 가지게 되고, 종합하는 과정에 기초하여 더 강력한 예측을 해낼 수 있다.

 


 

[6] Results

- face detection: python을 이용한 Open-Face library

- image processing: Open-CV

- neural network implrmentations: Keras

 

- [Ablation Study]
1) different setups
✓ PSD를 사용하였을 때와 사용하지 않았을 때는 비교하면, PSD를 사용하였을 때 real video를 더 확실하게 분류해내는 것을 확인 가능(real video의 accuracy가 7.64%나 상승)

2) window length
✓ PPG 신호를 측정하는 기간은 PPG cell의 안정성, 대표성에 중요한 역할
✓ 짧은 window: 주파수를 놓칠 수 있음
✓ 너무 긴 window: sjan 많은 noise가 포함되어 실제 신호를 흐리게 할 수 있음

3) extending with new models
✓ residual 분류를 위하 생성기 구조, 마지막 레이어를 활용하는 다른 방법들
✓ 본 논문에서는 model spcification이나 fake sample의 실제 counterparts 없이도 쉽게 새 모델로 확장 가능하다.
=> 즉, 모델 변경과 새로운 데이터셋 변경이 용이

4) Comparsion
✓ 다른 모델들에 비하여 학습할 때 computational 효율성이 좋음
✓ 훈련시킬 때 100epoch 당 2시간 35분 밖에 소요되지 않음

5) unseen generators
✓ real class의 제거는 생성 모델의 구분되는 residual을 찾을 때의 정확도를 높여준다.
✓ 이는 PPG signal이 생성 모델과 환경적인 효과(lighting, facial movement, occulsion)에도 영향을 받기 때문이다.
=> 이러한 random artifact는 패턴을 생성할 수 없기 때문에 현실은 실제 signature 없이 매우 chaotic한 상태이므로 PPG deviation의 모든 것은 real로서 분류

[7] Conclusion : deepfake와 real의 signature 모두에 집중하는 방향으로 연구를 진행할 것이다

 

 


 

댓글