How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via Interpreting Residuals with Biological Signals
Umur Aybars Ciftci, Ilke Demir, Lijun Yin
[0] Abstract
- pure deep learning based approaches:
생성기의 residual을 학습하는 CNN을 이용하여 deepfake를 분류하려고 함
- 본 논문에서는 residual에 많은 정보가 담겨 있다고 생각하며, 생물학적인 신호를 이용하여 이를 찾아내는 방법을 통해 조작된 artifact를 드러내려고 함
=> 즉, 생물학적 신호의 시공간적인 패턴은 residual의 대표적인 projection이다.
[1] Introduction
(1) a deep fake source detector:
- 주어진 영상에 대한 source 생성 모델을 예측
- source detection
✓ deepfake 영상에 대한 생성 모델의 residual을 해석
✓ 생성 모델의 signature에 부합하지 않음으로써 일관적이지 않은 생물학적인 신호를 가진 진짜 영상들도 진짜 영상으로 제대로 분류할 수 있기 때문에 전반적인 face detection accuracy를 올릴 수 있음
(2) PPG signals
- Anatomical actions(e.g. 심장박동, 혈관의 흐름, 호흡)은 눈에 보이지는 않지만 computationally 탐지할 수 있는 미묘한 변화들을 만듦
- 예시: 혈액이 움직일 때 혈액의 헤모글로빈이라는 성분 때문에 시간에 따라 피부의 반사율이 달라지는데, 이런 변화를 감지해내기 위해 이미지 처리 방법을 이용하여 PPG signal을 추출해내는 여러 접근 방법들이 개발됨
=> 따라서, 생물학적인 신호를 알려진 차원의 residual projection으로 해석하여 모델마다 고유의 signature을 찾을 수 있다.
cf. 생물학적 신호를 사용하는 synthetic video detection 연구인 [23]는 생물학적 신호의 시공간적인 불일관성이 deepfake를 탐지해내는데 활용될 수 있다는 것을 증명하였음
[2] Related Works
생략
[3] PPG cells
- 가짜 영상에 나오는 가짜 사람은 진짜 영상에 나오는 사람의 심장박동과 다른 패턴을 나타냄
=> 이러한 생물학적인 신호를 모델 별 residual의 signature transformation을 포함하는 가짜 심장박동으로 해석할 수 있다. 이에 따라,
✓ 영상의 진위성을 판별해낼 수 있다.(real? fake?)
✓ 영상을 생성하는데 사용한 source mode를 분류할 수 있다.
- PPG cells
✓ a novel spatiotemporal block
✓ 고정된 window(a.k.a w)에서 추출한 여러 raw signal과 power spectra를 결합
- [PPG cell의 생성 방법]
1) face detector를 이용하여 매 프레임마다 얼굴을 찾아낸다.
2) 가장 안정적인 PPG signal을 가지고 있는 것 같은 얼굴들에서 ROI를 추출한다.
✓ 생물학적인 신호는 facial movements, illumination variations, facial occulsions에 민감
✓ 이런 영역을 강력하게 추출하기 위해 skin exposure를 최대화한 눈과 입 사이의 영역을 이용
✓ 얼굴의 각각의 영역에서 PPG signal은 서로 연관되어있기 때문에 ROI를 선정하고, 그 상관관계를 측정하는 과정은 탐지율을 향상시키는데 매우 중요
3) 비선형적인 ROI를 사각형의 이미지로 정렬한다.
✓ Delaunay triangulation을 적용
4-1) 각 이미지를 32개의 동일한 크기를 가진 square로 나눈다.
4-2) w frame의 크기로 고정된 window의 square 당 raw Chrom-PPG signal을 계산
4-3) 수정된 이미지에서 Chrom-PPG를 계산(정확도가 더 높음)
4-4) w times 32개의 raw PPG 값들이 얻어지는데, 이 값들을 32행 w열의 행렬로 재구성
이 떄, 밝은 열들은 PPG signal이 갑자기 변화할 때 발생하는 significant motion, illumination changes와 대응
5-1) window에서 각각의 PPG 값들에 대한 power spectral density(PSD)를 계산
5-2) PPG cell들에 대한 주파수 영역으로부터 얻어진 PSD 정보를 추가
=> main hypothesis : 생물학적인 신호 영역에 deepfake 생성기의 residual을 투영하면, source detection에 활용할 수 있는 고유한 패턴을 생성한다.
- [그 이후의 과정]
1) FaceForensics++ dataset의 각 영상 프레임에서 정렬된 얼굴에 temporal non-local means denoising을 적용
2) 원본과 denoise된 이미지의 차이를 모은 후 정규화하고, 각 대응하는 fake residual로부터 진짜 이미지의 noise를 뺀다.
3) 이런 방법으로 생성기 별 흔적으 보유할 수 있게 되고, 진짜 영상에서 나타나는 전반적인 noise 또한 축적할 수 있게 된다.
=> PPG-PSD의 색상은 이러한 residual spectrum의 다른 주파수에 해당하고, 이 주파수 중 일부는 실제로 residual 축적 영상에서 발견 가능하다. 즉, residual과 PPG cell의 상관관계를 설명할 수 있게 된다.
[4] Model Architecture
- multi-label classification task
- 학습 데이터셋: FF(70%-vs-30%)
- PPG cell의 window size: w=128
- FD(fake detection; binary classification)보다 SD(source detection)일 때 accuracy가 더 높음
[5] Video Classification
- 전체 영상은 PPG cell을 포함하는 몇 개의 window로 구성되는데, 이 때 window는 영상의 길이에 영향을 받는다.
- 각 cell에 대한 예측을 video에 대한 예측으로 종합하는 과정이 필요
=> 영상이 더 길수록 더 많은 PPG cell을 가지게 되고, 종합하는 과정에 기초하여 더 강력한 예측을 해낼 수 있다.
[6] Results
- face detection: python을 이용한 Open-Face library
- image processing: Open-CV
- neural network implrmentations: Keras
- [Ablation Study]
1) different setups
✓ PSD를 사용하였을 때와 사용하지 않았을 때는 비교하면, PSD를 사용하였을 때 real video를 더 확실하게 분류해내는 것을 확인 가능(real video의 accuracy가 7.64%나 상승)
2) window length
✓ PPG 신호를 측정하는 기간은 PPG cell의 안정성, 대표성에 중요한 역할
✓ 짧은 window: 주파수를 놓칠 수 있음
✓ 너무 긴 window: sjan 많은 noise가 포함되어 실제 신호를 흐리게 할 수 있음
3) extending with new models
✓ residual 분류를 위하 생성기 구조, 마지막 레이어를 활용하는 다른 방법들
✓ 본 논문에서는 model spcification이나 fake sample의 실제 counterparts 없이도 쉽게 새 모델로 확장 가능하다.
=> 즉, 모델 변경과 새로운 데이터셋 변경이 용이
4) Comparsion
✓ 다른 모델들에 비하여 학습할 때 computational 효율성이 좋음
✓ 훈련시킬 때 100epoch 당 2시간 35분 밖에 소요되지 않음
5) unseen generators
✓ real class의 제거는 생성 모델의 구분되는 residual을 찾을 때의 정확도를 높여준다.
✓ 이는 PPG signal이 생성 모델과 환경적인 효과(lighting, facial movement, occulsion)에도 영향을 받기 때문이다.
=> 이러한 random artifact는 패턴을 생성할 수 없기 때문에 현실은 실제 signature 없이 매우 chaotic한 상태이므로 PPG deviation의 모든 것은 real로서 분류
[7] Conclusion : deepfake와 real의 signature 모두에 집중하는 방향으로 연구를 진행할 것이다
댓글