Singapore Management University
제목 : Vitamon : Measuring Heart Rate Variability Using Smartphone Front Camera
저자 : Sinh Huynh, Rajesh Krishna Balan, JeonGil Ko, Younki Lee
1. Abstract
• Vitamon
1) 심장 박동의 간격(IBI)를 휴대폰 전면 카메라로 촬영한 얼굴 영상으로 측정할 수 있는 mobile sensing system
2) IBI 측정은 HRV를 계산하는데 사용
3) HRV : 자율신경계(ANS) regulation의 중요한 지표 중 하나
4) ANS : 말초신경계통에 속하는 신경계로 몸 전신에 분포하여 우리 몸의 환경을 일정하게 유지해주는 역할
2. Introduction
• About HRV
1) 연속적인 심장박동 간격의 파동
2) 다양한 연구와 임상연구에서 진단지표로서의 효율성을 입증받음
- 개인의 건강 상태를 tracking할 때 유용
- 스트레스 정도와 어떤 일을 수행할 때의 관여도를 측정 가능
- 수면의 질을 측정하는데 도움
• Vitamon model : two-stage CNN
- 첫번째 네트워크
1)영상에서 추정된 ECG signal과 PPG signal의 상관관계를 학습
2) captured video로부터 ECG waveform을 재구성하여 영상의 어떤 frame이 peak를 포함하는지 식별
- 두번째 네트워크
1) 실제 peak time과 이미지 capture time에서 발생한 시간적 거리와 얼굴 이미지 사이의 관계를 학습
=> Vitamon은 peak의 실제 타임스탬프를 추정할 수 있음
3. Background and related work
• HRV measurment
1) 적용 분야 : 심장 장애를 미리 예측, 다양한 병의 진단, 행동 기반 스트레스 측정
2) HRV 측정 방법 : photoplethysmogram(PPG), ECG
– PPG
- 저비용으로 쉽게 심장박동을 측정 가능
- 센서를 피부에 부착해야하기 때문에 일상에서 사용하기에 불편
• Photoplethysmogram (PPG)
1) 광학 센싱 기술(optical sensing technique)로 심장박동을 탐지
2) “혈액은 주변에 있는 조직들보다 빛을 더 흡수한다. 피부에 빛을 비추면 혈액량의 변화를 포착할 수 있을 것”
→ 1/피부에서 반사된 빛의 세기 ∝ 빛의 흡수량 ∝ 혈액량
3) HRV를 계산할 수 있을만큼 지속적으로 연구, 정확도 향상
4) 한계 : 일반적으로 센서를 피부에 부착하여야하므로 유비쿼터스 측정이 어려움
• 다른 HRV 측정 기술
1) 예 : elctrical, acoustic, seismic sensor
2) 측정된 HRV는 주로 임상 환경에서 사용됨
4) 한계 : 정확한 측정을 위해 피부에 센서를 부착하여야 함
• ECG sensor
1) 모바일 기기에서 HRV를 측정하기 위한 시도
2) 다양한 도메인의 적용에 유망한 성과를 보임
3) 한계 : 다양한 도메인의 사용성(usability)에 문제가 있음
• Remote PPG
1) 카메라 영상에서 혈액량과 피부의 미묘한 색 변화를 포착
2) 사람의 눈에서 보이지 않지만 RGB 카메라로 포착 가능
3) 영상의 프레임을 기반으로 혈액량 변화를 탐지
4) 피부에 센서를 부착하지 않아도 된다는 장점
• Remote PPG 선행 연구
– Poh et. al
- 얼굴 영역을 각 input frame으로부터 추출
- 연속적인 frame에서 얼굴 영역의 픽셀값을 평균화하여 맥박 신호(pulse signal)를 재구성
- upsamling / 맥박신호에 interpolation 및 bandpass 필터를 적용
- 심장박동의 수를 세어 peak 탐지
– Kwon et. al
아이폰 카메라를 사용한 심장박동 측정의 실현 가능성을 입증
• Remote PPG 한계
1) HRV 측정은 100Hz sampling rate가 필요한데 스마트폰의 카메라는 더 낮은 sampling rate(e.g. 15Hz)로 작동
2) 외부 lighting conditions과 motion artifact로 정확한 측정이 어려움
3) 몇몇의 연구는 signal processing을 제안하여 문제를 해결하려함
→ 스마트폰 전면 카메라의 낮은 프레임률와 해상도 때문에 해결되지는 않았음
4) 아무리 높은 sampling rate로 측정하더라도, ECG로 측정된 interval과 비교하였을 때 pulse sensor로 측정된 interval는 오류 발생
→ PPG 파형의 peak는 ECG 파형의 R-peak만큼 뚜렷하지 않음
• Vitamon 연구
1) 차별점 : 얼굴 영역을 통과하는 맥박 신호의 시간 지연에 주목
2) 얼굴 영상을 서로 다른 위상(phase) 또는 시간 지연(time delay)을 가진 bvp의 여러 신호 소스로 간주
* bvp(blood volume pulse) : bvp 신호를 이용하여 heart rate과 inter-beat-interval 계산 가능
4. Investigation : Can you extract multiple PPG Data Points from facial Images?
• 가설
1) “안면 동맥 구조가 주어졌을 때 얼굴의 각 부분은 PPG peak를 나타낼 것이다”
→ 이 가설을 활용하면 더 정확한 peak 발생 시간을 알아낼 수 있음
2) 맥박전달시간(pulse transit time) : 맥박이 두 동맥 사이를 이동하는 시간 (심장→귀 : ~174ms, 귀→손가락 : ~245ms)
=> 따라서 이 연구에서는 안면 동맥에서도 맥박이 이동하는 데 시간이 걸릴 것이라고 추정
• 가설 입증
1) 실험대상 : 19~31세 사이의 10명의 참가자 (4명의 여성)
2) 실험방법 : PPG 센서를 5개의 얼굴 영역(R1~R5)에 부착하여 PPG-peak delay가 각각의 영역에서 어떻게 발생하는지를 알아봄 (R1 : jaw corner, R2 : center chin, R3 : upper lip, R4 : below left eye, R5 : forehead)
3) 맥박은 R1에서 R5로 이동
4) 5개의 신호는 모두 시간 동기화됨
5) 수집된 데이터의 normilize된 PPG 신호 지표
6) “사람의 얼굴 동맥 구조에 기반한 PPG 신호의 시공간적인 측면을 활용할 수 있다.”는 점을 증명
7) 두 얼굴 영역에서 관측된 신호의 시간 차를 측량화하는 방법
- using peak detection
- phase-shift calculation via cross-correlation computation
8) 시간 지연은 위 두 정량화 방법에서 일관된다.
5. Design of Vitamon
• Preprocessing : Extract the Green Color Channel
- 224x224 해상도로 resize
- 영상에서 각 프레임의 green color 채널을 추출하고 정규화
1) 2번의 이유 :
혈액의 주성분인 헤모글로빈과 옥시헤모글로빈의 흡수 스펙트럼이 520~580mm 광스펙트럼(녹색 스펙트럼의 중간에 위치)에서 정점이 이르기 때문
• Normalization & Input Creation
1) 영상의 모든 프레임을 처리하는 것은 컴퓨터의 비용이 높음
2) Vitamon은 영상에서 추출된 프레임에서 green color 채널을 stack한 구조의 다중채널 이미지들을 생성
- n개의 sample set에서 green 채널 샘플을 추출하여 n개의 샘플에 포함된 특징을 결합한 단일 이미지를 생성
- 이 과정에서 이미지의 깊이 차원은 n개의 연속적인 green 프레임의 시간정보를 가지게 됨(15fps 영상에서 n의 best는 25)
- 생성된 이미지를 통해 전체 심장박동 사이클을 탐지할 수 있음
• Two-Phase Machine Learning
1) HRV의 측정은 HR의 측정에 비해 까다로움 (HRV : millisecond, inter-beat time | HR : minute : the number of beats)
2) Vitamon은 HRV를 추출하기 위해 다음의 단계를 거친다.
3) ECG 신호의 frame-order waveform을 재구성하여 영상 시퀀스에서 심장박동 사이클 peak를 정확하게 식별
4)각각의 peak의 실제 타임스탬프를 추정
• Phase 1 : Reconstruction & Segmentation
1) Inception V3 모듈을 사용한 CNN Regression Model
2) stack된 이미지 내에서 실제 sub-frame을 식별할 수 있게 모델훈련
- 이전에 관찰한 peak에 따라 중심 프레임의 오프셋을 표시하여 데이터에 라벨을 지정 (라벨은 항상 양수)
- n개의 채널 이미지 각각에 대한 심장박동의 peak가 발생한 위치를 식별할 수 있음
- 이 과정을 완료하면 모든 이미지 시퀀스에 대해 frame-order waveform을 만들 수 있음
• Phase 2 : Peak Detection
- 0으로 라벨링된 n개의 채널 이미지에서 가장자리의 하위 채널을 대칭적으로 잘라냄 (peak 정보는 가운데에 보존)
- 위에서 가공된 이미지와 ECG waveform을 사용하여 2번째 CNN 델 훈련
- 가공된 이미지에서 색상분포는 R-peak가 발생한 위치에 따라 달라지므로, R-peak가 발생한 실제 시간에 대해 세밀한 추정을 할 수 있음
댓글