Motion Capture

2021-07-14 1156 words 3 minutes

Contents

Motion capture는 모션에 대한 정보를 수집하는 것으로 어떠한 대상의 위치정보(position)와 회전정보(orientation)을 기록하는 것이다. 줄여서 mocap으로 말하기도 한다.

Optical Motion Capture

고품질의 pose 정보를 얻을 수 있는 방법으로 광학식으로 정보를 취득하는 방법이다. XENS사나 OptiTrack과 같은 회사가 유명한데, 흔히 쫄쫄이 의상을 입고 촬영하는 motion capture가 이러한 방식에 해당한다. 이런 의상에는 마커라는 장치가 붙게된다. 광학 카메라가 이러한 마커를 읽고 해당 마커의 위치를 기록하게 된다. 마커가 단지 빛을 반사하기 위한 도료만 발라져 있다면 passive marker, 스스로 전원을 사용해 빛을 내보낸다면 active marker라고 한다. Active marker의 경우 매우 높은 signal-to-noise ratio(SNR)데이터를 만들 수 있어 고해상도(0.1mm 수준) 정보 수집이 가능하다고 한다. Motion capture장비를 사용해 취득한 데이터는 정확도나 프레임측면에서 다른 방식에 비해 시각적으로도 간단히 확인할 정도로 높은 품질을 보여준다.

Optical motion capture는 다른 방법대비 매우 높은 품질의 pose정보를 취득할 수 있지만 여러 대의 카메라를 사용해야하고 광학식 장비이므로 주변 빛조건의 영향을 많이 받아 시설비용이 상당하다는 단점이 있다. 그리고 촬영시에도 카메라의 흔들림, 외부 빛, 가림(occlusion)등 다양한 요소를 신경써야 한다.

Monocular Motion Capture

하나의 렌즈정보만으로 수행하는 motion capture이다. 영상에서 볼 수 있는 정보만으로 모션에 대한 정보를 추정해 기록하는 방식이다. 영상정보만 있으면 되다보니 사용측면에 있어서는 매우 간단하지만 깊이정보가 없는 2차원 이미지만으로 깊이정보까지 추정해야하다보니 광학방식에 비해 품질이 낮다.

Parametric Human Body Models

사람에 대한 모델을 만들고(parameteric) 이 모델을 기반으로 pose estimation을 하는 모델을 parametric 모델이라고 한다. 이 때 기본틀을 제공하는 모델을 template이라고 한다. SMPL의 경우 template mesh를 잡고 linear blend skinning된 결과의 local pose-dependent blend shape을 학습한다. 사람의 template mesh가 있다면 (대부분의) 사람은 비슷한 형태를 공유하므로 인식한 이미지에서 스케일이 비슷하도록 template을 맞추어 주면 body model을 사용해 꽤 정확한 pose 정보를 얻을 수 있다. 이러한 방식의 장점은 학습한 body model이 가지고 있는 정보덕분에 사람의 mesh정보가 충분히 잘 맞추어지기만 한다면 깊이에 대한 정보는 body model의 정보를 사용해 추정정확도를 향상시킬 수 있다는 것이다. 하지만 동시에 body model을 필요로 한다는 제약이 생기게 된다. SMPL은 자체적으로 많은 파라미터를 가지며 이 파라미터를 추정하는 VIBE와 같은 모델도 있다.

정리하면 body model은 parameter를 통해 고유의 방식으로 몸에 대한 정보를 표현하며(SMPL의 경우 vertex) 이러한 접근은 pose estimation을 model에 대한 parameter를 잘 찾는 문제로 바꾸어주게 된다.