[증강현실 기술의 발전 방향과 시사점] 2편 산업 현장에서 활용 가능한 증강현실

2020-04-08 최준영

'디지털 트랜스포메이션 시대에 주목받는 증강현실'에 이어, 이번 편에서는 '산업 현장에서 활용 가능한 증강현실'에 대해 살펴 보겠습니다.

지금까지는 증강현실을 가능하게 하는 하드웨어적 변화를 중심으로 살펴보았습니다. 기기의 디스플레이에는 현실 세계와 가상 세계가 잘 정합되어 그려져야 합니다. 증강현실이란 결국 현실과 가상의 경계에서 적절한 상호작용을 통해 사용자에게 새로운 경험을 제공해 주는 기술이기 때문입니다. 현실 세계의 영상 안에서 공간의 크기, 각도, 위치 등을 얼마나 잘 파악하여 이를 가상 세계로 연결하는지에 따라 몰입감이 달라집니다. 그러면 실제 산업 현장에서 증강현실을 활용하는 방법에는 어떤 것이 있는지 알아보겠습니다.

마커(Marker)

증강현실에서 현실 세계와 가상 세계를 연결하는 것은 매우 어려운 일입니다. 초창기에는 이를 해결하고자 마커 기반의 기술을 도입하였습니다. 미리 지정해 둔 특정표시를 인식하면 사전에 정의해 둔 반응이 실행되게 하는 것으로 마커를 통해 현실 환경을 분석하고 이를 가상 세계와 손쉽게 접목시킬 수 있습니다.

마커란 명암 대비가 명확하여 특징점들을 추출하기 쉽게 고안한 이미지입니다. 쉬운 예로 체스판 이미지나 QR 코드를 들 수 있습니다. 이러한 이미지는 낮은 수준의 해상도를 가진 영상 카메라를 통해서도 충분히 인식 가능한 형태로 제공됩니다.

마커를 통해 현실 세계와 가상 세계를 정합하는 원리는 다음과 같습니다. 카메라 영상을 통해 캡처된 이미지로부터 마커를 감지하고 마커가 인식되면 마커의 위치, 방향 등을 카메라로부터 상대적인 데이터로 계산하여 현재 카메라의 포즈와 가상의 물체가 놓여질 위치, 방향을 추정합니다. 이 방식의 트래킹은 단순히 증강현실 상에서뿐만 아니라 가상현실에서도 HMD가 사용자의 위치를 트래킹 할 때 한계를 극복하기 위한 방안으로 활용되었습니다.

슬램(SLAM, Simultaneous Localization and Mapping)

마커 기반의 기술은 투입 리소스에 비해 효과가 매우 큰 방식임에는 틀림없지만 미리 정확한 위치로 약속이 필요하고 카메라가 마커를 벗어나면 트래킹이 불가능해지는 등 기술적인 한계가 명확했습니다. 증강현실 기기들에는 카메라뿐 아니라 GPS, 자이로 센서, 가속도 센서 등 다양한 센서들이 부착되어 있는데 이를 이용한 기술이 등장합니다. 바로 슬램(SLAM)입니다.

슬램은 우리 말로 하면 '동시적 위치 추정 및 지도 작성' 정도가 됩니다. 1986년 랜들 C. 스미스(Randall C. Smith)와 피터 치즈맨(Peter Cheeseman)의 로봇공학 논문에서 처음 등장한 개념으로 정보가 주어지지 않은 임의의 공간에서 이동하며 정보를 탐색할 수 있는 로봇을 통해 자신의 위치를 추정하고, 더 나아가 공간의 지도를 작성하는 것을 의미합니다.

로봇에 장착된 거리센서에서 실제 측정값을 바탕으로 로봇의 실제 위치를 추정함

[그림 1] 슬램의 동작 원리

이 방식은 증강현실에서도 그대로 적용할 수 있습니다. 기본적으로 주변 환경에 대한 정보가 없는 상태에서 이 기술을 적용하면 카메라와 관성 센서 등의 정보를 이용하여 주변 환경을 인식해 자신의 위치와 주변 공간구조를 파악할 수 있습니다.

카메라의 매 프레임마다 특징점을 추출하여 카메라의 픽셀과 현실 세계의 점을 연결하고 이 점들의 변화를 계산하여 현재 위치를 추정합니다. 이 과정은 초당 30번 이상 수행되며 부정확한 가능성을 가지고 있습니다. 광학 시스템은 거리에 따라 종종 오류를 쌓기 때문입니다. 이를 보완하는 것으로 관성 시스템이 있습니다. IMU(Inertial Measurement Unit, 관성측정장치)나 관성 센서, 자이로 센서 등의 하드웨어 센서로부터 전달받는 값의 부정확성은 시간이 지날수록 오차를 크게 만듭니다. 1초에 천 번의 센싱이 가능한데 바꿔 말하면 초당 천 번의 오류가 누적된다는 의미입니다. 이 부정확성은 광학시스템을 통해 보완됩니다. 불완전하지만 상호독립적인 두 시스템은 각각의 강점이 서로의 약점을 보완해 줍니다. 단일렌즈를 갖는 모바일상에서 증강현실 구현이 가능한 이유입니다.

객체 인식(Object Recognition)

현실 세계와 가상 세계를 연결하는 다른 방법이 있습니다. 객체 인식이라고 불리는 기술입니다. 슬램 기반의 기술이 주변 환경을 인식하고 이를 토대로 가상의 사물을 현실과 결합하는 것이라면 객체 인식 기술은 현실 세계에 존재하는 특정 사물을 인식하고 이를 토대로 현실 세계와 가상 세계를 정합시키는 방식입니다.

객체 인식 기술은 현실 세계에 존재하는 특정 사물의 3D 모델 데이터로부터 추출한 특징점, 윤곽선(Edge) 등의 정보를 이용하여 해당 물체가 어디에, 어떤 포즈로 놓여 있는지를 찾습니다. 사람에게는 인지능력이 있어 물체를 인식하는 것이 간단해 보일 수 있으나, 소프트웨어 기술 측면에서는 물체가 놓인 각도, 조명 등 주변 환경에 따라 추출되는 정보가 다르기 때문에 정확한 포즈를 찾는 것은 난이도가 매우 높은 일입니다. 다행스럽게도 이미 많은 연구가 진행되었고 자동차, 오토바이 등 윤곽선이 뚜렷하고 수준 높은 3D 모델 데이터가 존재하는 물체들은 인식 정확도가 매우 높습니다.

[그림 2] 뷰포리아(Vuforia)의 AR 엔진을 사용하여 오토바이 모델을 인식한 모습

보다 쉬운 접근법도 있습니다. 인식하고자 하는 물체를 미리 학습시켜 두는 것입니다. 물체를 모든 방향에서 촬영해 인식 시 사용할 특징점들을 미리 추출해두고 실제 물체를 인식하는데 이 정보를 활용하는 방법입니다. 특정 물체를 일종의 3차원 마커처럼 사용하는 것으로 사전 작업이 필요하긴 하지만 높은 컴퓨팅 파워가 필요하지 않고 인식만 제대로 해놓으면 성능이 매우 뛰어나기 때문에 활용하기 쉽고 효과도 좋습니다.

[그림 3] 실제 사물을 3D 마커로 인식하도록 학습시키는 모습

3D 자세 추정(Pose Estimation)

물체가 아닌 사람의 자세를 추정하는 기술이 있습니다. 3D 자세 추정(3D Pose Estimation)으로 불리는 이 기술은 사람의 2차원 사진 이미지로부터 3차원 자세를 추정하는 기술입니다. 3D 모델 데이터가 존재하는 물체 인식과는 달리 사람의 형상은 미리 데이터로 만들 수 없고 성별, 나이, 체형 등에 따라 다르기 때문에 일반적인 방법으로는 구별이 불가능합니다. 이 문제를 해결하기 위하여 머신러닝(Machine Learning) 기법을 적용하였습니다.

수천수만 장의 사진에 사람의 관절 위치를 마킹하여 미리 학습을 시켜 두고 2차원 사진 이미지로부터 사람의 머리, 목, 어깨, 팔꿈치, 무릎 등의 관절을 찾아내어 최종적으로 자세를 추정합니다. 입력받는 데이터 자체가 2차원이기 때문에 사람의 자세에 따라 가려지는 부분이 생기게 되는데 이는 머신러닝을 통해 보완합니다.

[그림 4] OpenPose 라이브러리를 사용하여 영상에서 단체로 무리를 사람의 자세를 추출한 모습

초창기 자세 추정 기술은 사람의 관절 위치 정도만을 찾을 수 있었습니다. 아울러 대용량 데이터를 미리 학습시켜야 하고 학습 모델이 완성되어 있어도 실제 사진으로부터 사람의 자세를 검출하는데 많은 컴퓨팅 파워가 필요하여 실시간 처리에 어려움을 겪었습니다. 하지만 머신러닝 기술이 발전하면서 단 한 장의 사진만으로도 사람의 3차원 자세 추정이 가능해졌습니다. 정확도가 매우 높아졌고 실시간 처리가 가능해 사진이 아닌 영상에서도 사람의 자세를 추정할 수 있는 수준까지 발전하였습니다. 이뿐 아니라 사람의 관절이 아닌 체형에 따른 차이도 구별하여 사진 또는 영상으로부터 사람과 동일한 가상의 인물을 생성할 수 있는 수준까지 발전하고 있습니다.

프로젝션 맵핑(Projection Mapping)

지금까지와는 전혀 다른 방식의 증강현실이 있습니다. 프로젝션 맵핑이라 불리는 이 기술은 대상물의 표면에 빛으로 이루어진 영상을 투사하여 변화를 줌으로써 현실에 존재하는 대상이 다른 성격을 가진 것처럼 보이도록 하는 기술입니다. 프로젝션 맵핑을 통해 오브젝트에 구현한 그래픽은 공간에 대한 증강현실의 영상을 덧입혀 보다 확장된 공간감과 실재감을 불러일으킵니다. 고정된 사물에 대해 미리 계산된 영상을 투사하는 방식이기 때문에 사용에 많은 제약이 따르고 피사체에 투사하는 영상 이미지를 다른 공간에서 재사용할 수 없지만 그 효과만큼은 매우 뛰어납니다.

[그림 5] 건담 모형에 프로젝션 맵핑 기술을 적용시킨 모습

시사점

최근 몇 년 동안 증강현실 분야는 비약적으로 발전하였습니다. 기술 난이도로 인해 가상현실보다는 뒤처져 있지만, 성장 잠재력은 훨씬 더 큽니다. 사용자의 시야 전체를 가상의 화면으로 채우는 가상현실보다 실생활에 적용할 여지가 훨씬 많기 때문입니다. 한국과학기술기획평가원(KISTEP)이 2018년에 발표한 보고서에 따르면 2022년 전 세계 증강현실과 가상현실 시장은 1,050억 달러(한화 118조9650억 원) 규모로 성장할 것으로 전망됩니다. 이 중 약 86%에 해당하는 900억 달러(101조9700억 원)를 증강현실이 차지했습니다. 증강현실 시장이 가상 현실에 비해 10배나 더 커질 전망입니다.

현재 증강현실 시장은 구글, 애플, 마이크로소프트, 페이스북 등 거대 글로벌 기업들이 주도하는 가운데 위키튜드(Wikitude), PTC, 맥스트(Maxst) 등 국내외 수많은 기업이 경쟁하고 있습니다. 기업에 있어 증강현실 기술은 더 이상 새로운 것이 아닙니다. 디바이스와 플랫폼이 갖춰지면서 누구나 시도할 수 있게 되었고 산업 전반에 걸쳐 활용 방안을 모색하면서 생태계가 빠르게 확산되고 있습니다. 이제 이 인프라를 어떻게 활용할지가 관건입니다.

증강현실은 그 자체만으로 완벽한 해답을 내놓지는 못하고 있지만 이미 충분한 인프라를 활용하여 생산성 향상을 위한 보조 수단 및 편의를 제공할 수 있는 다양한 솔루션들이 출시되고 있습니다. 향후 시장의 관심은 소프트웨어 분야에 집중될 것입니다. 기술적 한계를 극복하기 위해 인공지능 등 다른 기술과 접목이 활발해질 것이고, 구글 지도의 증강현실 길찾기 기능과 같이 이미 갖춰진 거대한 데이터를 활용한 융합 서비스도 본격화될 것입니다. 그 결과 다양한 장르에 걸쳐 놀라운 아이디어로 무장한 애플리케이션들이 선보이면서 증강현실 시장 성장을 주도할 것으로 예상됩니다. 반면 디바이스는 빠른 속도로 발전하고 있고 기술 수준 역시 높아지고 있기 때문에 선두 주자들과 후발주자 간의 격차가 점점 커질 것입니다.

증강현실은 더 이상 스포츠 중계나 선거 개표 방송에서만 접하는 기술이 아닙니다. 2019년 초 종영된 증강현실 게임을 소재로 한 드라마 '알함브라 궁전의 추억'은 우리 눈앞에 성큼 다가온 미래를 선명하게 보여준 좋은 사례입니다. 증강현실이 모바일이나 웨어러블 디바이스를 넘어 우리 삶에 스며들 날이 머지않았습니다.

References
[1] Simultaneous Localization and Mapping: Part I (Durrant-Whyte & Bailey 2006)
[2] https://www.youtube.com/watch?v=6W7_ZssUTDQ
[3] https://developer.apple.com
[4] https://www.ri.cmu.edu/a-computer-that-reads-body-language
[5] http://tokyoartcity.tokyo/case_cat/anime
[6] KISTEP AR/VR 기술, 2018.07, 한국과학기술기획평가원

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

최준영 IT 테크놀로지 전문가

에스코어(주) 소프트웨어사업부 기술그룹

에스코어 기술그룹에서 플랫폼 개발자로 근무하고 있습니다. 산업 현장에 적용 가능한 증강현실 연구 개발을 담당하고 있습니다.