Visual AI ② - AI에 관한 일반적인 오해

비쥬얼 AI - AI에 관한 일반적인 오해

AI에 관한 일반적인 오해

최근 IT 업계 뿐 아니라 사회 전반에 걸쳐 인공지능(AI) 혁명이 일어나고 있지만 동시에 다음과 같은 인공지능 전반에 관한 오해도 공존하고 있습니다.
(1) 딥러닝을 통해 AI가 인간의 지능 수준까지 도달할 수 있다.
(2) 알파고의 놀랄만한 성공을 보면, AI가 인간 수준의 지능에 거의 도달했음을 알 수 있다.
(3) 딥러닝의 뛰어난 능력은 AI가 데이터 제공만으로 대부분의 문제를 해결한다는 데 있다. 예를 들어, ImageNet 과 같은 네트워크에 충분한 데이터를 제공하면 대부분의 비주얼 이해 문제를 해결할 수 있다.
(4) AI 는 너무나 강력해서 영화 ‘터미네이터’처럼 인간의 능력을 능가하고, 인류 생존을 위협할 것이다.

위와 같은 오해를 하지 않으려면, AI 기술과 잠재력에 관대해 보다 현실적으로 검토하고 평가하는 것이 중요합니다. 또, 인재 육성 및 유치에 지속적으로 투자함으로써, 장기적인 기술 발전을 이룩하는 것이 필수입니다.

그렇다면, 위 예시들 중 무엇이 오해이고 미숙한 관점일까요?

   (1) 수십 년 전, 인공신경 네트워크 (Artificial Neural Network) 기술이 고안, 개발되었습니다. 인공신경 네트워크는 인간의 뇌를 모방하여, 여러 층으로 인공신경을 쌓는 것을 의미합니다. 최근의 성공은 방대한 데이터, 급속히 증가하는 계산력, 몇 인공신경 네트워크의 알고리즘 발전과 조합을 통해서 가능했으며, 향후에도 전도유망할 것으로 생각됩니다. 다만, 딥 네트워크 모델은 매우 특수한 측면(시각적 인식이나 패턴 인식의 수준이 낮은 형태의 모델)을 갖고 있어 아직까지 인간은 물론이고, 동물의 지능에 관대해서도 포괄적인 이해가 완성되진 않았습니다. 그 외 모델화되고, 연구화된 인간 지능으로는 보다 근본적인 측면의 추론, 계획, 형성 개념, 의사결정 등이 있지만 현재까지 괄목할만한 성과는 없었습니다. 그래도 AI 보드 게임 플레잉 (알파고), 비디오 게임 플레이, 음성인식에서 가능한 요소로서 딥 네트워크의 성공이 이미 검증되었듯이, 딥러닝이 이러한 기능들을 실현하기 위한 도구를 제공했다는 것에 희망적인 발전을 기대할 수 있습니다.

   (2) 인간을 큰 차이로 이긴 알파고는 현재 AI 혁명에서 매우 중요한 시사점을 안겼습니다. AI가 인간 수준으로 바둑을 둔다는 것은 불가능하거나고, 매우 먼 미래의 일이라는 인식을 깨버렸고, 아이러니하지만 AI가 인간을 이긴 것이 AI 기술 전반의 근본적인 발전이라는 인식도 깨버렸습니다. 알파고는 엄청난 기술적 진보이지만, 결국 기존 알고리즘의 합리적인 조합일 입니다. 또한 AI 연구진들도‘인간 수준의 ‘뛰어난 AI’의 달성에 근접했다고 주장하고 있지 않습니다.

   (3) 사물 인식의 문제를 해결하기 위한 ImageNet data 와 딥 네트워크 조합의 성공은, 마치 방대한 데이터를 아키텍처의 일부 트위스트를 거쳐 딥러닝 프레임워크에 제공하면, 모든 이미지 이해 문제를 해결할 수 있다는 성급한 희망을 야기했습니다. 그러나 예전 기사에서 소개했듯이, 특정 비주얼 작업에 대한 맞춤형 비주얼 알고리즘에는 방대한 스펙트럼이 존재합니다. 이러한 비주얼의 개념적 작업들은 보편적인 딥러닝의 범주에 속하기 보다는, 각각의 기능 발현을 위한 서로 다른 아키텍처로 확대되고 있으며, 동시에 일반적인 사물 인식 작업에 훈련된 일반적 기능 확장 레이어도 유지하고 있습니다. 이러한 ‘비주얼 서비스 레이어’는 뒤의‘Visual AI 의 현실적 전망’에서 더 자세히 설명하겠습니다.

   (4) 지금까지의 내용은 인간 수준의 AI (또는 일반적으로 부르는 ‘The Singularity’) 에 관한 올바른 통찰이 없었던 시기에 나왔기 때문에, 추가적으로 설명할 필요가 없습니다. 오히려 AI분야의 연구진들은
 (1) 훈련 AI 모델 해석의 어려움,
 (2) 비일관적인 AI 모델 행동의 현실 사례,
 (3) 관리 불가능한 속도로 인간의 노동력을 대체하는 AI의 잠재력에 관하여 좀 더 현실적인 우려를 하고 있습니다. 이는 아주 가까운 미래에 발생할 수 있는 과제들로, 조속히 해결되기 위해서는 더 많은 관심이 필요합니다.

다양한 비주얼 AI 문제 해결을 위한 기능 확장 레이어 상단에  ‘비주얼 서비스 레이어’ 스펙트럼이 존재(imagenet에서 Feature extraction layers로 표현 그림 3: 다양한 비주얼 AI 문제 해결을 위한 기능 확장 레이어 상단에 ‘비주얼 서비스 레이어’ 스펙트럼이 존재

Visual AI 의 현실적 전망

컴퓨터 비전 분야의 컴퓨터 과학자와 엔지니어는 딥러닝 기술 환경에 익숙해있기 때문에, ImageNet 분류 문제의 해결이 그 외 이미지의 이해 기능으로도 확장될 수 있다는 것을 일찍이 깨달았습니다. 그러한 비주얼 기능의 사례로는 장면 속에서 사물 찾기 (탐색), 각각의 이미지 속 2개의 사물 간 동일성 (매칭), 개별적으로 사물 추적하기 (추적), 사물의 정확한 경계 찾기 (세분화), 비디오에서 픽셀 수준의 움직임 추정 (모션/옵티컬 플로우 계산), 장면의 3차원 구조 재구성 (3D/스테레오), 비디오에서 인간 행동 인식 (행동 인식), 문구 또는 문장에서 이미지나 비디오 묘사 (이미지/비디오 캡션/태깅/인덱싱) 등 이 있습니다. 이것들은 모두 수학, 기하학, 통계 모델링, 최적화, 머신러닝 등의 분야에서 수 십 년 동안 컴퓨터 비전 문제를 해결하기 위해 등장했던 다양한 도구들입니다. 딥 러닝에서 이러한 문제들이 재발견되고 관련 연구 활동이 폭발적으로 증가하면서 사실상 이 문제들은 이미지 분류와 마찬가지로 동일한 수준의 성공을 누리게 되었습니다.

그림 3과 같이, 대부분의 알고리즘은 다음을 기준으로 합니다.
  - 이미지 분류 문제에 훈련된 기준 ‘피처 확장 레이어(Feature extraction layers)’ 위에 특정 기능을 수행하는 새로운 레이어를 설계하고 추가.
표면적으로 이러한 최상위 레이어는 출력 형식이 다릅니다.
  - 클래스 레이블 (분류), 바운딩 박스 위치/사이즈 (탐색), 픽셀 당 레이블 (세분화), 모션 벡터 분야 (모션 컴퓨테이션), 픽셀당 3D 범위값 (3D 재구성) 등..
하지만 이 서비스 레이어 아키텍처는 맹목적인 시행착오에서 발생한 단순한 결과가 아닙니다. 즉, 여러 가지 설계 안 중에 하나일 뿐이고, 다양한 숫자의 레이어/노드, 비선형의 활성화 기능, 트레이닝 파라미터를 단순하게 테스트하는 것이 아닙니다.

이러한 기준 파라미터 테스트는 소위 ‘ 하이퍼 파라미터 최적화’로 불리며, 별도의 과정으로 간주됩니다. 하지만 애초부터 올바른 아키텍처를 찾기 위해서는 ‘하이퍼 파라미터 최적화’ 과정을 지나기 전에, 이 분야에서 지금까지 축적된 통찰력과 모델링 지식이 필요합니다. 그럼에도 불구하고, 다양한 분야의 문제 해결을 위해 공통 프레임워크로 작업하는 것은 연구 측면(공통의 수학과 알고리즘 도구)뿐 아니라 이행의 측면(공통의 SW/HW 플랫폼)에서도 Visual AI 기반 딥러닝에 있어 매우 흥미롭습니다.

Visual AI 기술의 근본적인 접근 방식이 성공적으로 확장되었고, 정확성도 훨씬 높아져서 다양한 시각 인식 기능을 자동화하도록 확산되었습니다. 따라서, 앞으로는 생활의 모든 측면과 비즈니스를 더욱 편리하고 효율적으로 향상시키는 데 폭 넓게 도입될 것입니다. 예를 들어, 모든 Visual AI 기술들이 자율 주행 개발에 도입되어, ‘AI 운전자’는 도로를 따라가고, 신호를 인식하며, 가까운 구조물의 거리를 예측하고, 그 외에도 이동하는 차량과 사람들을 탐색, 추적할 수 있습니다. 또 다른 사례로 Visual AI 의 기능을 활용해서 로봇/드론 탐색도 가능합니다.

현재 Visual AI 분야의 발전 속도로 볼 때, 이 기술은 더 향상되어 인간이 수행하는 단조로운 작업(예를 들어, 관리용 비디오나 제조업의 부품 분류 작업에서 운영자 감독, 검색 등) 들을 대체할 것입니다. 그 후 비주얼 인식 관련 기타 작업(고차원의 추론을 필요로 하지 않는)들이 그 뒤를 따르게 될 것입니다.


▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

문한규 부장
문한규 부장 애널리틱스 전문가
삼성SDS 미주연구소(SDSRA)

Samsung SDSRA에 입사하여 현재는 AI 리서치 그룹에서 근무하고 있습니다.
이전에는 NEC 연구소와 HRL 연구소에서 연구 과학자로 일했으며, Visual AI R&D 경력은 1996년 University of Maryland Collage Park의 자동화 연구 센터(Center for Automation Research)에서 박사과정을 밟으며 시작됐습니다. AI 붐에 큰 기대를 걸며 다양한 비즈니스 use cases에 딥 러닝을 적용하면서 Visual AI의 역량을 확장해나가고 있습니다.

구독하기

인사이트 리포트 소식을 메일로 받아보세요