브라이틱스 데이터 허브

데이터 라이프사이클 전반을 관리·지원하는 데이터 플랫폼

데이터를 수집 및 저장하고
필요한 정보를 보다 쉽게 찾아
활용할 수 있도록 관리하고 준비합니다.

다양한 데이터 채널로부터 고속으로 데이터를 수집하고, 이를 관리하는 스케쥴링과 모니터링 기능을 제공하며 데이터를 탐색하고 분석 및 활용 가능하도록 전처리를 합니다.
또한 하둡 생태계 시스템 오픈소스를 패키징하고 서비스별 호환성을 확보하여 고객 데이터의 안정적인 통합 및 관리가 가능합니다.

브라이틱스 데이터 허브의 특장점

01
자동화된 데이터 라이프사이클 관리 제공

데이터 플로우/옵스(Data Flow/Ops) [AS-IS] 데이터 확보를 위한 주기적 반복 작업 총 6단계로 구성: 데이터추출 → 데이터적재 → IT부서에 데이터요청 → 데이터검색 → 데이터변환 → 데이터정제. - 데이터추출·적재 단계: IT 개발자가 담당하며, 여러 개의 반복 작업이 주기적으로 발생. - IT부서에 데이터요청 단계: 현업 사용자가 요청하고, IT 개발자 또는 데이터 엔지니어가 처리. - 데이터검색·변환·정제 단계: IT 개발자 또는 데이터 엔지니어가 담당하며, 여러 개의 반복 작업이 주기적으로 발생. [TO-BE] 반복 작업 자동화 및 모니터링 4단계로 간소화: 데이터추출 → 데이터적재 → 데이터변환 → 데이터정제. 워크플로우 기반 작업 스케줄링으로 전 과정 자동화. ※ 비고: 기존 데이터 프리퍼레이션 상품을 중단하면서 일부 기능이 데이터 허브에 추가됨. - 데이터 수집 기능 → 데이터 플로우 - 스케줄링 기능 → 데이터 옵스

오픈소스 Nifi와 Airflow를 기반으로 다양한 유형의 데이터를 수집하고 작업을 정의하여, 워크플로우 기반의 데이터 스케줄링 기능을 제공합니다. 또한, 매니저 포털에서 서비스별 리소스 활용 현황도 모니터링할 수 있습니다.

엑셀과 유사한 기능으로 데이터 탐색 및 전처리

데이터 랭글러(Data Wrangler) Data Wrangler 애플리케이션 화면으로, 상단 내비게이션에는 Jobs, Visual Query, Connections 메뉴와 우측에 로그아웃 버튼이 있음. [툴바 영역] Clean, Format, Extract, Column, Filter, Group, Window, Functions, Join 총 9개의 데이터 변환 기능 아이콘이 가로로 나열됨. [데이터 편집 영역] 현재 열린 데이터셋명: 유효 고객별 월별 카드 실적 (cdb_a_id). 14개 컬럼으로 구성된 데이터 테이블이 표시되며, 행 데이터 예시: 74501, 166677, 211272 등. Date/Time 기능의 하위 메뉴가 펼쳐진 상태로, 선택 가능한 추출 단위는 Year, Quarter, Month, Week of year, Day of year, Day of month, Day of week, Hour, Minute, Second. [Recipe(히스토리) 패널 - 우측] 수행된 작업 내역이 순서대로 기록됨. - 7번: Create select 구문으로 cd_usg_amt 및 관련 컬럼 생성 - 8번: Create select 구문으로 cd_ca_amt divide 처리 - 9번: Hide cd_ca_rate (drop 처리) - 10번: cd_usg_rate 컬럼을 '₩###.##' 포맷으로 소수점 2자리 형식 지정 [하단 탭 영역] 탭 기반 멀티 데이터 로드 지원. 현재 열린 탭: cdb_a_id, cdb_a_cd_usg, New Recipe.

로우 코드 전처리 기능을 제공하여 누구나 쉽게 데이터 전처리를 수행할 수 있습니다.
또한, 데이터 프로파일링을 통해 데이터 탐색 및 데이터 분포 현황, 통계정보 등을 확인할 수 있고, 조인의 유형 및 조건을 몇 번의 클릭만으로 구성할 수 있으며 데이터 원천 확인이 가능합니다.

데이터의 안정적인 저장과 모니터링

데이터 허브(Data Hub) 중앙 허브 앤 스포크(Hub & Spoke) 구조의 아키텍처 다이어그램. [좌측 - Multi Data Store 입력 소스] 4가지 데이터 저장소 유형이 브라이틱스 데이터 허브로 연결됨: - RDB: Oracle, MySQL, PostgreSQL - File: XML, Json, CSV - NoSQL - Object Storage [중앙 - 브라이틱스 데이터 허브] 모든 데이터 소스와 기능을 연결하는 핵심 허브 역할. [우측 - 3가지 핵심 특징] 1. 안전성 (방패 아이콘): 안전한 데이터 저장 및 활용 2. 효율적 (설정/톱니바퀴 아이콘): 통합 모니터링을 활용한 효율적 관리 3. 빠르게 (고속 화살표 아이콘): 쉽고 빠른 설치 및 고속 데이터 조회

임계치 기반의 진단 기능으로 장애를 사전에 대응하고, 통합 로그 모니터링으로 모든 서비스 로그를 한 번에 확인하여 조치할 수 있는 가이드를 제공합니다.
뿐만 아니라, 웹 기반으로 쉬게 설치할 수 있고, 하이브 쿼리 대비 약 11배 빠른 쿼리 성능을 제공받을 수 있습니다.

더 많은 게 궁금하다면 전문가와 직접 상담해 보세요!

아키텍처

브라이틱스 데이터 허브 구성

* 구성 오퍼링을 클릭해 보세요.

데이터 플로우 (Data Flow)
  • 데이터 수집
  • 데이터 처리 관리
  • 데이터 퍼포먼스
데이터 랭글러 (Data Wrangler)
  • 데이터 소스 탐색
  • 데이터 변환
  • 전처리 데이터 작업 생성
  • 샘플 데이터 프로파일
데이터 옵스 (Data Ops)
  • 데이터 작업 스케쥴링
  • 데이터 파이프라인
  • 데이터작업 통합 관리
데이터 허브 (Data Hub)

Data Ingestion

  • 실시간 데이터 수집
  • 대량/로그 데이터 수집

Data Warehouse

  • 정형 데이터 관리
  • 고속 쿼리 엔진

Data Hub Basic

  • 데이터 저장
  • 데이터 보안
  • 데이터 거버넌스
  • 리소스 관리
데이터 플로우(Data Flow)

수많은 채널로부터 다양한 소스와 유형의 데이터를 손쉽게 수집할 수 있습니다.

데이터 랭글러(Data Wrangler)

실무자에게 익숙한 엑셀과 유사한 기능을 제공하여, 데이터를 탐색하고 원하는 형태로 재구성할 수 있습니다.

데이터 옵스(Data Ops)

데이터 수집 Job을 관리하고 스케줄링 및 모니터링할 수 있습니다.

데이터 허브(Data Hub)

하둡 생태계를 기반으로 데이터를 안전하게 저장 및 분석하고, 효율적으로 관리할 수 있는 모니터링 체계를 제공합니다.

Awards & Recognition

글로벌 전문가들이 인정하는 삼성SDS

활용예시

    솔루션 지원사양

    지원사양
    • 데이터 허브 플랫폼 (마스터 노드)

      X86 서버 기준, 3 노드 이상으로 구성
      - CPU : 16코어/노드
      - 메모리 : 128GB/노드
      - 디스크 : 1TB/노드
      - 운영체제 : CentOS, RHEL 7.x

    • 데이터 허브 플랫폼 (워커 노드)

      X86 서버 기준, 3 노드 이상으로 구성
      - CPU : 16코어/노드
      - 메모리 : 256GB/노드
      - 디스크 : 4TB/노드
      - 운영체제 : CentOS 7.x, RHEL 7.x

    • 적합한 클라우드 환경

      SDS Cloud, Amazon Web Service, MS Azure, Google Cloud 등

    • 플랫폼 사용자용 PC

      - 브라우저 : Chrome (50.0 버전 이상)
      - 해상도 : 1280 * 900 권장

    가이드

    사용자 가이드

    브라이틱스 데이터 허브에 대한 사용자 가이드입니다.

    관련 사이트

    관련 오퍼링

    Brightics Data Hub에 대해 무엇이든 물어보세요

    삼성SDS의 AI 전문가들이 무엇이든 친절하고 신속하게 답변해 드립니다.