.
2
각종 센서, 모바일 인터넷과 소셜미디어 등의 등장 데이터가 경제적 자산이 되는 “Big Data” Big Data 의미 : 기존의 관리 및 분석 체계로 감당하기 어려운 막대한 데이터를 Big Data라고 지칭 <Big Data의 데이터 종류 및 구성> 정형 데이터
고정된 필드에 저장된 데이터, 관계형 데이터 베이스 및 스프레드시트 등을 칭함
사무 정보
비정형 데이터
데이더, 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 칭함
이메일 콘텐츠 SNS
반정형 데이터
메타데이터나 스키마 등으로 표현할 수 있는 데이터, 사물정보나 현상을 RFID나 센서로 데 이터 수십하여 정보화
XML, HTML
공공부문, 산업(서비스), 개인 등의 데이터가 축적되면서 천문학적인 규모의 데이터가 형성 o 100억개(2010년) → 7조개(2020년) ※ 2010년: 100억개의 모바일 인터넷 기기 ※ 2017년: 세계 70억 인구가 7조개의 무선단말로 연결된 IoT 시대
o 800EB(2010년) → 35ZB(2020년) ※ 2010~2015: 모바일 트래픽 6300% 증가 (비디오 트래픽 66%이상) ※ SNS : 연간 47% 성장, 2012년/10억명 ※ 의료영상/유전자정보 지식의료
3
기업의 IT 활용 단계는 ‘제1의 벽’을 넘어 ‘제2의 벽’에 도전 제 2의 벽 (Profit)
제 1의 벽 (Cost) 전자화/자동화는
전자화/자동화로 축적된 데이터로
되어 있는가?
비즈니스 인사이트를 도출하는가?
* 출처: 노무라총합연구소
지식기반 경제를 넘어서 대용량 지식정보를 바탕으로 빠르게 분석하고, 예측하는 ‘Big Data’ 산업으로 진입 포스코의 6시그마 정책 SAS 코리아 협력 - 철강 생산 전 과정 각종 데이터 분석, 0.001초 단위 - 런던금속거래소(LME)의 가격 실시간 분석 구매 타이밍 결정 - 불량률 감소: 15.9%(‘04) 6시그마(100만개당 3.4개) 목표
과학을 연구를 위한 수단으로 Big Data를 분석하여 원리 발굴 및 문제 해결을 시도하는 데이터 탐구 과학 시대로 진입 신약개발, 유전자 분석 등
4
STAGE 1
• “The money is in the
STAGE 2
• “Actually, the money is in the
STAGE 3 STAGE 4
HW, not the SW” SW”
• “The money is not in the SW, but it is
differentiating” • “SW in not even differentiating, the value is the
DATA”`
5
맥킨지는 비즈니스 지형을 바꿀 10가지 기술 트랜드 중 하나로 Big Data 선정 Big Data를 수집, 저장하고 이를 토대로 새로운 정보를 찾아내는 것이 경제성장을 위한 중요한 가치창출 효과를 가져 온다고 분석 특히, 하둡, 데이터 가상화, 비즈니스 인텔리전스 기술은 빅데이터 핵심 기술임 * 하둡: 대용량 정형/비정형 저장, 분석을 위한 분산 컴퓨팅 프레임워크 (Apache오픈소스 프로젝트) * 데이터 가상화: 다양한 데이터 소스 대상으로 단일 데이터 접근/실행 서비스를 제공하는 데이터 서비스 계층 * 비즈니스 인텔리전스: 기업의 신속, 정확한 의사 결정을 지원하는 데이터 수집,저장,분석의 응용 기술 총칭
* 출처: Gartner(2011) “Hype Cycle for Emerging Technologies, 2011”
6
글로벌 기업들은 Big Data 시장을 선점하고 주도권을 잡기 위해 데이터 분석 중심으로 조직을 개 편하고 역량 강화 및 기술 개발 <해외 IT기업들의 Big Data 준비현황> 회사명
스토리지
DW
하둡
복합이벤트 처리
데이터 처리/분석
특징
XIV Storage
Netezza Twin Fin
InfoSphere BigInsights
InfoSphere Streams
SPSS Cognos 10
• Smarter Planet 구상 (09.2) • SPSS 인수 (09,7) Netezza 인수 (10.9)
Sun ZFS Storage
Exadata DB Machine
-
Isilon, Atmos
Greenplum Database
Greenplum HD
-
3PAR
Vertica Analytics System
Hadoop 전 용 PC 서버
-
Oracle CEP
-
• SUN 인수 (10.01) • BigData Appliance 출시 (12.02)
SAS HighPerformanc • Greenplum 인수 (09.07) e Analytics Autonomy
• Vertica 인수 (11.02)
7
Volume(규모)가 방대하고 Variety(종류)가 다양하며, 여러 종류 데이터가 융합되고 Velocity(속도): 수집-처리-분석/예측을 Just-in-time에 해결하는 데이터 처리 기술
테라바이트 수준 데이터 수십 페타/엑사/제타 수준
Volume
규모가 분석품질을 좌우
구조화된 DB 정형/비정형 모든 데이터 스트림
Variety
Big Data 3V
Velocity
배치분석 적시성 Always running 파이프라인
8
응용 및 서비스
빅데이터 기반
다양한 데이터 처리 및 알고리듬 데이터 분석 및
예측력이 경쟁력
대용량의 분석하는
두뇌
통계처리분석/모델링예측, R/Mahout 등 속도보다
확장성이 더욱 중요함
대용량의 데이터를 처리하는
체력
클라우드/패브릭 컴퓨팅, 하둡/맵리듀스 등 확장성에서
실시간성으로 경쟁력 이동
9
10
o Volume : 폭증하는 데이터 1. 어떻게 저장해야 하는가 ? 2. 어디에 저장해야 하는가 ?
11
o Volume : 폭증하는 데이터 저장 해결책은 클라우드의 진화
단절된 클라우드
연결된 클라우드
1) 사일로형 IaaS / PaaS / SaaS
1) 하이브리드 클라우드 (클라우드 버스팅)
2) 가상화 기술의 한계
2) 클라우드 패더레이션
3) 데이터 교환/공유 표준 부재
3) 데이터 클라우드로 진화
12
o Volume : 폭증하는 데이터 저장 해결책은 클라우드의 진화 클라우드 플랫폼은 ?
o Fabric Computing 플랫폼으로 … - 하나의 시스템을 나누는 가상화 여러 개의 시스템을 뭉치는 가상화 (Scale-out) - 마이크로서버 : SSC(Single Chip Cloud: 저전력 코어 X 매니코어) 서버 o왜? - 전력/공간문제, 효율성문제 13
o Variety : 다양한 데이터, 정형/비정형 데이터, 데이터 융합은 ? 링크드 데이터로
No-SQL DB 시대로
o 저장/관리 구조는 심플하게 - 관계형 DB NoSQL DB 시대로 o 그러나, 연결은 확실하게 - 링크드 데이터, 메타데이터 시대로 14
o Velocity : Just-in-time과 정확성은 ? 결국은 컴퓨팅 파워 전쟁
인메모리 컴퓨팅 매니코어 컴퓨팅 병렬/분산 처리
o 인메모리 컴퓨팅 : In-memory DB, In-memory file system … - HDD 사용은 최대한 적게. 대규모 가상메모리를 사용하는 기법 - Cf. CPU/메모리/HDD 속도는 ? 1 / 100 / 10000 - Cf. SSD(Solid-state Disk) 사용 HDD의 10~20배 빠른 속도 o 매니코어 컴퓨팅 : 매니코어 OS/가상화, 매니코어 병렬처리 - GPGPU, Many-core CPU를 사용한 성능가속 o 병렬/분산 처리 : 연결망, Network 입출력 병목 극복 기술 - Hadoop, MapReduce 15
o Velocity : Just-in-time과 정확성은 ? 컴퓨팅 파워에 기반한 지능화 전쟁 빅데이터 클라우드 컴퓨팅+인공지능
o 통계/논리학, 데이터하우징/마이닝
지능화
o 인공신경망 : 인간의 신경세포 학습모델 o 다중지성 : 개미/꿀벌 등의 집단적 문제해결
분석 예측
가시화
o 모델링 및 시뮬레이션
16
o IBM : Massive Data Analytics Research Institute (2012.1. 신설)
Faster Decisions
Deep Insights
Real-time Awareness Predictive Models
Reactive Analytics Deep Analytics
Data in Motion Data at Rest
Big Data o Data-intensive computing(Volume) + InfoSphere/BigSheet(Variety) + Stream Computing(Velocity) + Deep Computing(Intelligence) Watson 17
o 빅데이터와 지능화 디지털 인텔리전스 사례 (Watson) 빅데이터 산업의 승자는 더 많은 데이터로 더 많은 지능을 도출하는 자 IBM Watson: ①고성능 컴퓨팅, ②빅데이터 분석, ③인공지능
o 3초 이내에 정답을 찾기위해 2억 페이지(1천만권의 책)의 데이터를 분석 - Watson 시티은행 취직(`12.3. 개인신용평가) - Watson 웰포인트(민간의료보험사) 취직(`11.9. 환자별 맞춤치료법 컨설팅) 18
BigData 소프트웨어 연구소
19
Big Data로 촉발되는 SW/컴퓨팅 기술의 패러다임 변화가 시작
20
빅데이터로부터 실시간으로 인사이트를 발굴하기 위한 공통 플랫폼 제공 스마트 에너지 그리드 에너지 절감
스마트 워터 관리
내 손 안의 비서
수자원 시스템 관리
홈랜드 시큐리티
결혼기념일 이벤트 준비해줘.
…
네, 당일로 계획할까요?
지능형 서비스 실현
빅데이터 분석 플랫폼 다중 소스 데이터 수집
스트림 데이터 전처리
대규모 정보 저장 관리
인타임 정보 처리 분석
고도 지능 발굴
… 디바이스
인터넷/ 소셜 미디어
센서 데이터
공공 데이터
21
핵심요소
현재
미래
데이터 수집
정형화된 소스로부터 사전 정의된 데이터만 수집
미지의 가치를 찾기 위해 다양한 소스로 부터 정형/비정형 데이터 수집
데이터 전처리
수집된 데이터를 모두 저장
데이터 수집 동시에 필터링, 특징 추출 등 데이터 전처리후 용도에 맞게 저장
정보 저장 관리
대규모 정보 저장 및 관리로 인한 서비스 성능 저하
고확장성 지원 빅데이터 저장 관리로 익스트림 스케일 서비스 지원
정보 처리 분석
대규모 정보의 일괄 처리, 분석으로 적시 활용 및 데이터 소스별 분석
실시간 처리, 점진적 분석으로 적시 활용 및 이종 데이터 소스 융합 분석 지원
지능 발굴
패턴 위주의 정보 분석 및 정형 데이터 위주의 지식화
의미 기반의 정보 분석 및 융합 비정형 데이터 지식화로 지능 고도화
22
빅데이터 실시간 인텔리젼스 처리 플랫폼 빅데이터 고급 분석 공통 SW
고 가 용 성 / 고 신 뢰 성
② 이 종 데 이 터 융 합 인 프 라 S W
기계학습 및 통계 분석
그래프 마이닝
의사결정 지원 예측 분석
시뮬레이션 및 시각화
⑤데이터 마이닝 및 OLAP
빅데이터 인타임 분산 처리 SW 대규모 스트림 연속 처리
빅데이터 점진적 처리
MapReduce 배치 처리
통합데이터 인타임 처리
빅데이터 저장 관리 SW ③분산파일 시스템
분산 비정형 데이터 스토어
디스크 기반 RDBMS
④인메모리 분산 DBMS
데 이 터 / 시 스 템 보 안
데이터 웨어하우스
①고성능 컴퓨팅 시스템
23
유전체(인간 및 미생물) 및 단백질 구조 분석을 위한 Peta급 슈퍼컴퓨팅 (초당 1015번의 연산)이 가능한 성능가속 HW 및 SW 기술 → 활용분야: 건강검진, 단백질 구조분석 * 일인당 최소 분석 데이터량 : 900 GByte (출처: 삼성 SDS, 2010) * 일인당 최소 분석 컴퓨팅량 : 15 TFs x Hour
신산업(新産業) 고속도로
1 PF
1 PF
800TF 500TF 400TF
바이오, 3D/입체 첨단기계 기상/ 설계/분석 환경 생명공학 영상콘텐츠
500TF 200TF 100TF
성능 가속 시스템 SW
바이오 응용 SW기술
이종 자원 관리 SW 시스템 통합 실행환경 관리 SW
GPGPU+MIC 기반 바이오 응용SW 기술
계산 성능 가속기
입출력 성능 가속기
GPGPU+MIC기반 계산 성능 가속 장치
SSD+MAID기반 입출력 성능 가속 장치
+
+
24
빅데이터 분석을 위해 다양한 데이터 저장소에 저장된 정형, 비정형 데이
터를 접근 및 수집할 수 있는 이기종 데이터 접근 기술 → 서로 다른 데이터를 통합/활용하기 위한 단일 데이터 접근 계층 제공
사례 관리
실시간 분석
고급분석
비즈니스 분석
SQL, WebQL, REST, SOAP, RSS, …
빅데이타 가상화 계층 가상 뷰
가상 뷰 가상 뷰
가상 뷰 매핑
가상 뷰 매핑
가상 뷰 매핑
가상 뷰 매핑
매핑
… 국가기관 DB
기업 DB
Database
정형
스프레드시트
XML, Excel
SNS Web 페이지
반정형
이메일
SNS
문서파일
멀티미디어 데이터
이미지/동영상 /email/docs
비정형
25
인터넷 서비스, 소셜 네트워크 서비스, 클라우드 서비스 등에서 생산되는 빅 데이터를 효율적인 비용으로 무한 저장할 수 있는 scale-out 스토리 지 SW 기술 → 저장공간의 무한 확장성 및 고속 데이터 입출력 성능 제공
26
이종 메모리 계층(휘발성 메모리, 비휘발성 메모리)을 통합 활용, 고성능 및 고확장성을 제공하는 인메모리 데이터 저장/관리 기술 → 익스트림 트랜잭션 처리 및 운영 DB 기반 실시간 분석 환경 제공 메모리 DB 저장 공간 한계
메모리 DB 확장성 제공
운영 DB와 분석용 DB 운영
OLTP/OLAP 통합 운영
실시간 데이터 분석 한계
실시간 데이터 분석 제공
고성능 메모리기반 DBMS (OLTP용)
차세대 메모리기반 분산 DBMS 주기적 데이터 이전
대용량 디스크기반 DBMS (OLAP용)
Flash
27
소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정 에 대한 예측 모형을 제시하는 기술 → 전문가 의사결정 지원을 위한 Data-driven ‘Insight’ 제공 이슈 탐지 기반 예측분석 시스템 (기업) 겔럭시S2의 향후 판매추이는?
(공공) 셧다운제에 대한 여론의 향후 추이는?
이슈 탐지 및 모니터링
이슈 예측분석
이슈 질의응답
(회귀분석+시계열분석+패턴기반 +기계학습기반 예측분석 모델)
28
29
포스코의 6시그마 정책 SAS 코리아 협력 - 철강 생산 전 과정 각종 데이터 분석, 0.001초 단위
- 런던금속거래소(LME)의 가격 실시간 분석 구매 타이밍 결정 - 불량률 감소: 15.9%(‘04) 6시그마(100만개당 3.4개) 목표
코리아 크레딧뷰(KCB) IBM 코리아 협력 - 국내 신용평가업체로 신용등급 범위 산정 및 등급 부여
- 목표: 등급의 정교화(기존 100만명 샘플 4000만명 분석)
디엔에이 링크(유전체분석회사) 한국 EMC 구입 - 서울대병원에서 수집한 염기서열 데이터 분석, 난치병 원인 분석
기타 (BI 측면 솔루션 구입) - LG 전자, LIG 생명보험 IBM, 우리 은행, 신한지주 Teradata - SKT, 패밀리마트 Oracle 데이터 분석 기술 사용 30
31
o 또 다른 플랫폼 전쟁의 시작 대응이 필요한 시점
32
o 구글은 우리보다 한국을 더 빨리 파악할 수 있다 ? 2009년 여름, ‘노후 차량 보상 프로그램(Cash for Clunkers Program)’
- 예산 10억 달러, 노후 차량 교체 시 4500 달러 지원, 1주일 만에 바닥 - 정부가 예산 발표했을 때 구글은 1주일 만에 바닥 날것을 예측 2010년 4월 초, 미국 정부 경기가 2009년 4분기에 바닥을 쳤음을 선언 - 정부 과거 데이터를 분석하는 데 3달 소요 후 발표 - 구글은 2009년 하반기 해당시점에 유사한 경기 분석 발표
구글 자사 검색통계 기반으로 시간, 지역별 독감 유행 정보 제공 - 구글 예측 데이터 vs. 정부 실측 데이터
33
o 데이터의 중요성 인식과 데이터 주권을 준비해야 한다.
34
o 빅데이터로 촉발되는 SW/컴퓨팅 기술의 패러다임 변화가 시작되었다.
35
o Data Scientist/Analyst/Engineer : `19년 미국은 14~19만명 전문가, 150만명 관련 인력 필요
36
36
정부 – 기관과 협력체계를 구축하고 이를 바탕으로 핵심 기술 개발 및 상용화 건강한 생태계 조성
37
감사합니다 ! 38