Google ai & ibm ai 조사 by 김들풀

FK BCG Corp. Knowledge Integration FK BCG Corp. Knowledge Integration FK BCG Corp. Knowledge Integration FK BCG Corp. Knowledge Integration FK BCG Corp. Knowledge Integration FK BCG Corp.

Google AI 및 IBM AI 비교 - 양대진 -

2016 년 04 월

Contents

Introduction

II.

Google AI (AlphaGO)

IBM AI (Watson)

Contents

Introduction

II.

Google AI (AlphaGO)

IBM Watson (NLP)

Contents

1. Artificial Intelligence 개요 인간의 신경망을 수학적 모델로 Replicate 해서 Machine 이 인간이나 동물의 기능을 수행하도록 하는 Computer Science 의 분야 . 빅데이터 기반 학습을 통해 얻어진 판별력 (Predictive Power) 과 함께 , 대용량 데이터를 분산처리 할 수 있는 시스템 구성이 주요 구성 요소입니다 .

IBM Watson

□ Neuron ( 주어진 자극의 성격에 대하여 판별 ) Reasoning Stimulant Input

Information Output

자연어 처리

자율 주행

Knowledge 로봇 Google

□ Neural Network ( 판별식의 수학적 결합을 통해 주어진 Data 에 대한 의사결정 )

Data Input

판별식

Information Output

데이터

알고리즘

대용량 처리 아키텍처

필요한 데이터임을 판별하는 능력

Predictive Power ( 판별력 ) 을 검증 받은 Classifier ( 판별식 )

안정성 , 보안성 , 속 도를 담보할 수 있는 IT 아키텍처 ( 분산처 리)

2. Google Vs IBM AI 주요특징 비교 Google 은 AI 의 전영역에 대한 끊임없는 도전을 진행 중이며 , IBM Watson 은 자연어 처리에 특화되어 있습니다 . 가장 큰 차이점은 Google 은 Brain OS 적 접근방식이며 , IBM Watson 은 시스템 OS (SyNAPSE, Neuromorphic chip) 적 접근 전략을 채택하고 있다고 볼 수 있습니다 .

[Google AI Vs. IBM Watson AI 비교 ] 활용 분야 언어 언어 이외 Big Data 처리 전략 알고리즘

Google

IBM

• 자동 번역

• 자연어 처리

• 무인자동차 , 로봇 , 의료생명과학 , • 검색 , 제도 , 사진 , 동영상

• 해당 프로젝트 Unknown

• Brain OS ( 소프트웨어적 접근 )

• 시스템 OS ( 하드웨어적 접근 )

• Machine Learning 알고리즘 중심

• 언어학적 접근 / 확률 통계적 분석

※ Google 과 IBM 은 상이한 영역에서 다른 접근 방식을 택하고 있음 ※ Google AlphaGo 는 언어 영역 및 Computer Vision 에도 적용이 가능할 것으로 보임

3. IBM Watson AI 개요 IBM 의 Watson 은 자연어 처리에 집중하고 있으며 , 의료계의 음성 진단 시스템 및 금융권의 고객 서비스 및 자 문 서비스의 상용화에 성공하였습니다 .

[AI 연구 연혁 ] • • • •

인지 과학 분야 중 자연어 처리 및 이해에 집중 1997 년 IBM 의 DeepBlue 로 체스 대결에서 승리 2011 년 IBM 의 Watson 으로 미국 유명 퀴즈쇼의 우승자들과 대결에서 승리 2014 년부터 Watson 을 이용한 본격적 사업 개시

활용 분야 의료 산업

금융권

기타

수행 범위 • 암진단 및 백혈병 진단에 활용 • 의료 전문 서적과 환자기록에 대한 학습 후 2013 년 3 월 부터 서비스 개시 • 호주 투자은행 재무설계사 업무에 적용 ( 정교한 자문 제공을 목표로 함 ) - IBM Big Data 분석과 Watson 의 AI 를 통합하여 ‘고객응대자문서비스’ 도입 • 싱가폴 RoboAdvisor 서비스 출시 • Citi Group 에서 고객 Transaction Data, Blog, SNS 데이터 활용 고객 파일 작성 , 개인 대출 등 상담 진행 • 남아프라카 공화국 Social Media 모니터링 업무 적용 • 美 군인전문 보험사 상담 서비스에 적용 • 日 2015 년 2 월 부터 일본어 학습 시작 - 교육 , 은행 , 헬스케어 , 보험 , 유통 분야에 활용 예정

4. Google AI 개요 구글의 AI 프로젝트는 다양한 범주에서 진행 중이며 , Computer Vision 과 유사한 개념을 가진 알파고에서 가시적 인 성과를 거뒀습니다 . 이 외에도 여전히 많은 분야에서 혁신적인 도전이 이뤄지고 있습니다 .

[AI 연구 연혁 ] • • • • • •

Google X 리서치 연구소에서 ‘ Google Brain’ 프로젝트 진행 : 비교적 성과는 없었음 기계학습 분야의 스탠포드 대학 교수 투입 이미지 처리에 목적을 둔 기계학습 시작 신경네트워크와 관련있는 딥러닝 알고리즘 향상을 시도 DeepMind 인수 (2014.01) 등 다수의 AI 회사 인수 2016 년 Google 의 AlphaGo 으로 바둑고수 이세돌과 대결에서 승리

활용 분야 자동 번역 자율 주행 자동차 로봇 의료 , 생명 과학

수행 범위 • 카메라 활용 90 여 종 외국어 인식 및 번역 • 6 년간 330 만 km 주행 시험 후 무인택시 , 택배 등으로 서비스 확대 • 아틀라스 , 빅도그 등 로봇 9 종 개발 , 서비스 로봇 , 경비 로봇에 활용 • 존슨앤존스과 공동으로 수술로봇 개발 , 의료 및 유전자 분석 기업에 지속 투자중

검색 , 지도 , 사진 , 동영상 • 세계 최대 검색 데이터 및 빅데이터 처리 분석 기술 보유

5. Google AI 와 IBM Watson 의 기본 개념 구글 AI 와 IBM AI 의 기본 사상은 상징성을 가진 객체 ( 사진 이미지 또는 언어 등 ) 를 메타 정보화하여 , 상징 적 유사성 (representation) 을 가진 객체를 연결하는 개념으로 기본 구조는 유사합니다 .

단계별 알고리즘을 통한 상위 상징화

이미지의 상징성 이해

단계별 알고리즘을 통한 상위 상징화

언어 구조의 이해

Brain OS ( 하드웨어와 소프트웨어 알고리즘의 인터페이스 최적화 및 판 단)

아날로그적 하드웨어 OS ( 알고리즘를 CPU 단계에서 구축 )

시나리오별 스코어링 ( 승률 ) 에 따른 실행

Question 의 상위 상징화와 Document (Answer) 의 상위 상징 화 후 두 상징화의 유사 성에 따른 스코어링 후 최상위를 최종 선택

Contents

Introduction

II.

Google AI

IBM Watson (NLP)

Contents

1. Google AI: AlphaGo 의 알고리즘 개관 Google AlphaGo 의 전체 알고리즘 골격은 Monte Carlo Tree Search (MCTS) 는 게임등에 쓰이는 보편적인 알고리즘이지만 , 높은 승률의 경우의 수를 제한된 시간 내에 탐색하기 위해 Deep Learning 과 Reinforcement 알고리즘을 효율적으로 사용했습니다 .

□ Month Carlo Tree Search (MCTS) 1. 2. 3. 4.

선택 : 현재 상태에서 특정경로로 수읽기를 진행 확장 : 일정 수 읽기 이상이 진행되면 그 지 점에서 한단계 더 착수 지점을 예측 ( 게임 트리의 확장 ) 시뮬레이션 : 2. 에서 선택한 노드에서 바둑 이 종료될 때까지 무작위 방법으로 진행 역전파 : 3. 의 결과를 종합하여 확장한 노 드의 가치 (2. 에서 한단계 더 착수한 것의 승산 ) 를 역전파하여 해당경로의 승산 가 능성을 갱신

출처 : Nature; Mastering the Game of Go http://www.nature.com/nature/journal/v529/n7587/full/nature16961.ht ml

2. Google AI: Data 의 구성 알파고의 데이터 구성은 11 개의 Feature 에 해당하는 Planes 가 더해져 총 48 차원의 기본 단위로 구성되어 있습 니다 .

이미지의 패치 (3x3 매트릭스 ) 의 Input 변수화 (48 features)

바둑판의 3x3 격자 이미지 Patch 의 Features

3x3 매트릭스의 48 Features 에 바둑판의 19x19 의 경 우의 수에 비어있는 공간 (Zero padding) 4 차원을 최종 추가하여 23x23x78 매트릭스의 Input 변 수 생성

2. Google AI: Data 의 구성 알파고의 Convolutional Neural Networks 는 SL Policy network, RL Policy Network 와 최종적으로 판별하는 Value Network 로 구성되어 있습니다 .

SL ( 자율학습 ) Policy Network 의 판별식 : 상대편 의 움직임에 따른 경우의수 분 석

RL ( 강화학습 ) Policy Network 의 판별식 : 다양한 경우의 수별로 Self Play

Value Network : RL 의 예측값과 Reward Score 의 MSE 산출

Contents

Introduction

II.

Google AI

IBM Watson (NLP)

Contents

1. IBM AI: Watson (NLP) NLP(Natural Language Process, 자연어 처리 ) 의 최종 목표는 “ Deep Understanding of Broad Language” 입니 다 . 단순히 , 구문을 처리하거나 키워드 검색 수준이 아닙니다 .

IBM Watson

※ Watson 은 INDRI 의 언어 인지 영역 ( 고도 추상화 ) 과 오픈소스 Lucene 검색엔진을 IBM 에 특화한 추상화 쿼리 시스템인 LUCENE, 마지막으로 이를 통합하는 시스템으로 구성되어 있습니다 . LUCENE 의 알고리즘은 오픈소스인 LUCENE 를 참고한 것으로 알려졌습니다 . 다만 , IBM 버전의 LUCENE 과 이를 통합하는 시스템은 미공개 상태입니다 .

출처 :IBM Journal

3. IBM AI: Watson (NLP) Language Modeling 기법 중 Information Retrieval 모델링의 핵심은 검색 언어와 Document 언어의 추상적 동질 성을 판별하는 역량입니다 .

Information Retrieval 모델링 1

개념

질문

개념

저장된 지식

질문의 “ Tragic Love Story” 와 지식에 표현된 “ Fateful Star-crossed romance 가 동일한 개념인지 판단하는 역량

출처 :Heng Ji, PhD

3. IBM AI: Watson (NLP) IBM Watson 의 언어 이해 부분은 INDRI 에 해당하며 기본 판별 프로세스는 총 5 단계의 판별 과정을 거쳐 최종 Information need node 로 귀결됩니다 .

Information Retrieval 모델링 1

Representation: 언어학 + 확률통계학

출처 :Heng Ji, PhD

3. IBM AI: Watson (NLP) Language Modeling 기법 중 Information Retrieval 모델링은 Query 와 Document 의 확률분포를 추정하여 비교 하여 최종 판별하도록 모델링 합니다

Information Retrieval 모델링 1

언어학 기반 - Query Representation -Document Representation 적용 알고리즘 리스트 - Boolean model - Vector Space model - Probabilistic models - Language Models - PageRank

출처 :Heng Ji, PhD

3. IBM AI: Watson (NLP) 추상적인 언어를 해석하여 가장 유사성이 높다고 판별하는 Formula 입니다 . IMB Watson 이 인간의 언어를 이해하는 데 있어서 가장 최근의 사상입니다

[ 예시 ] LUCENE Open source 쿼리 구문 예시 (IBM LUCENE 은 아님 )

[ 예시 ] 유사성 Scoring Formula

String str = "foo bar"; String id = "123456"; BooleanQuery bq = new BooleanQuery(); Query query = qp.parse(str); bq.add(query, BooleanClause.Occur.MUST); bq.add(new TermQuery(new Term("id", id), BooleanClause.Occur.MUST_NOT)

※ 자연어의 고도의 추상화 과정과 질문과 답변간의 연관성 Scoring 분석을 거쳐 자연어의 인지와 해석 및 적정 수준의 답변을 학습한 것으로 보임 i.e. 방대한 자연어 디텍토리에 자연어 표현별 String ID (Index) 부여

※ 유사성 Scoring 알고리즘 1. 문건내 검색하고자 하는 단어의 빈도수가 높거나 , 검색하는 단어의 반복회수가 높을 경우 Reward 부여 2. 장문의 문건 , 일반 단어의 높은 빈도수는 Penalty 부여 출처 :Heng Ji, PhD

END Of DOCUMENT