02 2209 salac 1400 marcus borba

Page 1

Big Data e Análise de Dados: Tendências e Aplicações em Projetos Marcus Borba

1

Apresentação Marcus Borba CTO - Spark Strategic Business Solution . 30 anos de experiência em tecnologia da informação. . 14 anos de experiência no Brasil e exterior nas áreas: BI, Big Data e Analytics. . Participo ativamente da comunidade de BI/BigData/Analytics, através de grupos, listas de discussão, sites, blogs e redes sociais, sendo citado em várias listas: -

The 23 Most Influential Business Intelligence Blogs - BI Software Insight (09/2014) Top Big Data Executives and Experts to Follow on Twitter - CEO World Magazine (05/2014) 10 Big Data Pros To Follow On Twitter - Information Week (04/2014) Top Site in the Business Intelligence Category – Alltop (Desde 2009)

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

2


Agenda

• • • • • •

Introdução O que é Big Data Os Desafios do Big Data Big Data – Arquitetura e Tecnologia Ciência de Dados Casos de Uso

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

3

Introdução

“A Informação é o petróleo do século 21, e o analytics é o motor de combustão” Peter Sondergaard SVP - Gartner

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

4


Volume de Informação “Desde o início da civilização até 2003, a humanidade gerou cinco exabytes de dados. Agora vamos produzir cinco exabytes a cada dois dias ... e o ritmo está acelerando.” Eric Schmidt, Executive Chairman Google

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

5

Volume de Informação

90% dos dados existentes hoje foram gerados nos últimos dois anos Fonte: IBM

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

6


Big Data Por que Big Data é tão importante?

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

7

O que é Big Data

O conceito de Big Data foi criado baseado no fato de que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

8


O que é Big Data Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados digitais em volume, variedade e velocidade nunca vistos antes. O Big Data permite analisar qualquer tipo de informação digital em tempo real, tornando-se fundamental para a tomada de decisões. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

9

Os 5 Vs do Big Data Volume Velocidade Variedade Veracidade Valor

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

10


Volume A quantidade de dados produzidos no mundo de hoje aumenta exponencialmente. Ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo. • Transações por segundo (TPS) em Terabytes (TB) • Armazenamento por dia ou ano em PetaBytes (PB) ou Exabytes (EB) • Diversos Data Centers • Diversos Data Hubs 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

11

Velocidade Com o aumento dos dados vem o aumento da velocidade, número e periodicidade das operações com o seu negócio. • Processamento e Visualização de Dados em Tempo Real ou QUASE Tempo Real • Transmissão de Dados • Transmissão de Vídeo • Consultas e resultados em segundos ou milisegundos

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

12


Variedade Diferentes tipos de dados, com formatos diferentes. • Dados estruturados (RDBMS, DW) • Dados semi-estruturados (arquivos de log, csv, etc) • Dados não estruturados (imagens, livros, videos, audio, textos, informações publicadas em redes sociais como Twitter e Facebook)

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

13

Veracidade Com muitas formas de dados, a confiabilidade, qualidade e precisão dos dados ficam menos controláveis. Precisamos ter certeza que os dados são autênticos e fazem sentido. (por exemplo, posts no Twitter com hashtags, linguagem coloquial, erros de digitação e abreviações, além da precisão do conteúdo).

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

14


Valor

Informação é poder, informação é patrimônio.

A combinação Volume + Velocidade + Variedade+ Veracidade será inviável se o resultado não trouxer benefícios que compensem o investimento e também agreguem valor ao negócio.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

15

Big Data – Previsão de Mercado

Fonte: Wikibon

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

16


Internet das Coisas (Internet of Things - IoT) Este cenário está longe de deixar de ser crescente. Basta imaginar que diversos dispositivos em nossas casas - TVs, geladeiras, lavadoras de roupa, cafeteiras, etc deverão estar conectados à internet em um futuro próximo.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

17

Internet das Coisas - IoT Segundo o Gartner, a Internet das Coisas atualmente está no topo das tecnologias emergentes.

Gartner: Hype Cycle for Emerging Technologies (Agosto/2014)

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

18


Os Desafios do Big Data O Big Data obriga as empresas a pensarem em três desafios estratégicos e operacionais: - Estratégia da Informação - Análise dos Dados - Gestão da Informação Corporativa

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

19

Os Desafios do Big Data Estratégia da Informação: A empresa precisa aproveitar o poder dos ativos da informação. O Big Data está levando as empresas a encontrar novas maneiras de alavancar fontes de informação para impulsionar o crescimento.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

20


Os Desafios do Big Data Análise dos dados: A empresa precisa ter mais insights de suas análises de Big Data.

A empresa precisa prever futuros comportamentos dos clientes, tendências e resultados.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

21

Os Desafios do Big Data Gestão da Informação Corporativa: A informação está em toda parte, e continua crescendo. As empresas precisam gerenciar o acesso às crescentes necessidades de informação de gestão e direcionar a inovação no processamento rápido das informações.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

22


Os Desafios do Big Data

Fonte: Tiffani Crawford

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

23

Big Data: 3 perguntas importantes Armazenar: Você pode capturar e armazenar os dados? Processo: Você pode limpar, enriquecer e analisar os dados? Acesso: Você pode recuperar, pesquisar, integrar e visualizar os dados?

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

24


Business Intelligence: Fluxo de Dados Tradicional

9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

25

Big Data: Fluxo de Dados

9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

26


O Big Data não vai substituir o Data Warehouse, eles são complementares.

Neste novo ambiente, o Data Warehouse pode continuar com sua carga de trabalho padrão, utilizando dados de sistemas legados operacionais e armazenamento de dados históricos para fornecimento tradicional de inteligência de negócios e os resultados de análise. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

27

Big Data - Arquitetura

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

28


Banco de Dados NOSQL Os banco de dados NoSQL (Not Only SQL) fornecem um mecanismo para armazenamento e recuperação de dados que utiliza modelos de consistência mais flexíveis do que os bancos de dados relacionais tradicionais.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

29

Hadoop

O Hadoop é uma plataforma de código aberto (open source) desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, contando com a colaboração de várias grandes empresas, como Google, Facebook, Yahoo e IBM.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

30


Hadoop: Armazena e Processa em uma única Plataforma Modelo Padrão Compute (RDBMS, EDW)

Data Storage (SAN, NAS)

Modelo Hadoop Compute (CPU)

Storage (Disk)

Memory z z

Network

Expensive, Special purpose, “Reliable” Servers Expensive Licensed Software • • • •

Hard to scale Network is a bottleneck Only handles relational data Difficult to add new fields & data types

Commodity “Unreliable” Servers Hybrid Open Source Software • • • •

Scales out forever No bottlenecks Easy to ingest any data Agile data access

Expensive & Unattainable

Affordable & Attainable

$30,000+ per TB

$300-$1,000 per TB

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

Fonte: Cloudera

31

Hadoop

"Acreditamos que, em um futuro próximo, o Hadoop será o software mais amplamente utilizado em Data Centers." Brian Krzanich CEO, Intel

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

32


Programação em Big Data • • • • • • • • • •

Python R Pig Latin Hive MapReduce MATLAB SAS SQL Java C/C++

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

33

Python

Python é uma linguagem open-source poderosa e flexível, fácil de aprender, fácil de usar, e tem bibliotecas poderosas para manipulação e análise de dados. Python suporta múltiplos paradigmas de programação, incluindo, programação orientada a objetos, imperativa e funcional.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

34


MapReduce MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo. O MapReduce foi criado pelo Google, onde foi utilizado para regerar completamente o índice (Google Index) da World Wide Web. A contribuição fundamental do framework MapReduce é a escalabilidade e tolerância a falhas alcançada para uma variedade de aplicações através da otimização do mecanismo de execução. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

35

Hive O Hive é uma ferramenta "SQL-like" que permite que aplicações de BI convencionais executem consultas em um cluster Hadoop. O Hive foi desenvolvido originalmente pelo Facebook (atualmente é de código aberto), e é uma abstração de alto nível da estrutura do Hadoop, que permite a qualquer pessoa fazer consultas em dados armazenados em um cluster Hadoop como se eles estivessem manipulando uma base de dados relacional. O Hive amplia o alcance do Hadoop, tornando-o mais familiar para os usuários de BI. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

36


PIG PIG é outra linguagem que tenta trazer o Hadoop para mais perto das realidades de desenvolvedores e usuários de negócios. Ao contrário do Hive, o PIG consiste em uma linguagem "Perl-like" que permite a execução de consultas sobre os dados armazenados em um cluster Hadoop. O PIG foi desenvolvido pelo Yahoo, e assim como o Hive, também foi feito totalmente open source.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

37

Linguagem R

R é uma linguagem de programação de software livre e um ambiente de software para computação estatística e gráficos. A linguagem R é utilizada por estatísticos e por quem trabalha com mineração de dados (Data Mining) para o desenvolvimento de softwares estatísticos e análise de dados.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

38


Flume O Flume tem uma arquitetura simples e flexível, baseado em streaming de fluxos de dados. Ele usa um modelo de dados extensível simples que permite a utilização de aplicações analíticas online.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

39

O fluxo do Big Data - Estágios

- Coletar - Armazenar - Transformar e Analisar - Modelar e Relacionar - Prever, Recomendar e Visualizar

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

40


Visualização dos Dados Uma Visualização de dados eficaz permite que as pessoas analisem rapidamente grandes quantidades de dados para identificar possíveis correlações, tendências, desvios, padrões e condições de negócios.

41

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

Big Data

Níveis de Maturidade do Big Data

Fonte:

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

42


Big Data - Maturidade de Adoção

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

43

Big Data Analytics - Plataformas

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

44


Cientista de dados

Cientista de Dados: A profissão mais sexy do Século 21!

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

45

Cientista de dados O cientista de dados é um profissional com uma base sólida em ciência da computação e aplicativos, modelagem, estatísticas, análises e matemática. O que diferencia o cientista de dados é uma forte visão de negócios, juntamente com a capacidade de comunicar os resultados para os clientes e líderes de TI de uma forma que pode influenciar a forma como uma empresa aborda um desafio de negócios.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

46


Cientista de dados

As empresas estรฃo procurando um cientista de dados ou um unicรณrnio?

9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

47

Cientista de dados

Como resolver o problema da escassez de cientista de dados no mercado de trabalho?

9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

48


Cientista de dados As empresas desenvolvedoras de ferramentas de Big Data estão customizando soluções para implementar Big Data de forma mais prática e objetiva.

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

49

Ciência de dados • • • • •

Mineração de Dados Aprendizado de Máquina (Machine Learning) Inteligência Artificial Recuperação de Informações Análises Estatísticas

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

50


Big Data - Preocupações • Privacidade • Ética

Plataformas

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

51

Big Data - Projeto Comece com um conjunto de dados bem definido. • Os dados estão disponíveis? • As perguntas para análise são as mais interessantes? • Como é que vamos adicionar novos tipos de dados? • Como é que iremos adicionar novas análises?

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

52


Big Data - Projeto • Usar modelos, Provas de Conceito (POC) e pilotos para minimizar o risco e explorar as opções de modo mais fácil • Trabalho em paralelo, sobrepondo as fases e explorando a eficiência de escala • Construir para reutilização e redistribuição • Agregação de código e maturidade de codificação • Ambientes (piloto, controle de qualidade, teste, préprodução, produção)

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

53

Big Data - Projeto Novas tecnologias geram novos conhecimentos: • Transferência de conhecimento • Formação e coaching • Documentação de design, implementação e suporte • Desenvolvimento de base de conhecimento • Padrões de Codificação • Melhores práticas • Bibliotecas de código • Frameworks, ferramentas e scripts reutilizáveis

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

54


Casos de Uso - Logística

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

55

Detecção de Fraude

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

56


Vendas - Varejo

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

57

Otimização do BI/DW

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

58


Conclusão Big Data não é apenas tecnologia, é análise e utilização de dados em tempo real para tomada de decisões.

Informação sem execução não traz nenhum valor ao negócio.

59

9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014

Obrigado! Marcus Borba marcus.borba@sparkbs.com.br www.linkedin.com/in/marcusborba

@MarcusBorba

60


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.