Big Data e Análise de Dados: Tendências e Aplicações em Projetos Marcus Borba
1
Apresentação Marcus Borba CTO - Spark Strategic Business Solution . 30 anos de experiência em tecnologia da informação. . 14 anos de experiência no Brasil e exterior nas áreas: BI, Big Data e Analytics. . Participo ativamente da comunidade de BI/BigData/Analytics, através de grupos, listas de discussão, sites, blogs e redes sociais, sendo citado em várias listas: -
The 23 Most Influential Business Intelligence Blogs - BI Software Insight (09/2014) Top Big Data Executives and Experts to Follow on Twitter - CEO World Magazine (05/2014) 10 Big Data Pros To Follow On Twitter - Information Week (04/2014) Top Site in the Business Intelligence Category – Alltop (Desde 2009)
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
2
Agenda
• • • • • •
Introdução O que é Big Data Os Desafios do Big Data Big Data – Arquitetura e Tecnologia Ciência de Dados Casos de Uso
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
3
Introdução
“A Informação é o petróleo do século 21, e o analytics é o motor de combustão” Peter Sondergaard SVP - Gartner
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
4
Volume de Informação “Desde o início da civilização até 2003, a humanidade gerou cinco exabytes de dados. Agora vamos produzir cinco exabytes a cada dois dias ... e o ritmo está acelerando.” Eric Schmidt, Executive Chairman Google
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
5
Volume de Informação
90% dos dados existentes hoje foram gerados nos últimos dois anos Fonte: IBM
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
6
Big Data Por que Big Data é tão importante?
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
7
O que é Big Data
O conceito de Big Data foi criado baseado no fato de que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
8
O que é Big Data Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados digitais em volume, variedade e velocidade nunca vistos antes. O Big Data permite analisar qualquer tipo de informação digital em tempo real, tornando-se fundamental para a tomada de decisões. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
9
Os 5 Vs do Big Data Volume Velocidade Variedade Veracidade Valor
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
10
Volume A quantidade de dados produzidos no mundo de hoje aumenta exponencialmente. Ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo. • Transações por segundo (TPS) em Terabytes (TB) • Armazenamento por dia ou ano em PetaBytes (PB) ou Exabytes (EB) • Diversos Data Centers • Diversos Data Hubs 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
11
Velocidade Com o aumento dos dados vem o aumento da velocidade, número e periodicidade das operações com o seu negócio. • Processamento e Visualização de Dados em Tempo Real ou QUASE Tempo Real • Transmissão de Dados • Transmissão de Vídeo • Consultas e resultados em segundos ou milisegundos
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
12
Variedade Diferentes tipos de dados, com formatos diferentes. • Dados estruturados (RDBMS, DW) • Dados semi-estruturados (arquivos de log, csv, etc) • Dados não estruturados (imagens, livros, videos, audio, textos, informações publicadas em redes sociais como Twitter e Facebook)
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
13
Veracidade Com muitas formas de dados, a confiabilidade, qualidade e precisão dos dados ficam menos controláveis. Precisamos ter certeza que os dados são autênticos e fazem sentido. (por exemplo, posts no Twitter com hashtags, linguagem coloquial, erros de digitação e abreviações, além da precisão do conteúdo).
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
14
Valor
Informação é poder, informação é patrimônio.
A combinação Volume + Velocidade + Variedade+ Veracidade será inviável se o resultado não trouxer benefícios que compensem o investimento e também agreguem valor ao negócio.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
15
Big Data – Previsão de Mercado
Fonte: Wikibon
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
16
Internet das Coisas (Internet of Things - IoT) Este cenário está longe de deixar de ser crescente. Basta imaginar que diversos dispositivos em nossas casas - TVs, geladeiras, lavadoras de roupa, cafeteiras, etc deverão estar conectados à internet em um futuro próximo.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
17
Internet das Coisas - IoT Segundo o Gartner, a Internet das Coisas atualmente está no topo das tecnologias emergentes.
Gartner: Hype Cycle for Emerging Technologies (Agosto/2014)
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
18
Os Desafios do Big Data O Big Data obriga as empresas a pensarem em três desafios estratégicos e operacionais: - Estratégia da Informação - Análise dos Dados - Gestão da Informação Corporativa
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
19
Os Desafios do Big Data Estratégia da Informação: A empresa precisa aproveitar o poder dos ativos da informação. O Big Data está levando as empresas a encontrar novas maneiras de alavancar fontes de informação para impulsionar o crescimento.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
20
Os Desafios do Big Data Análise dos dados: A empresa precisa ter mais insights de suas análises de Big Data.
A empresa precisa prever futuros comportamentos dos clientes, tendências e resultados.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
21
Os Desafios do Big Data Gestão da Informação Corporativa: A informação está em toda parte, e continua crescendo. As empresas precisam gerenciar o acesso às crescentes necessidades de informação de gestão e direcionar a inovação no processamento rápido das informações.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
22
Os Desafios do Big Data
Fonte: Tiffani Crawford
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
23
Big Data: 3 perguntas importantes Armazenar: Você pode capturar e armazenar os dados? Processo: Você pode limpar, enriquecer e analisar os dados? Acesso: Você pode recuperar, pesquisar, integrar e visualizar os dados?
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
24
Business Intelligence: Fluxo de Dados Tradicional
9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
25
Big Data: Fluxo de Dados
9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
26
O Big Data não vai substituir o Data Warehouse, eles são complementares.
Neste novo ambiente, o Data Warehouse pode continuar com sua carga de trabalho padrão, utilizando dados de sistemas legados operacionais e armazenamento de dados históricos para fornecimento tradicional de inteligência de negócios e os resultados de análise. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
27
Big Data - Arquitetura
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
28
Banco de Dados NOSQL Os banco de dados NoSQL (Not Only SQL) fornecem um mecanismo para armazenamento e recuperação de dados que utiliza modelos de consistência mais flexíveis do que os bancos de dados relacionais tradicionais.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
29
Hadoop
O Hadoop é uma plataforma de código aberto (open source) desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, contando com a colaboração de várias grandes empresas, como Google, Facebook, Yahoo e IBM.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
30
Hadoop: Armazena e Processa em uma única Plataforma Modelo Padrão Compute (RDBMS, EDW)
Data Storage (SAN, NAS)
Modelo Hadoop Compute (CPU)
Storage (Disk)
Memory z z
Network
Expensive, Special purpose, “Reliable” Servers Expensive Licensed Software • • • •
Hard to scale Network is a bottleneck Only handles relational data Difficult to add new fields & data types
Commodity “Unreliable” Servers Hybrid Open Source Software • • • •
Scales out forever No bottlenecks Easy to ingest any data Agile data access
Expensive & Unattainable
Affordable & Attainable
$30,000+ per TB
$300-$1,000 per TB
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
Fonte: Cloudera
31
Hadoop
"Acreditamos que, em um futuro próximo, o Hadoop será o software mais amplamente utilizado em Data Centers." Brian Krzanich CEO, Intel
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
32
Programação em Big Data • • • • • • • • • •
Python R Pig Latin Hive MapReduce MATLAB SAS SQL Java C/C++
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
33
Python
Python é uma linguagem open-source poderosa e flexível, fácil de aprender, fácil de usar, e tem bibliotecas poderosas para manipulação e análise de dados. Python suporta múltiplos paradigmas de programação, incluindo, programação orientada a objetos, imperativa e funcional.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
34
MapReduce MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo. O MapReduce foi criado pelo Google, onde foi utilizado para regerar completamente o índice (Google Index) da World Wide Web. A contribuição fundamental do framework MapReduce é a escalabilidade e tolerância a falhas alcançada para uma variedade de aplicações através da otimização do mecanismo de execução. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
35
Hive O Hive é uma ferramenta "SQL-like" que permite que aplicações de BI convencionais executem consultas em um cluster Hadoop. O Hive foi desenvolvido originalmente pelo Facebook (atualmente é de código aberto), e é uma abstração de alto nível da estrutura do Hadoop, que permite a qualquer pessoa fazer consultas em dados armazenados em um cluster Hadoop como se eles estivessem manipulando uma base de dados relacional. O Hive amplia o alcance do Hadoop, tornando-o mais familiar para os usuários de BI. 9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
36
PIG PIG é outra linguagem que tenta trazer o Hadoop para mais perto das realidades de desenvolvedores e usuários de negócios. Ao contrário do Hive, o PIG consiste em uma linguagem "Perl-like" que permite a execução de consultas sobre os dados armazenados em um cluster Hadoop. O PIG foi desenvolvido pelo Yahoo, e assim como o Hive, também foi feito totalmente open source.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
37
Linguagem R
R é uma linguagem de programação de software livre e um ambiente de software para computação estatística e gráficos. A linguagem R é utilizada por estatísticos e por quem trabalha com mineração de dados (Data Mining) para o desenvolvimento de softwares estatísticos e análise de dados.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
38
Flume O Flume tem uma arquitetura simples e flexível, baseado em streaming de fluxos de dados. Ele usa um modelo de dados extensível simples que permite a utilização de aplicações analíticas online.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
39
O fluxo do Big Data - Estágios
- Coletar - Armazenar - Transformar e Analisar - Modelar e Relacionar - Prever, Recomendar e Visualizar
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
40
Visualização dos Dados Uma Visualização de dados eficaz permite que as pessoas analisem rapidamente grandes quantidades de dados para identificar possíveis correlações, tendências, desvios, padrões e condições de negócios.
41
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
Big Data
Níveis de Maturidade do Big Data
Fonte:
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
42
Big Data - Maturidade de Adoção
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
43
Big Data Analytics - Plataformas
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
44
Cientista de dados
Cientista de Dados: A profissão mais sexy do Século 21!
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
45
Cientista de dados O cientista de dados é um profissional com uma base sólida em ciência da computação e aplicativos, modelagem, estatísticas, análises e matemática. O que diferencia o cientista de dados é uma forte visão de negócios, juntamente com a capacidade de comunicar os resultados para os clientes e líderes de TI de uma forma que pode influenciar a forma como uma empresa aborda um desafio de negócios.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
46
Cientista de dados
As empresas estรฃo procurando um cientista de dados ou um unicรณrnio?
9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
47
Cientista de dados
Como resolver o problema da escassez de cientista de dados no mercado de trabalho?
9ยบ Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
48
Cientista de dados As empresas desenvolvedoras de ferramentas de Big Data estão customizando soluções para implementar Big Data de forma mais prática e objetiva.
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
49
Ciência de dados • • • • •
Mineração de Dados Aprendizado de Máquina (Machine Learning) Inteligência Artificial Recuperação de Informações Análises Estatísticas
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
50
Big Data - Preocupações • Privacidade • Ética
Plataformas
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
51
Big Data - Projeto Comece com um conjunto de dados bem definido. • Os dados estão disponíveis? • As perguntas para análise são as mais interessantes? • Como é que vamos adicionar novos tipos de dados? • Como é que iremos adicionar novas análises?
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
52
Big Data - Projeto • Usar modelos, Provas de Conceito (POC) e pilotos para minimizar o risco e explorar as opções de modo mais fácil • Trabalho em paralelo, sobrepondo as fases e explorando a eficiência de escala • Construir para reutilização e redistribuição • Agregação de código e maturidade de codificação • Ambientes (piloto, controle de qualidade, teste, préprodução, produção)
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
53
Big Data - Projeto Novas tecnologias geram novos conhecimentos: • Transferência de conhecimento • Formação e coaching • Documentação de design, implementação e suporte • Desenvolvimento de base de conhecimento • Padrões de Codificação • Melhores práticas • Bibliotecas de código • Frameworks, ferramentas e scripts reutilizáveis
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
54
Casos de Uso - Logística
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
55
Detecção de Fraude
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
56
Vendas - Varejo
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
57
Otimização do BI/DW
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
58
Conclusão Big Data não é apenas tecnologia, é análise e utilização de dados em tempo real para tomada de decisões.
Informação sem execução não traz nenhum valor ao negócio.
59
9º Congresso de Gerenciamento de Projetos - 22 e 23 de setembro de 2014
Obrigado! Marcus Borba marcus.borba@sparkbs.com.br www.linkedin.com/in/marcusborba
@MarcusBorba
60