Temas2 unidade 1

Page 1

fg.raonioliveira.com.br

BIG DATA

Prof. Raoni Oliveira (raoni.oliveira@faculdade guararapes.edu.br)


MOTIVAÇÃO Dilúvio de Dados

Curva de tendências à partir de dados gerados por aplicações e usuários em diversos contextos distintos.


MOTIVAÇÃO Google Trends e o H1N1

Na época em que a doença H1N1 estava em alta, a Google realizou algumas pesquisas e verificou que a curva de crescimento das buscas sobre a doença acompanhava a incidência de casos desta mesma enfermidade.


O NOSQL O NoSQL surgiu da necessidade de uma performance superior e de uma alta escalabilidade. Os atuais bancos de dados relacionais são muito restritos a isso, sendo necessária a distribuição vertical de servidores, ou seja, quanto mais dados, mais memória e mais disco um servidor precisa. O NoSQL tem uma grande facilidade na distribuição horizontal, ou seja, mais dados, mais servidores, não necessariamente de alta performance. Um grande utilizador desse conceito é o Google, que usa computadores de pequeno e médio porte para a distribuição dos dados; essa forma de utilização é muito mais eficiente e econômica. Além disso, os bancos de dados NoSQL são muito tolerantes a erros.

NoSQL é um movimento que promove soluções de armazenamento de dados não relacionais. Ele é composto por diversas ferramentas que, de forma particular e específica, resolvem problemas como tratamento de grandes volumes de dados, execução de consultas com baixa latência e modelos flexíveis de armazenamento de dados, como documentos XML ou JSON. As tecnologias NoSQL não têm como objetivo substituir os bancos de dados relacionais, mas apenas propor algumas soluções que em determinados cenários são mais adequadas. Desta forma é possível trabalhar com tecnologias NoSQL e banco de dados relacionais dentro de uma mesma aplicação.


O NOSQL O NoSQL surgiu da necessidade de uma performance superior e de uma alta escalabilidade. Os atuais bancos de dados relacionais são muito restritos a isso, sendo necessária a distribuição vertical de servidores, ou seja, quanto mais dados, mais memória e mais disco um servidor precisa. O NoSQL tem uma grande facilidade na distribuição horizontal, ou seja, mais dados, mais servidores, não necessariamente de alta performance. Um grande utilizador desse conceito é o Google, que usa computadores de pequeno e médio porte para a distribuição dos dados; essa forma de utilização é muito mais eficiente e econômica. Além disso, os bancos de dados NoSQL são muito tolerantes a erros.

NoSQL é um movimento que promove soluções de armazenamento de dados não relacionais. Ele é composto por diversas ferramentas que, de forma particular e específica, resolvem problemas como tratamento de grandes volumes de dados, execução de consultas com baixa latência e modelos flexíveis de armazenamento de dados, como documentos XML ou JSON. As tecnologias NoSQL não têm como objetivo substituir os bancos de dados relacionais, mas apenas propor algumas soluções que em determinados cenários são mais adequadas. Desta forma é possível trabalhar com tecnologias NoSQL e banco de dados relacionais dentro de uma mesma aplicação.


O BIG DATA O termo Big Data é bem amplo e ainda não existe um consenso comum em sua definição. Porém, Big Data pode ser resumidamente definido como o processamento (eficiente e escalável) analítico de grandes volumes de dados complexos produzidos por (várias) aplicações (distintas).


O BIG DATA De acordo com Meira (2014), A expressão BIG DATA se refere qualquer coleção de dados cuja combinação de volume [tamanho da coleção],variedade [dos tipos de dados e das suas fontes] e velocidade [de geração e captura dos dados e de eventuais mudanças de formatos, fontes... e seu efeito no ciclo de vida da informação] esteja no limite ou exceda os métodos, processos, algoritmos e capacidade computacional contemporânea para simplificar seu entendimento através de sínteses capazes de gerar significados para os modelos e processos de negócio para os quais estão sendo levados em conta.


O BIG DATA Exemplos de aplicações no contexto Big Data varia bastante, como aplicações científicas e de engenharias, redes sociais, redes de sensores, dados de Web Click, dados médicos e biológicos, transações de comércio eletrônico e financeiros, entre inúmeras outras. As semelhanças entre os dados desses exemplos de aplicações incluem:  Grande quantidade de dados distribuídos,  Características de escalabilidade sob demanda,  Operações ETL (extract, transform, load [27]) de dados "brutos” (raw) semi- ou não estruturados para dados estruturados e,  A necessidade de extrair conhecimento da grande quantidade de dados.


CONCEITOS Três fatores influenciaram o grande aumento de volume de dados sendo coletados e armazenados para posterior análise:  Difusão dos dispositivos captação de dados, dispositivo com armazenamento na ordem de Terabytes e aumento de velocidade de transmissão nas redes.  Os dispositivos de aquisição, bem como os dispositivos de armazenamento de grande escala se difundiram principalmente pelo seu barateamento (e.g., redes de sensores, GPS, smartphones), enquanto que as redes aumentaram sua velocidade e abrangência geográfica.  Outro fator importante é a facilidade de geração e aquisição de dados gerados digitalmente, como máquinas fotográficas digitais, smartphones, GPS, etc. Como consequência novas demandas estão surgindo, como a demanda por análise de grande volume de dados em tempo real (data analytics), o aumento do detalhamento das informações, bem como plataformas escaláveis e eficientes de baixo custo.


CONCEITOS Podemos basicamente resumir as características de Big Data em quatro propriedades:    

Dados na ordem de dezenas ou centenas de Terabytes; Poder de crescimento elástico horizontal; Fácil distribuição dos dados e/ou processamento; Tipos de dados variados, complexos e/ou sem-estruturados.


CONCEITOS Podemos basicamente resumir as características de Big Data em quatro propriedades:    

Dados na ordem de dezenas ou centenas de Terabytes; Poder de crescimento elástico horizontal; Fácil distribuição dos dados e/ou processamento; Tipos de dados variados, complexos e/ou sem-estruturados.


A característica de manipulação de dados na ordem (ou maior) de Terabytes envolve, entre outros aspectos, o requisito de alto poder computacional de processamento, manipulação e armazenamento de dados. O poder de crescimento elástico está relacionado ao fato de que a quantidade de dados pode variar de alguns Megabytes a várias centenas de Terabytes (e vice-versa) em um espaço de tempo relativamente curto, fazendo com que a estrutura de hardware/software demandada tenha que se adaptar, i.e. seja alocada/desalocada sob demanda da aplicação.


A distribuição significa que os dados devem ser distribuídos de forma transparente em vários nós de processamento, o que demanda armazenamento e processamento distribuído. E a quarta característica está relacionada a adoção de modelos mais apropriados, flexíveis e eficientes para o armazenamento de tipos de dados complexos, variados e semi-estruturados. Vale ressaltar que o modelo relacional tradicional não é o mais adequado para tais propriedades acima citadas pois não possui suficiente flexibilidade para o armazenamento de dados e na evolução do modelo de dados.


DÚVIDAS ? Aulas disponíveis em: fg.raonioliveira.com.br


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.