Prefácio
Em 2003, como um jovem pesquisador em estatística, tive a oportunidade de conhecer o trabalho do professor emérito (de Estatística) Leo Breiman. Seu livro Árvore de classificação e regressão despertou meu interesse em aprendizado de máquina e mudou minha carreira e vida. Lembro-me de dizer a mim mesmo naquela época: “É assim que a estatística deveria ser ensinada e utilizada”. O foco era em dados reais e problemas reais em vez de construções puramente matemáticas; em usar a matemática para resolver problemas reais; em computações em lugar de prova matemática; em simplicidade em substituição de complexidade.
Nos 15 anos seguintes, aprendi sozinho, testei, implementei e ensinei análise de dados, ciência de dados e inteligência artificial para inúmeras empresas, agências governamentais e estudantes de bacharelado/mestrado/doutorado. Tentei – mas não consegui – encontrar um único livro-texto que fosse adequado ou útil para meus clientes e alunos. O livro do professor Breiman é sobre um modelo (Árvore de classificação e regressão) e é o melhor para aprender sobre um modelo especializado. Mas existem muitos outros modelos e muitos outros fatores, além de modelos, que também devem ser considerados em práticas e aplicações bem-sucedidas. Há alguns bons livro-textos que abordam mais assuntos, como Elementos de aprendizado estatístico, de Hastie, Tibshirani e Friedman, mas sei que a maioria dos meus clientes e alunos não pode se beneficiar deles, pois os pré-requisitos matemáticos são muito avançados. Existem muitos outros livros-textos em nível matemático inferior, mas algumas considerações essenciais podem estar ausentes, explicações e interpretações de conceitos e modelos-chave podem ser muito superficiais, ou, em alguns casos, simplesmente estar erradas. Isso é perigoso, especialmente se procedimentos ou interpretações errôneas forem usados em situações de vida ou morte, prosperar ou entrar em falência.
O que tem em mãos é o livro-texto ideal que venho procurando, nos últimos 15 anos, para meus clientes de várias empresas e estudantes. Você pode já ter aprendido alguns dos tópicos na escola ou em outros livros-texto, contudo é provável que ainda aprenda algo novo, útil e prático, se ler este livro. Os conteúdos foram ensinados em várias aulas em universidades e workshops de treinamento corporativo, com um feedback comum dos estudantes e participantes do curso, sendo: “Agora eu entendo por quê...”. Um colega professor, após ler os dois primeiros capítulos, comentou: “Você me fez pensar profundamente sobre...”.
Estamos vivendo um momento emocionante no qual análise de dados, ciência de dados e inteligência artificial mudarão o mundo de forma ainda mais dramática do que na última década. Este livro permitirá que você entenda claramente, influencie e até mesmo lidere algumas das mudanças na próxima década.
ix
Espero que esta obra traga alegria, inspiração e confiança para o seu aprendizado e aplicação de análise de dados, ciência de dados ou IA, para a sua área de trabalho, e mude sua carreira e vida, assim como o livro do professor Leo Breiman inspirou e mudou minha carreira e vida.
Atenciosamente, Chew Chee Hua
Público-alvo
Este livro é destinado a quatro grupos de leitores:
1. estudantes de graduação especializados em análise de dados/ciência de dados/ inteligência artificial moderna;
2. estudantes de mestrado especializados em análise de dados/ciência de dados/ inteligência artificial moderna;
3. oficinas de treinamento corporativo ou seminários em análise de dados/ciência de dados/inteligência artificial moderna;
4. clientes de consultoria interessados em aplicar análise de dados/ciência de dados/ inteligência artificial moderna.
A IA tradicional concentra-se no design de algoritmos para induzir os humanos a pensar que estão conversando com um humano, e não com um programa de computador. Como um legado do teste de Turing, isso é irrelevante. Na IA moderna, o foco está no design de algoritmos que permite que programas aprendam e melhorem suas previsões ou desempenho sem serem explicitamente programados – o ramo de aprendizado de máquina da IA. Agora estamos confortáveis conversando com chatbots e usando programas de computador, desde que os algoritmos nos ofereçam ajuda inteligente em nosso trabalho ou em nossa vida. Não há mais necessidade de sermos induzidos a pensar que o programa de computador é um humano.
O conteúdo do livro, scripts de software R, slides de instrutores e notas de ensino foram testados em salas de aulas de universidades e workshops de treinamento corporativo.
Os participantes desses workshops incluíram: Google, Accenture, Barclays Bank, Central Provident Fund Board, Credit Suisse Group, DBS Bank, Grab, Housing & Development Board, HP, IBM, Integrated Health Information Systems, International Enterprise Singapore, JTC Corporation, M1, Maritime and Port Authority of Singapore, Ministério da Defesa, Ministério da Saúde, Ministério dos Assuntos Internos, Universidade Tecnológica de Nanyang Cingapura, National University Health System, Universidade Nacional de Cingapura, OCBC Bank, Marinha da República de Cingapura, Singapore Airlines, Singapore General Hospital, Universidade de Gestão de Cingapura, Polícia de Cingapura, Singapore Power, Singtel, SONY Electronics,
x INTELIGÊNCIA
ARTIFICIAL
Starhub, ST Engineering, Temasek International, Uber, VISA, Wells Fargo Bank, dentre outros.
Meus clientes de consultoria incluem empreendedores, CEOs, diretores, chefes de pesquisa e análise e de planejamento, médicos especialistas, engenheiros, professores, dentre outros. O trabalho de consultoria inclui assessoria e/ou desenvolvimento de tecnologias de análise de dados/IA para uma aplicação específica.
Meus alunos e clientes de consultoria são a razão pela qual este livro foi criado. Entre em contato se você tem algum feedback ou sugestões sobre o conteúdo.
Sobre o software
Existem vários softwares, com diferentes níveis de capacidade e interface, para fazer análise de dados, ciência de dados ou IA. Alguns deles são: R, Python, SAS e SPSS. Para consistência de aprendizado por iniciantes, e, em parte, pelos requisitos universitários, focaremos no software R de código aberto e gratuito. Se houver demanda suficiente, posso fornecer execução alternativa de software para os exemplos e exercícios que constam no site <https://r4ds.had.co.nz/datavisualisation.html>
Os conceitos são os mesmos, independentemente da sua escolha de software.
Os conteúdos do livro e os scripts em R foram testados em várias universidades e workshops de treinamento corporativo. Eles são uma consolidação de mais de 15 anos de experiência em consultoria, implementação e ensino.
Se você é um iniciante sem nenhum conhecimento de programação, pode simplesmente baixar meus scripts em R para reproduzir os resultados e fazer pequenas modificações para seus próprios conjuntos de dados e projetos. A maioria dos meus alunos de escolas de negócios não tem conhecimento de programação, mas conseguem trabalhar em R, com meus scripts em R, modificando-os. É possível usar o R para fazer os cálculos, mesmo sem ter conhecimento de programação.
Minha estratégia é dedicar o tempo de aula a atividades computacionais práticas. Meu livro sempre pode ser lido antes ou depois da aula pelos alunos.
Se nunca instalou o R, por favor, consulte as breves instruções de instalação no Apêndice A. Alternativamente, as instruções estão prontamente disponíveis usando uma ferramenta de busca (por exemplo, Google). Você precisará instalar (a) o R e depois (b) a IDE RStudio. Ambos são gratuitos.
Este é um livro para aprender análise de dados, ciência de dados e IA, e não programação em R. Nós simplesmente usamos o R como ferramenta para executar procedimentos. Para ser tecnicamente correto, fazemos o script em R em vez de programação em R. Usamos pacotes populares do R escritos por outros, e escrevemos scripts simples para ativar esses pacotes e realizar o trabalho.
A programação real já foi escrita pelos criadores dos pacotes para que qualquer usuário possa usar e aproveitar.
xi Prefácio
Materiais de apoio para alunos e professores
O material de apoio on-line está disponível na página deste livro no site da Cengage (www.cengage.com.br). Insira, no mecanismo de busca do site, o nome do livro: Inteligência artificial. Clique no título do livro e, na página que se abre, você verá, abaixo das especificações do livro, o link Materiais de apoio. Clique nele. Você visualizará dois links: Material de apoio para professores e Material de apoio para estudantes. Escolha um deles e clique. Entre com seu login de professor ou de estudante e faça o download do material.
Estão disponíveis exclusivamente para professores os slides de PowerPoint (materiais em inglês).
Para professores e estudantes estão disponíveis os slides de PowerPoint (conteúdo resumido em português), Datasets e Rscripts, e manual de soluções (em inglês).
xii INTELIGÊNCIA ARTIFICIAL
CAPÍTULO
1Introdução e visão geral
Análise de dados, ciência de dados e inteligência artificial (ACI) não são novidades. Elas existem há pelo menos 50 anos. O que há de novo são a conscientização, ointeresse e as prioridades das empresas e dos governos. Da corrida em andamento pela supremacia em inteligência artificial (IA) entre os Estados Unidos e a China, à ambição de se tornar a nação inteligente de Cingapura, governos em todo omundo estão patrocinando a ACI. As empresas líderes, tendo experimentado o sucesso, estão ampliando seus esforços em ACI e criando novos modelos de negócios, enquanto outras estão desenvolvendo e testando as capacidades de ACI. Na seção a seguir há uma pequena lista de notáveis histórias de sucesso para motivar sua jornada de aprendizado em ACI e apresentar-lhe a realidade. O sucesso dessas histórias é baseado em uma combinação hábil de análise, ciência de dados e, em alguns casos, IA.
1.1 Principais histórias de sucesso e aplicações
A seguir, uma pequena lista de histórias reais de sucesso que mostram o que foi alcançado em setores muito diferentes. Você ou sua empresa/governo também podem alcançar isso e muito mais.
1.1.1 Estratégia para receita de US$12 bilhões na Netfl ix
Quando mencionei a Netflix pela primeira vez para meus clientes de Cingapura, em 2004, ninguém tinha ouvido falar dela. Nos últimos anos, a empresa montou um escritório em Cingapura e agora quase todas as pessoas já conhecem a Netflix. Esta é uma empresa notável que superou as expectativas, conquistou o público e prosperou de uma empresa com faturamento insignificante em 1998 para uma de US$ 12 bilhões em 2017, apenas indicando quais filmes você deseja assistir.
A Netflix começou em 1998 como uma locadora de DVDs on-line. Em muitos lugares do mundo já não existia loja física onde os clientes pudessem ver títulos de filmes e discutir interesses com os funcionários da loja. Para sobreviver contra os concorrentes numa indústria de aluguel de filmes, a Netflix sabia que precisava
1
entender melhor os clientes e mais rápido do que seus concorrentes. E se a Netflix pudesse conhecer os clientes melhor do que os próprios clientes? Assim, a empresa coletou comentários de filmes e dados de perfil dos clientes e desenvolveu modelos proprietários de análise que podiam recomendar filmes que os clientes gostariam de assistir. Se os modelos analíticos forem bons, eles terão confiança nas recomendações e a Netflix prosperará – caso contrário, ela terá que fechar suas portas.
O desempenho do modelo de recomendação de filmes é tão importante que, em 2006, a Netflix ofereceu um prêmio de US$ 1 milhão para qualquer pessoa ou equipe que conseguisse superar o desempenho do modelo proprietário interno em pelo menos 10%. Em troca, a equipe vencedora tinha que mostrar como seu modelo vencedor funcionava para que pudesse ser incorporado no modelo proprietário da Netflix.
Demorou três anos até que uma equipe finalmente ganhasse o prêmio, com 10,06% de melhoria de desempenho.
Quais foram os critérios de avaliação do modelo usados para julgar o desempenho preditivo de um modelo? Como a Netflix garantiria que o modelo vencedor realmente teria um bom desempenho e que o bom desempenho não seria devido à escolha da amostra de dados ou outros fatores aleatórios que nada tinham a ver com a qualidade do modelo? Estas são considerações importantes que você examinará neste livro.
1.1.2 Salvando vidas em prontos-socorros com informações muito limitadas
As pressões sobre médicos e enfermeiras em prontos-socorros são enormes, vitais e recorrentes. No final da década de 1970, dentro de um setor de emergência de um
INTELIGÊNCIA ARTIFICIAL 2
Figura 1.1: NetFlix.
© CeltStudio/Shutterstock
pronto-socorro os casos de atendimentos mais estressantes (para pacientes no limiar entre vida e morte) eram os de tratamento de ataques cardíacos. Em linguagem de leigos, existem dois tipos de pacientes cardíacos: os de alto risco, para quem o atual quadro de ataque é apenas um preâmbulo para o próximo ataque que virá logo na sequência e o levará a óbito (assim como um pequeno terremoto precede a chegada de um grande terremoto); ou os de baixo risco, para quem o atual ataque cardíaco é um evento único e do qual vai se recuperar em breve, mesmo com intervenção e cuidados médicos mínimos.
Para prevenir o segundo ataque cardíaco em pacientes de alto risco, é necessária uma injeção de anticoagulante. No entanto, isso pode causar efeitos colaterais graves, como hemorragia interna. Assim, os médicos optam por aplicar anticoagulante apenas se o paciente estiver em alto risco. Os médicos do pronto-socorro devem decidir logo, com base em informações limitadas disponíveis, na ausência de resultados de exames de sangue, aplicar ou não, e o relógio está correndo…
Os médicos pediram ajuda ao professor Leo Breiman. Ele poderia desenvolver um método simples, rápido e fácil, baseado em 19 variáveis não invasivas, tais como temperatura, pressão arterial etc., coletadas em 24 horas após a admissão do paciente no pronto-socorro, para obter maior precisão que os médicos da emergência na previsão de pacientes com ataque cardíaco de alto risco versus baixo risco?
O professor Leo Breiman criou o modelo de árvore de classificação e regressão. A acurácia do modelo preditivo supera a dos médicos e é comparável à de cardiologistas; ou seja, o modelo prediz diagnósticos – na ausência de exames – com índice de acerto próximo aos diagnósticos produzidos por um cardiologista.
Capítulo 1 – Introdução e visão geral 3
Figura 1.2: Pronto-socorro de um hospital.
© hxdbzxy/Shutterstock
Essa é uma verdadeira história de como o modelo de árvore de classificação e regressão foi criado. Mas o que torna este modelo tão simples, rápido e fácil de usar?
Como médicos e enfermeiras com treinamento estatístico limitado tornam-se capazes de entender e usar o modelo para tomar decisões médicas de vida ou morte?
Esse modelo fascinante será explicado em detalhes no Capítulo 8. Na verdade, esse é o“ponto culminante” deste livro, pois implementou muitos conceitos fundamentais de análise/aprendizado de máquina/ciência de dados prontos para uso – alguns dos quais ainda são conceitos avançados hoje.
1.1.3 Diagnóstico de câncer e prognóstico de lesões em Pequim
A manchete de um artigo publicado na China proclama: “A IA derrota os médicos de elite em competição de diagnóstico”.1 Em quase 90% dos casos, a IA fez diagnósticos corretos em cerca de 15 minutos, enquanto 15 médicos dos principais hospitais na China alcançaram apenas uma precisão de 66% no dobro do tempo gasto pela IA. Para prognóstico de expansão de hematoma cerebral, a pontuação foi IA (83%) versus médicos de elite (63%). Tais anúncios públicos e concursos mostram a ambição e o foco da China em ser a superpotência da IA. O modelo utilizado não foi divulgado, mas em IA os modelos mais comuns são historicamente redes neurais e, recentemente, modelos de aprendizagem profunda ou deep learning
Em 2016, em um projeto de final de curso de um aluno, foram combinados Multivariate Adaptive Regression Splines (Mars) com rede neural para alcançar uma
1 Yamei. AI beats human doctors in neuroimaging recognition contest. China Focus, 30 jun. 2019. (xinhuanet.com).
INTELIGÊNCIA ARTIFICIAL 4
Figura 1.3: Um laboratório biomédico.
© Marcin Janiec/Shutterstock
precisão diagnóstica revolucionária de 98% no câncer de mama a partir de varreduras digitalizadas.
1.1.4
Ganhar 20 jogos nacionais consecutivos do zero com um orçamento pequeno
Como um pequeno time de beisebol mal financiado e sempre perdedor de repente tornou-se capaz de vencer 20 jogos nacionais consecutivos? Esta história real sem precedentes foi transformada no filme Moneyball (O homem que mudou o jogo), estrelado por Brad Pitt em 2011. Os princípios e ideias de análise de dados envolvidos foram explicados brevemente no filme, já que o foco está no drama e não na educação. Em 2015, tive um aluno interessado em prever resultados de jogos de futebol. Criamos um comitê de diferentes modelos – regressão logística, rede neural, árvore de classificação e regressão – e seus resultados foram combinados para melhorar a acurácia. Você examinará esses três modelos neste livro.
1.1.5 Manutenção preditiva de ativos para perfuração de petróleo em águas profundas na Shell
A Shell é pioneira na adoção de análise de dados para avaliação e manutenção de ativos. É extremamente caro e demorado parar o trabalho, diagnosticar e fazer reparos devido a falhas de equipamentos, especialmente se envolver perfuração de
Capítulo 1 – Introdução e visão geral 5
Figura 1.4: Placar de um jogo de Beisebol.
© Palakorn Jaiman/Shutterstock
petróleo em alto mar. E se pudéssemos prever quando e onde a falha é iminente?
Ações preventivas podem então ser tomadas para evitar falha de equipamento. A Shell implantou sensores para coletar dados em vários pontos e modelos analíticos foram usados para analisar os dados.
Em alguns casos, é mais do que apenas uma questão de tempo e dinheiro. Estima-se que 80% dos acidentes ocorridos em minas de carvão foram causados por falhas de equipamentos. Se as fórmulas de engenharia e a opinião de especialistas não puderem reduzir falhas e desastres, por que não testar e implantar modelos analíticos/IA?
1.1.6 Ganhar ou perder as eleições presidenciais dos EUA
No início da campanha presidencial de Barack Obama, o coordenador da campanha decidiu por uma estratégia de trabalho com base em análise de dados. Cem funcionários de análise de dados foram recrutados, bancos de dados foram configurados e modelos preditivos foram criados. “Se você não inseriu os dados, não fez o trabalho.” Os dados foram inseridos em modelos analíticos para entender e prever as ações do eleitor individualmente. Obama venceu a eleição de 2009 e a reeleição em 2013 e se tornou o 44o presidente dos Estados Unidos.
Na eleição presidencial seguinte, no final de 2016, seria levantado um novo problema com enorme impacto para a ciência de dados – notícias e dados falsos, ou seja, fake news. Até agora, os modelos sempre assumiram que os dados eram prioritariamente corretos, enquanto dados errados e ausentes eram relativamente pouco frequentes. Mas e se os dados estiverem errados, ou pior, intencionalmente falsificados? O final da eleição presidencial dos Estados Unidos em 2016 viu o nascimento de novas startups (como Snopes) dedicadas a detectar notícias falsas e empresas de tecnologia declarando sua luta contra notícias falsas assinando o Código de Conduta sobre Desinformação da União Europeia (EU Code of Practice on Disinformation).
INTELIGÊNCIA ARTIFICIAL 6
Figura 1.5: Uma plataforma de petróleo em alto mar.
© sarawut hannarong/Shutterstock
Antes das eleições para o Parlamento Europeu em maio de 2019 e de várias outras eleições nacionais posteriores, o comissário europeu de segurança, Julian King, “criticou a falta de progresso na repressão às notícias falsas feita pelas três empresas [Facebook, Google, Twitter] com base em seus relatórios mensais”.2 Esperam-se que regulamentações e regras de compliance rigorosas sejam emitidas caso evidências de propagação de notícias falsas por meio de suas plataformas tenham potenciais de interferências eleitorais.
Em 8 de maio de 2019, o Parlamento de Cingapura aprovou uma nova lei contra fake news. “Um ministro decide se deve agir contra uma notícia falsa na Internet, podendo ordenar que ela seja retirada do ar ou pedir inclusão de erratas.”3
Depois que o projeto de lei foi anunciado, Facebook, Google e um grupo da indústria representando as gigantes da tecnologia expressaram preocupação com a proposta de Cingapura, que foi chamada por estas últimas de “a mais abrangente legislação do gênero até o momento”.4
Em 3 de junho de 2019, o Twitter adquiriu a startup Fabula AI, que desenvolveu algoritmos de aprendizado de máquina para detectar notícias falsas.5
2 Foo Yun Chee. Google, Facebook, Twitter fail to live up to fake news pledge. Reuters, 28 fev. 2019. (reuters.com).
3 Tham Yuen-C. Parliament: Fake news law passed after 2 days of debate. Straits Times, 9 maio 2019. (straitstimes.com).
4 Melissa Cheok; Juliette Saly. Singapore’s fake news bill set to become law in second half of year. Bloomberg, 15 abr. 2019. (bloomberg.com).
5 Paul Sawers. Twitter acquires Fabula AI, a machine learning startup that helps spot fake news. Venture Beat, 3 jun. 2019. (venturebeat.com).
Capítulo 1 – Introdução e visão geral 7
Figura 1.6: Eleições norte-americanas.
© Africa Studio/Shutterstock
Seu trabalho será usado para desenvolver ainda mais a tecnologia de aprendizado de máquina do Twitter.
1.1.7 Predição de demanda de caixa e agendamento otimizado no DBS
Imagine ir a um caixa eletrônico e descobrir que não há dinheiro. O Development Bank of Singapore – DBS, dono de 1.100 caixas eletrônicos processa mais de 25 milhões de transações todos os meses. Um modelo foi construído para prever individualmente a demanda de caixa de máquinas (caixas eletrônicos). Uma vez que a acurácia preditiva foi verificada, a demanda prevista foi utilizada para otimizar a entrega de dinheiro por veículos blindados. Para estimar a probabilidade de uma máquina ficar sem dinheiro, foram utilizados os modelos de regressão logística e de árvore de classificação e regressão. Esses dois modelos serão explicados em detalhes neste livro.
1.1.8 Detecção de fraude fiscal na Inland Revenue Authority of Singapore (Iras)
Um sistema de detecção de fraude/lavagem de dinheiro combina regras de negócios com modelos analíticos. As regras de negócios incluem lista negra, bandeiras vermelhas e outras regras simples que são boas para detectar erros repetitivos e crimes relativamente não sofisticados. Os modelos analíticos são bons para detectar crimes
INTELIGÊNCIA ARTIFICIAL 8
Figura 1.7: Um caixa eletrônico (ATM), também conhecido como terminal de autoatendimento.
© Sara_K/Shutterstock
novos e sofisticados, mas geralmente sugerem falsos negativos excessivos se não forem ajustados corretamente. O alerta gerado pelo sistema é um sinalizador de atividade suspeita e precisa ser gerenciado e investigado para confirmação. Aqui, a análise também pode desempenhar um papel ao priorizar os casos suspeitos para investigação.
Normalmente, a regressão logística é usada como benchmark, pois traz informações estatísticas que podem ser utilizadas com intuito de derivar a probabilidade de ocorrência de uma fraude. Uma metodologia mais sofisticada é o uso de uma árvore de classificação e regressão para geração de regras de decisão. Essas regras podem então ser elevadas à bandeira vermelha após a validação de regras de negócio. Estudaremos como a regressão logística produz a probabilidade de um evento no Capítulo 7, e como a árvore de classificação e regressão gera regras de decisão no Capítulo 8.
1.1.9 Verificação de risco de não conformidade/fraude e descoberta automatizada de bandeira vermelha num departamento de empréstimos
Além de verificar transações ou pedidos de empréstimos em busca de fraude, também é possível verificar operações internas. Em vez de chamar uma auditoria interna, entrevistar funcionários ou ler toneladas de documentos, você pode aplicar uma árvore de classificação e regressão nos dados das operações.
Capítulo 1 – Introdução e visão geral 9
Figura 1.8: Relatório financeiro.
© AGorohov/Shutterstock
As regras de decisão resultantes mostrarão áreas de não conformidade com procedimentos/políticas, possíveis atividades fraudulentas e sinais de alerta.
A grande força da árvore de classificação e regressão reside em sua capacidade de fazer duas coisas. Em primeiro lugar, pode analisar todas as variáveis potenciais ao mesmo tempo, independentemente do número de variáveis ou valores ausentes. Em segundo, encontra automaticamente variáveis significativas com seus efeitos de interação e gera regras de decisão, sem entrada ou intervenção humana.
1.2 Características da adequação dos problemas para ACI
Na seção anterior, você leu sobre grandes histórias de sucesso em setores ou domínios muito diferentes. O objetivo foi mostrar o grande potencial e a ampla aplicabilidade da ACI. No entanto, nem todos os problemas podem ou devem ser resolvidos com modelos preditivos em ACI. Problemas adequados têm as seguintes características:
1. Necessidade preditiva.
2. Conhecimento imper feito.
3. Disponibilidade de dados de treinamento.
A característica mais importante do problema é que, para resolvê-lo, precisamos de respostas preditivas para esse problema ou problemas relacionados, e essas respostas são necessárias e, melhor ainda, críticas para uma solução bem-sucedida.
INTELIGÊNCIA ARTIFICIAL 10
Figura 1.9: Formulário de solicitação de empréstimo.
© Casper1774 Studio/Shutterstock
Se tudo o que você precisa é relatar o desempenho dos negócios do ano anterior, não precisa de uma resposta preditiva, como costumo lembrar em cada nova aula. Assine a folha de presença na coluna de hoje. Embora estejamos aprendendo modelos preditivos, não precisamos de apontamentos preditivos na lista de chamada.
Os modelos preditivos de análise, ciência de dados ou IA são de natureza estatística e têm como base dados disponíveis. Isso reflete nossa falta de conhecimento perfeito sobre o processo subjacente ou mecanismos de ação. Temos conhecimento perfeito de como calcular a área de um círculo a partir de seu raio (A = πr2) e, portanto, não é necessário desenvolver um modelo preditivo para prever a área de um círculo. Temos um conhecimento imperfeito de como uma pessoa desenvolve câncer, se uma transação é fraudulenta ou qual será o preço das ações amanhã e, portanto, um modelo preditivo pode ser construído para fornecer respostas estatísticas.
Como temos conhecimento imperfeito, às vezes até zero conhecimento de domínio, como começar a construir um modelo preditivo? Uma ideia é alimentar o modelo com dados históricos que contenham a variável de resultado que precisamos predizer, juntamente com outras variáveis. Talvez deixando o modelo processar dados históricos suficientes (1.000, 10.000, 1 milhão de registros etc., dependendo da complexidade), seja possível reconhecer associações e padrões entre as variáveis que nos revelam essas informações por meio dos resultados do modelo.
1.3 Análise de dados vs. ciência de dados vs. inteligência ar tificial
Muitos termos intimamente relacionados apareceram em notícias, em publicações e em requisitos de habilidades para empregos. Existem várias interpretações, dependendo do seu campo de estudo. Essas surgem das raízes comuns que predominantemente contribuem mais para o seu desenvolvimento e evolução – estatística e ciência da computação.
O Institute for Operations Research and Management Sciences (Informs) define análise de dados como “o processo científico de transformação de dados em insights para a tomada de melhores decisões”. A palavra-chave é decisões, e todo projeto de análise de dados começa com o(s) problema(s) de negócio a ser(em) resolvido(s) ou oportunidade(s) a ser(em) aproveitada(s). O negócio vem primeiro. Técnicas (análises ou qualquer outro nome) são apenas ferramentas.
O campo da estatística trata os dados como uma amostra de uma população, mas existem subcampos na estatística matemática que se preocupam principalmente com distribuições matemáticas e não com dados. A ciência de dados se concentra nos dados e encontra maneiras de analisá-los e apresentar dados para chegar a conclusões estatisticamente válidas.
A inteligência artificial (IA) prescreve o uso de algoritmos para dotar as máquinas de inteligência semelhante à humana e permitir interações humanas, mas com desempenho de computação sobre-humano. O aprendizado de máquina é o ramo da IA que se concentra em um traço diferente de inteligência, não apenas simples e geralmente semelhante ao humano. Buscam-se máquinas que possam aprender
Capítulo 1 – Introdução e visão geral 11
e melhorar com a experiência, e os dados representam a experiência. Os diferentes campos têm filosofias e aspirações diversas, e o terreno comum são os dados. Mesmo assim, os campos distintos os visualizam de maneiras diferentes. Na estatística, os dados são vistos como uma amostra de uma população. Na IA, são visualizados como um repositório de interações humanas que podem ser imitadas. No aprendizado de máquina, os dados são vistos como experiência para aprender. Opiniões diferentes são positivas. Conceitos e modelos relevantes surgiram do “solo fértil” de ideias e pontos de vista.
Ciência de dados
Negócio IA
Estatística
Ciências da computação
Aprendizado de máquina
Análise de dados
Figura 1.10: Intersecção entre as áreas de negócios, análise de dados e ciência de dados.
Soluções preditivas do mundo real bem-sucedidas e sustentáveis para desafios e oportunidades de negócios são uma combinação habilidosa de análise de dados, ciência de dados (incluindo visualização), aprendizado de máquina e IA isenta de aprendizado de máquina em várias proporções.
1.4 Análise vs. análise de dados
Muitos iniciantes confundem análise com análise de dados. Geralmente, uma análise preocupa-se apenas em analisar dados com a finalidade de relatar desempenho ou eventos históricos. Por sua vez, a análise de dados preocupa-se com dados históricos tendo como propósito a aplicação preditiva. A análise olha para a história enquanto a análise de dados olha para o futuro.
Se você estiver relatando indicadores de desempenho ou metas alcançadas, todas as informações necessárias e suficientes estão nos dados históricos e podem ser relatadas com certeza. Não há necessidade de previsão.
INTELIGÊNCIA ARTIFICIAL 12
Capítulo 1 – Introdução e visão geral 13
1.5 Análise de dados, ciência de dados e a cur va de desenvolvimento de capacidade em IA
Para ajudar as empresas a entender o desenvolvimento da capacidade da ACI é bom mostrar como seria a trajetória de crescimento e as expectativas. A Figura 11 é minha versão do caminho de crescimento da capacidade de inteligência para organizações:
Inteligência artifical integrada
Vantagem competitiva
Predizer & prevenir Sentir & responder
Cultura de ciência de dados
Estratégia baseada em análise de dados
Operações prescritas de análise de dados
Dados secundários vinculados
Dados primários direcionados
Painel de auto-atendimento Relatórios ad hoc
Inteligência coletiva
Figura 1.11: Curva de desenvolvimento da capacidade de inteligência coletiva.
O lado esquerdo da figura diz respeito à capacidade de perceber e responder aos desafios e oportunidades observados:
1.Dados secundários vinculados
Quando ligamos com sucesso diferentes fontes e tipos de dados secundários, uma imagem mais abrangente emerge da natureza da “verdade”. Fatos supostos podem ser verificados, e reivindicações e suposições são capazes de ser corroboradas.
2.Dados primários direcionados
Quando somos capazes de definir e coletar dados precisos pertinentes às nossas necessidades, obtemos conhecimento privativo. Vincule isso a dados secundários relevantes e você obterá perspectivas e insights, se apenas eles puderem surgir entre oceanos de dados.
3.Relatórios ad hoc
A capacidade de gerar relatórios personalizados padrão e ad hoc pode revelar informações importantes para a tomada de decisão. A capacidade de gerar relatórios personalizados padrão e ad hoc poderia revelar informações importantes para a tomada de decisão, se ao menos pudesse ser gerado sob demanda, de forma mais rápida e com capacidade interativa de conduzir hipóteses flexíveis e exploração ágil.
4.Painel de autoatendimento
As descobertas de dados e análises são disponibilizadas por meio de ferramentas de dashboards para uma consulta rápida e interativa. Isso é bom para retratar o passado, mas para planejar o futuro, visualização e relatórios não são suficientes. O cérebro humano só pode considerar um número muito limitado de variáveis ao mesmo tempo.
Precisamos de modelos e máquinas de computação para nos ajudar a processar o impacto de múltiplas variáveis potenciais para planejar o futuro com mais eficiência.
O lado direito da figura descreve a capacidade de predizer e prevenir desafios e oportunidades futuras:
5.Operações prescritas de análise de dados
Os modelos análise de dados são desenvolvidos, testados e aplicados para funcionar em operações e processos selecionados. Operações são otimizadas com base nos resultados analíticos e se tornam muito mais eficientes com custos e riscos menores. O valor da análise de dados é comprovado sem sombra de dúvida.
As operações do DBS contam com uma aplicação de sucesso comprovado que combina a demanda preditiva de caixas eletrônicos com agendamento preditivo para otimizar as operações que reduziram o risco e significativamente economizaram custos.
6.Estratégia baseada em análise de dados
As formações de novas estratégias agora são baseadas principalmente em análise de dados. Fundadores e CEOs confiam e dependem da estratégia baseada em análise de dados para criar impacto e entregar resultados. Novos modelos de negócios são criados de modo que rejuvenesçam a organização e/ou interrompam o status quo. Eles se tornam líderes visionários em seus segmentos de indústria. A startup Netflix de 1998 confiava e dependia de análises para entender seus clientes melhor e mais rápido que seus concorrentes de varejo e até mesmo os próprios clientes. A receita cresceu de US$ 1 milhão a US$ 12 bilhões em 2017.
7.Cultura da ciência de dados
O pensamento e as abordagens de análise de dados e ciência de dados se difundiram em todas as organizações. Novas ideias e modelos são discutidos, debatidos, testados e melhorados rotineiramente. A atmosfera não é mais de ceticismo (isso pode funcionar?) e sim de um excitante olhar para o futuro (como tornar esse trabalho ainda melhor?). A campanha eleitoral de Barack Obama para a presidência
INTELIGÊNCIA ARTIFICIAL 14
começou com a premissa de que análise de dados é a chave para entender e prever as ações dos eleitores, e todos da equipe foram mobilizados para coletar dados, melhorar sua qualidade, desenvolver, testar e aprimorar modelos preditivos e usar os insights para conduzir o foco e as estratégias da campanha. Ninguém questiona o valor da análise de dados, mas presume que funcionará.
8.Inteligência artificial integrada
Que eu saiba, nenhuma empresa alcançou esse patamar. A IA não é nova e algumas empresas avançadas têm recursos de IA, mas geralmente são aplicações isoladas e não totalmente integradas e em operações autogerenciadas, processos ou tomada de decisão estratégica. No auge, a IA assumirá todo o processo e será capaz de autoaprender, autoajustar, autocorrigir e auto-otimizar do começo ao fim, sem intervenção humana. Os humanos podem fornecer feedback à IA, mas não precisam mais observar e intervir de maneira manual. Eventualmente, o feedback humano será desnecessário. As empresas tecnologicamente mais avançadas estão explorando e aprendendo como conseguir isso. Desenvolver o modelo preditivo mais avançado é necessário, mas ainda insuficiente. Atualmente, tais modelos ainda requerem especialistas humanos para verificá-los e melhorá-los. A partir de agora, a aplicação mais próxima desse auge é o carro autônomo conduzido em qualquer estrada, sem qualquer intervenção humana. Essa tecnologia ainda está em desenvolvimento e existe uma corrida intensa das empresas de veículos autônomos. Há casos de sucesso limitado em áreas controladas, como parques industriais, automação e intervenção humana na operação de caminhões autônomos de longa distância etc. Em algumas estradas, foram relatadas mortes em algumas tentativas.
1.6 Planejamento vs. desenvolvimento vs. implantação
Existem três fases distintas no desenvolvimento e uso de modelos preditivos ACI que raramente são consideradas em livros acadêmicos: planejamento, desenvolvimento e implantação. Na fase de planejamento, a principal atividade é verificar o nível de suporte da alta administração e definir o escopo e os requisitos. No livro de Davenport et al., Competing on analytics, que defende o uso de análise de dados como uma arma estratégica, o fator mais importante e consistente que faz que a estratégia ou os projetos de análise falhem é o suporte insuficiente da alta administração, especialmente do CEO.
Na fase de desenvolvimento, o foco muda para o desenvolvimento e teste do modelo ACI. É muito mais abstrato do que projeto de TI ou desenvolvimento e teste de aplicativos de TI. Infelizmente, um meio muito difundido de testar um modelo preditivo está errado e levou muitos indivíduos e empresas a declararem que a ACI é inútil, ou simplesmente um exagero. Isso é tão importante na prática que dedicarei o próximo capítulo a uma explicação cuidadosa dos conceitos fundamentais que todos os praticantes devem conhecer, bem como os equívocos comuns, crenças e boas práticas a seguir.
Capítulo 1 – Introdução e visão geral 15
Implantação
Compreensão do negócio
Compreensão dos dados
Preparação dos dados
Modelagem
Dados
Avaliação do modelo
1.12:
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining. Acesso em: 7 mar. 2024.
Na fase de implantação, não estamos falando de desenvolvimento para um processo no ambiente de produção, como em projetos de TI, mas do uso real de modelos preditivos para um negócio. Aqui, o foco é o monitoramento do modelo preditivo e verificação do desempenho real versus o esperado. Se o modelo não atende consistentemente às expectativas, então uma ação corretiva é necessária. Isso pode ser um novo treinamento do modelo com dados atualizados ou uma mudança para um modelo preditivo diferente, dependendo da gravidade da fraqueza do modelo. Mesmo omelhor modelo eventualmente precisará ser treinado novamente com dados mais recentes. A questão é quando, não se.
Uma visão geral de alto nível do processo de análise de dados/ciência de dados, desde o planejamento até a implantação, pode ser resumida usando o diagrama (Cross Industry Standard Process for Data Mining – CRISP-DM/processo padrão intersetorial para mineração de dados).
INTELIGÊNCIA ARTIFICIAL 16
Figura
Diagrama de processo CRISP-DM.
Capítulo 1 – Introdução e visão geral 17
As setas internas e externas enfatizam a interação frequente e o feedback que informam as revisões subsequentes (Mais detalhes sobre as etapas estão disponíveis na Wikipédia.). Na experiência do autor, a primeira etapa, “Compreensão do negócio”, é a mais importante. Infelizmente, ela muitas vezes não é bem-feita. A maioria dos analistas e pesquisadores são muito apressados para mergulhar na análise de dados.
1
.7 Os quatro grandes modelos preditivos padrão
Existem muitos modelos preditivos. Neste livro, vamos nos concentrar apenas nos seguintes grandes modelos preditivos padrão:
• Regressão linear
• Regressão logística.
• Árvore de classificação e regressão.
• Rede neural.
Regressão linear e logística são modelos básicos importantes que precisam ser bem compreendidos por todos os iniciantes. Muitos modelos avançados dependem de conceitos estabelecidos em regressão linear e logística. Além disso, eles servem como modelos de referência para serem comparados com modelos mais recentes. A árvore de classificação e regressão é o modelo mais importante neste livro, pois mostra muitos conceitos básicos e avançados de forma nativa e integrada. Além disso, é omais simples de usar, mostrar e explicar.
Rede Neural é o ponto de partida para o ramo de aprendizado de máquina em IA. Nos últimos anos, o Google popularizou o aprendizado profundo e mostrou sua capacidade preditiva. Aprendizado profundo é uma tecnologia de redes neurais sofisticadas com muitas camadas e nós ocultos, incluindo uma forma de mitigar problema de gradiente de descendente que atormentava os primeiros usuários da rede neural.