As habilidades do Cientista de Dados no Brasil e o improvável unicórnio Por Luciana Monteiro e Ricardo Cappra
1
2
Em um artigo de 2012 da HBR intitulado "Data Scientist: The Sexiest Job of the 21st Century" , a profissão Cientista de Dados surgia oficialmente. De lá pra cá muita coisa aconteceu, mas o crescimento exponencial tecnológico e informacional tornou essa função cada vez mais atraente, tanto para profissionais quanto para organizações. São muitas as funções e características atribuídas ao Cientista de Dados, principalmente pela miscelânea de conhecimentos envolvidos na atuação desse tipo de profissional, o que obviamente dificulta a definição do perfil ideal para quem atua nessa área. Para compreender melhor esse contexto, estudamos a fundo o perfil do cientista de dados no Brasil, suas habilidades, características, expertises, etc, e descobrimos que o perfil do cientistas de dados é uma composição bem complexa. Suas habilidades se desenvolvem de forma interdisciplinar, independentemente da sua área de atuação. Existem profissionais atuando, e buscando atuar, como cientista de dados em 5 distintas áreas de conhecimento: Negócios, Tecnologia, Matemática, Programação e Estatística; o simples cruzamento dessas disciplinas já gera um perfil muito interessante. Neste texto vamos analisar todas as áreas de conhecimento envolvidas na composição do perfil do cientista de dados brasileiro, e assim identificar características e habilidades que mais se destacam nesse tipo de profissional.
Avaliando a proficiência em competências da Ciência de Dados 3
Baseando-nos em uma pesquisa realizada nos Estados Unidos , foram selecionadas 5 (cinco) grandes áreas do conhecimento utilizadas em Ciência de Dados: Negócios (N), Tecnologia (T), Matemática (M), Programação (P) e Estatística (E). A partir daí, elaborou-se um questionário com 34 (trinta e quatro) questões, envolvendo a proficiência do profissional em 5 (cinco) competências para cada grande área acima mencionada, além de tempo de mercado e área de atuação. Entre as competências havia “Gestão de Projetos” e “Formação de preço / orçamentação” na área de Negócios, “Dados estruturados” e “Processamento de Linguagem Natural” na área de Tecnologia, em Programação as competências “Programação back-end” e “Administração de Banco de Dados”, e assim por diante. Ao respondente pediu-se que selecionasse o seu nível de proficiência, em uma escala de cinco níveis: Noções básicas (conhece os fundamentos), Aprendiz (experiência limitada), Intermediário (aplicação prática), Avançado (teoria aplicada) ou Especialista (autoridade reconhecida). O respondente poderia ainda escolher a opção “Não se aplica”, o que anula sua contagem no universo de respostas desta questão. Esta escala de classificação é baseada em uma escala de avaliação de proficiência utilizada pelo NIH (National Institutes of 4 Health) . Definições completas para cada nível de proficiência foram descritas nas instruções do questionário para os profissionais de dados.
Disponível em < https://cappra.com.br >. Disponível em < https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century >. 3 Disponível em < https://analyticsweek.com/content/data-science-skills-and-the-improbable-unicorn/ >. 4 Disponível em < https://hr.od.nih.gov/workingatnih/competencies/proficiencyscale.htm >. 1 2
O questionário possui majoritariamente questões objetivas (1 a 33) e uma questão aberta, para que o respondente acrescentasse alguma competência que eventualmente não fora prevista. Ele foi aplicado 5 exclusivamente por meio digital, utilizando a plataforma Typeform e foram convidadas mais de 400 pessoas a participarem. Este grupo contém profissionais de diversas regiões do Brasil que atuam como Cientistas de 6 Dados em algum nível, e já receberam capacitação em Ciência de Dados . Após anunciar a pesquisa e deixar o formulário disponível por 2 (dois) meses, obteve-se 98 respondentes. Todas as respostas são anônimas e os resultados foram analisados pela perspectiva global (médias gerais) e também por uma perspectiva transversal, considerando clusters de profissionais agrupados por área de atuação (Negócios, Desenvolvedor, Criativo e Pesquisador).
Análise global do perfil do Cientista de Dados Brasileiro Dos 98 respondentes, 40% atuam na área de Negócios, como gestor, líder ou empreendedor, 27% são da área de Pesquisa, atuando como pesquisador, cientista e/ou estatístico. Desenvolvedores (programador e/ou engenheiro) correspondem a 17% dos respondentes da pesquisa, e 16% são Criativos (pau-pra-toda-obra, artista, hacker), como demonstra o Gráfico 1 - Participantes da pesquisa. Gráfico 1 - Participantes da pesquisa
Analisando a proficiência de todos os pesquisados do ponto de vista das áreas de conhecimento (reunião das cinco competências de cada área), a maior média ficou com Matemática (52,30) seguida de perto pela área de Negócios (52,25). Com média de 48,59 pontos vem a Tecnologia, seguida da Estatística (48,31) pontos, e por fim, a Programação, com 46,49 pontos, conforme demonstra o Gráfico 2 - Média de proficiência por área do conhecimento (todos os perfis). Porém, podemos observar que a experiência do Cientista de Dados avança em diferentes áreas do conhecimento, portanto uma análise por competência é bem-vinda.
5
Disponível em < http://www.typeform.com/ >.
6
Disponível em < https://cappra.com.br/2016/01/21/230-cursos-sobre-ciencia-de-dados/ >.
Gráfico 2 - Média de proficiência por área do conhecimento (todos os perfis)
Considerando individualmente a pontuação de cada competência, podemos chegar às competências mais desenvolvidas dos Cientistas de Dados Brasileiros. O gráfico a seguir (Gráfico 3 - Competências do Cientista de Dados no Brasil) mostra que, em média, a mais alta proficiência é em Dados estruturados (Tecnologia), com média de 63,09 pontos, seguida pela Gestão de Projetos (Negócios) com 60 pontos. Em seguida vem a Matemática, com 58,06 pontos, e depois o Desenvolvimento de Negócios (Negócios) com 57,98 pontos. A competência em Modelos gráficos (Matemática), e Algoritmos (Matemática) vêm em seguida com 54,57 e 54,05 pontos respectivamente. Gráfico 3 - Competências do Cientista de Dados no Brasil
Já entre as competências com menor índice médio estão Processamento de Linguagem Natural (Tecnologia), com 40 pontos, Administração de Nuvem (Programação), com 41,13 pontos, Design de Produtos (Negócios), apresentando 42,26 pontos e Programação front-end (Programação) com 42,39 pontos em média. Também tiveram média mais baixa as competências de Big Data / Dados abertos e distribuídos (Tecnologia), com 43,52 pontos, e Estatística Bayesiana (Matemática) com 44,24 pontos de média.
Perfil profissional por área de atuação Comparar a pontuação dos profissionais por área de atuação mostrou-se útil porque foi possível visualizar diferentes perfis profissionais e sua experiência/formação profissional específica. Também pudemos notar que os Cientistas de Dados não se atêm apenas à sua área principal mas sempre possuem conhecimentos avançados em outras áreas de conhecimento, o que caracteriza a interdisciplinaridade. O Gráfico 4 – Médias de competências por área de atuação do Cientista de Dados apresenta, em formato de radar, as médias dos profissionais agrupados por área de atuação (Negócios, Desenvolvedor, Criativo e Pesquisador). Como é de se esperar, o profissional de Negócios apresenta em média, conhecimentos mais avançados em matérias dessa área, como Gestão de projetos (65), Desenvolvimento de negócios (65), Formação de preço / orçamentação (62) e Governança e Conformidade (Governance & Compliance) (51). Design de Produto foi a única competência abaixo de 50 pontos para esse profissional, e apresentou média 41. No entanto, é interessante observar que o profissional de negócios que atua como cientista de dados também possui conhecimentos avançados (pontuação acima da média considerando todos os perfis profissionais) em outras áreas. É o caso dos Dados estruturados (competência identificada como da área de Tecnologia), em que o profissional de negócios apresentou média 47, e Modelos gráficos (da Matemática) com pontuação 56, enquanto a média dessas competências são 47,05 e 54,57, respectivamente. Em uma contagem geral, o profissional de Negócios obteve pontuação acima da média em 6 (seis) competências e abaixo da média em 19 (dezenove).
Gráfico 4 – Médias de competências por área de atuação do Cientista de Dados
O Cientista de Dados que atua como Desenvolvedor destaca-se em diversas competências, apresentando pontuação acima da média em 14 (catorze) delas, e ficando abaixo da média em 11 (onze). As mais altas pontuações ficaram em Dados estruturados (78 pontos, enquanto a média é de 63), Administração de Banco de Dados (70 pontos, enquanto a média é de 50) e Algoritmos (72 pontos, em uma competência com média 54). Ocorre que essas três competências pertencem a diferentes áreas do conhecimento, nomeadamente a Tecnologia, Programação e Matemática, respectivamente. Além disso, o Desenvolvedor possui pontuação acima da média em pelo menos uma competência das 5 (cinco) áreas de conhecimento mencionadas nesse estudo (Negócios, Tecnologia, Programação, Matemática e Estatística), demonstrando uma proficiência harmônica superior aos Criativos e profissionais de Negócios. Já os Criativos têm apenas 1 (uma) competência acima da média, no caso a Administração de Sistemas (da área de Programação), com 49,09 pontos (média 48,53). Mesmo não estando acima da média, esse perfil tem algumas competências que ultrapassam os 50 pontos. São elas: Gestão de projetos (56,25), Desenvolvimento de negócios (52,50), Dados estruturados (53,75) e Matemática (54,29). As duas primeiras competências pertencem à área de Negócios, a terceira à Tecnologia e a última à área da Matemática. Mesmo que não tenha um desempenho acima da média geral, também nesse caso, o profissional tende a distribuir sua experiência em diferentes campos do conhecimento. O profissional com perfil Pesquisador teve o melhor desempenho entre os perfis. Além de ter pontuações acima da média em pelo menos uma competência de cada uma das cinco áreas de conhecimento da pesquisa, o Cientista de Dados Pesquisador apresentou proficiência maior que a média em 17 (dezessete)
competências. Os destaques ficaram em Aprendizagem de máquina, da área de Tecnologia, em que este perfil alcançou 66 pontos (média 45), Matemática (63 pontos, enquanto a média é 58), Estatística Bayesiana, com pontuação 59 (média é 44). As duas últimas competências pertencem à Matemática e Estatística, respectivamente.
A impossibilidade de ser especialista em múltiplas áreas
Como pudemos ver até aqui, os perfis de Pesquisador e Desenvolvedor apresentam pontuações acima da média em diversas competências. Isso não significa, no entanto, que sejam especialistas nos assuntos propostos. Pelo contrário, verificou-se que são pouquíssimos os profissionais que se consideram especialistas ou mesmo com conhecimento avançado em todas as áreas de conhecimento necessárias aos Cientistas de Dados. Para fazer esse cálculo, contamos a quantidade de vezes que os profissionais se consideraram de nível intermediário, avançado ou especialista em alguma competência das 5 (cinco) áreas de conhecimento mapeadas. Como se pode verificar no Gráfico 5 - Percentual de profissionais qualificados nas cinco áreas do estudo, é muito baixo o número de Cientistas de Dados que se considera especialista nas 5 (cinco) áreas do conhecimento, um total de 3,7% do grupo. Na verdade, 77% afirmam não possuir proficiência de especialista em nenhuma área. Em um estudo de proficiência é de se esperar que as barras de especialista e nível intermediário se invertam ao longo do gráfico, à medida que vai aumentando a quantidade de áreas de domínio do profissional, como é o caso (tendência crescente no nível intermediário e decrescente no nível especialista). Assim, no Brasil, é mais fácil encontras pessoas com nível intermediário em 4 (quatro) ou 5 (cinco) áreas do conhecimento utilizadas pela Ciência de dados (74,2% e 66,7%), do que especialistas em uma área que seja (33,3%). Gráfico 5 - Percentual de profissionais qualificados nas cinco áreas do estudo
CONSIDERAÇÕES FINAIS
Nossa conclusão inicial, baseado nesse estudo, é que um profissional com alto desenvolvimento de todas as competências exigidas em um Cientista de Dados é algo muito complexo de ser encontrado. O Gráfico 4 (radar) deixa muito clara a dificuldade de formar um profissional único com todas essas competências, são muito distintas, e o atingimento da pontuação máxima torna-se algo praticamente inatingível. A Ciência de Dados aparece muito mais como uma área de conhecimento, formada por diferentes tipos de especialistas, e não por um único profissional que reúna todas essas características. A integração de diferentes tipos de profissionais e competências, muitas vezes já disponíveis dentro das próprias empresas, podem ser uma interessante solução para resolver a composição dessa área de conhecimento, não necessariamente como uma área de atuação, e sim como uma disciplina de atuação matricial em diferentes pilares de negócio. As análises não devem estar restritas aos analistas, quanto mais a disciplina de Ciência de Dados estiver integrada com a cultura do negócio, maior será o número de decisões tomadas baseando-se em fatos e dados, reduzindo assim aquelas que são totalmente baseadas em percepção individual e feeling. O Cientista 78 de Dados não deveria ser tratado como um profissional raro, ou como um unicórnio , e sim como alguém que tem a capacidade de identificar as competências dentro de um determinado ambiente, extrair o máximo do conhecimento complementar da equipe, e a partir disso construir e distribuir poderosas análises para o negócio.
7 8
Disponível em < https://cappra.com.br/2016/03/22/como-se-tornar-um-cientista-de-dados/ >. Disponível em < https://www.theguardian.com/media-network/2015/feb/12/data-scientists-as-rare-as-unicorns >.