A Ciência de Dados pode ser definida como uma área focada na exploração, análise e interpretação de dados, com o objetivo de compreendê-los e, assim, extrair conhecimento para a tomada de decisões e formulação de ações. É, também, um campo interdisciplinar que integra abordagens de diversos setores correlacionados, como a Mineração de Dados, Analytics e Estatística.
Entender e manipular dados para tomadas de decisão dentro de uma empresa nunca foi tão importante como hoje, até porque grande parte das atividades realizadas no dia a dia acabam gerando dados, mesmo que mais simples, como uma curtida em um post de uma rede social, uma compra online – ou a decisão de não realizá-la -, ou em um cadastro para o recebimento de uma newsletter. As companhias, então, passaram a enxergar nos dados informações de grande utilidade para a geração de insights, otimização de negócios, para oferecer melhores serviços e produtos e, eventualmente, realizar uma diminuição de gastos.
“Os dados são o novo petróleo”
De acordo com matéria da The Economist, uma das publicações inglesas mais tradicionais e renomadas, os dados representam para o século 21 o que o petróleo representou no século passado: um condutor de crescimento e mudança. Fluxos de dados estão criando novas infraestruturas, novos negócios, monopólios, políticas e novas economias.
A publicação encontra no que chama de “informação digital” um diferencial em relação a outros recursos: ela é extraída, refinada, valorizada e vendida em diferentes formas, o que muda as regras do mercado. De acordo com previsões da IDC, empresa que realiza estudos de mercado, o universo digital – que compreende dados digitais criados e copiados anualmente – vai alcançar um total de 180 zettabytes (180 seguido por 21 zeros).
Outras publicações, como BBC e Forbes, entregam aos dados uma força diferente, talvez adicional, em comparação com o petróleo. Este, por um lado, é um recurso com quantidades finitas, enquanto os dados são virtualmente infinitos e podem, eventualmente, ser reutilizados. Além disso, a questão logística também é favorável aos dados, que podem ser “transportados” em questão de segundos, e a custos baixos; o transporte do petróleo, por sua vez, não é tão simples assim.
Ligadas diretamente, a ciência e a análise de dados se diferenciam – de acordo com postagem no blog da Udacity – pelo seu objetivo. Enquanto a análise foca em explicar, a ciência foca em realizar previsões. Segundo um levantamento realizado pela consultoria Frost & Sullivan, o mercado de Big Data latino-americano movimentou, em 2016, US$ 2,48 bilhões. Sob a liderança do Brasil e México, a previsão é de que esse valor triplique até 2022, alcançando US$ 7,41 bilhões. Para 2018, espera-se, conforme previsão da IDC Brasil, que os gastos totais na área cheguem a US$ 3,2 bilhões, registrando um crescimento de 18% em relação ao ano passado.
Ciência de dados para tomadas de decisão e corte de gastos
A grande quantidade de investimentos na área não acontece à toa. Segundo informações coletadas pela Gartner e publicadas no portal Big Data Business, empresas que investem em Data Science estão cinco vezes mais aptas à tomar decisões de maneira mais rápida em relação à concorrência. De acordo com a McKinsey, empresas do varejo que utilizam de dados para planejamento em seus negócios possuem um aumento médio de 60% em sua margem operacional.
Veja o que Rafael Zenorini, CEO e Fundador da Refinaria de Dados, fala sobre o assunto
E não apenas isso. Investir neste campo também está ligado ao controle de gastos. Conforme análise realizada em 2013 pelo Instituto Meritalk, o governo dos Estados Unidos poderia economizar US$ 500 bilhões anualmente se implementasse um sistema consistente de Big Data. A execução destes também ajudaria a economia americana em setores específicos, como o de Saúde.
Pode-se perceber, portanto, que os dados não cresceram apenas em quantidade, mas também têm crescido em relação à qualidade, justificando o valor que lhes é atribuído atualmente. Se antigamente empresas como Facebook e Google utilizavam os dados principalmente para uma publicidade mais estratégica e voltada aos interesses dos usuários, hoje em dia os transformam em informação a ser utilizada em programas de IA e para gerar, por exemplo, serviços cognitivos, a partir dos quais surgiriam novas formas de receita para essas empresas.
Um exemplo de utilização de IA comum no dia a dia é a estrutura da linha do tempo do Facebook, adaptada para cada usuário de acordo com seus interesses e interações e a partir de algoritmos estabelecidos pela rede social. No início de 2018, foi anunciado por Mark Zuckerberg, CEO do Facebook, que o algoritmo daria mais prioridade a postagens de amigos e familiares próximos, em detrimento de posts criados por páginas e empresas. De acordo com ele, tal alteração se mostrou necessária após a reclamação de diversos usuários, que apontaram um excesso de publicações de marcas e empresas no feed de notícias.
Os desafios inerentes à IA e ao machine learning
Segundo Marvio Portela, vice-presidente da SAS América Latina – empresa de business anaylitcs e business intelligence –, em coluna publicada no portal CIO, o empoderamento de dados e a automação de processos são duas das principais tendências para a área de ciência de dados em 2018. Estes, então, passam a ser utilizados de forma mais estratégica, possibilitando, como citado no caso do Facebook, a introdução de softwares de inteligência artificial e machine learning.
No entanto, apesar do senso comum de que as máquinas vão tomar os empregos das pessoas e, por isso, serem vistas como ameaça, Marvio enxerga nos profissionais de Ciência de Dados uma função fundamental. Para Felipe Giovanini, Head de Data & Analytics no iFood, a inteligência artificial não possui a capacidade analítica de um ser humano. “Isso é um trabalho que requer muito domínio do negócio e eu ainda não vejo no mercado um serviço automatizado para extração de um insight do dado, por exemplo. Nós precisamos exatamente dos cientistas de dados, que com muito conhecimento do negócio, vão construir esses modelos de inteligência artificial e machine learning”, afirma.
Além disso, construir sistemas automatizados e criar softwares ou máquinas pensando no seu aprendizado está longe de ser algo simples. Conforme uma matéria publicada no Jornal da USP, ensinar máquinas a aprender (o famoso termo “machine learning”) ainda é um desafio na ciência de dados.
Segundo a publicação, para que isso seja feito, são necessárias, basicamente, três etapas:
- Pré-processamento de dados – momento em que os dados são limpados e selecionados, de acordo com o que é relevante para a análise);
- Modelagem – escolha do método, normalmente um algoritmo, a ser utilizado para a análise dos dados, que possibilita a extração de padrões e características) e
- Pós-processamento – avaliação do modelo utilizado e dos resultados obtidos).
Assim, percebe-se que o trabalho não é fácil e, como observado por Giovanini, as máquinas (ainda) não possuem o poder analítico humano.
A importância do cientista de dados
Com o crescimento da procura por profissionais que saibam lidar e analisar com quantidades volumosas de dados, o cientista de dados se tornou um dos profissionais mais interessantes para as empresas. Durante o Fórum Econômico Mundial de 2018, realizado anualmente em Davos, na Suíça, a profissão foi considerada como uma das mais relevantes para o mercado até 2020.
No iFood, por exemplo, existe a pretensão de que o número de integrantes da equipe de dados dobre em um curto-prazo, visto a importância desses profissionais. A área de Data & Analytics da startup, criada há 2 anos e com 3 funcionários, possui atualmente 30 profissionais.
Essa mudança vale para muitas empresas, quando elas percebem o quanto um data analyst ou um data scientist consegue otimizar serviços. O trabalho de muitos profissionais pode ser mais inteligente, a partir de uma compreensão mais bem precisa sobre um dado. Um exemplo disso é o nosso setor comercial. A inteligência artificial faz um trabalho de ‘curadoria individual’ ao elencar os restaurantes mais recomendados para cada pessoa, um trabalho que só seria possível ser feito manualmente se tivéssemos milhares de pessoas trabalhando nisso, dado os milhões de usuários que acessam o app. Seria muito ineficiente e muito caro. Com o cientista ou analista de dados, isso se torna muito eficiente, o retorno desse profissional é muito rápido”, conta Giovanini.
Segundo um estudo publicado em matéria do Valor Econômico, feito pela organização Graduate Management Admission Council, que realiza processos de admissão para escolas de negócios, 64% dos cursos americanos de big data apresentaram aumento de demanda em 2017. Ainda, conforme uma pesquisa da consultoria de educação CarringtonCrisp, presente na mesma matéria, cursos de big data só perdem em popularidade, entre os homens, para os de finanças. Em relação às mulheres, a demanda tem seguido um caminho parecido, apesar de se apresentar menos significativa: ocupa o 8º lugar, atrás de áreas como psicologia, recursos humanos, administração e contabilidade.
Ainda, de acordo com uma pesquisa feita pela CrowdFlower em 2016 com 179 cientistas de dados ao redor do mundo, 89% dos entrevistados afirmaram que são contatados ao menos uma vez por mês para novas oportunidades de emprego; 50% recebem novas propostas semanalmente e 30% afirmaram ser contatados várias vezes durante a semana. Fica claro, dessa forma, que os cientistas de dados talvez sejam, de fato, os profissionais do século e que a eles não vai faltar trabalho. Existe um amplo espaço de oportunidades para empresas que investirem no setor e, claro, para aquelas que se especializarem nele.
Aplicações baseadas em dados no Brasil
A Refinaria de Dados é uma startup brasileira criada em 2017 e que participou do programa de aceleração BrinksUp!, realizado pela Brink’s em parceria com a Liga Ventures. A startup oferece serviços relacionados a Data Science, como enriquecimento de base de dados, análise de audiência, people analytics, geração de leads qualificados e pesquisa de público-alvo, realizados a partir de coleta, processamento e análise de dados de informações digitais.
Para Rafael Zenorini, CEO e fundador da startup, apostar na ciência de dados pode resultar, para as empresas, em uma visão mais abrangente do próprio negócio.
A importância disso é que as empresas passam a entender que os dados têm muito valor e podem gerar insights valiosos para os negócios. A partir disso, torna-se possível uma visão mais holística do tratamento e da governança na gestão dos dados, para que, se possa fazer ciência de dados. Não adianta realizar uma modelagem se não existe uma clareza sobre a origem desses dados ou o que eles representam. Toda e qualquer empresa, com essa história de transformação digital e com o grande volume de dados, precisa entender que a ideia da ciência de dados é extrair valor e inteligência de onde aparentemente há algo estático” comenta Zenorini.
De acordo com Leonardo Dias – em publicação em coluna do portal CIO –, cofundador da Semantix, maior empresa de big data no Brasil, ainda é necessário, dentro do mercado brasileiro, que as empresas amadureçam em relação às aplicações de data-driven. As tomadas de decisão, por exemplo, carecem de um melhor conhecimento a respeito dos dados coletados por uma empresa. Segundo ele, a cultura de data-driven é uma ideologia, na qual há um resgate da importância de informações numéricas. Estas, por sua vez, se utilizadas de maneira adequada, permitem o descobrimento de correlações e predições do futuro.
Um exemplo de corporação que dá grande atenção à interpretação e análise de dados é a Edenred, líder mundial em soluções transacionais entre empregados, empresas e comerciantes credenciados e que integra marcas como Ticket, Ticket Log, Repom e Accentiv. Danilo de Lira Santos, Gerente de Inovação em TI na Edenred, afirma que a empresa tem se adaptado às novas tecnologias existentes no mercado e que estas têm auxiliado na otimização dos negócios.
“Inovar em um ambiente de constante vigilância é otimizar recursos e criar os espaços para testar novas tecnologias. Nossa base de dados é o nosso maior ativo. Temos um grande tesouro em nossas mãos e estamos tratando essa frente com a importância que julgamos necessária. Para isso, acabamos de criar uma Diretoria Global de Data Science, com um diretor que vai explorar todas as oportunidades de capitalizar e explorar os dados, de maneira global. O nosso negócio realiza diversos estudos baseados nesses dados coletados diariamente”, conta Danilo. Além disso, atualmente a Edenred possui uma área de performance que monitora essas informações, atuando rapidamente nas estratégias de negócio para manter o negócio focado no cliente.
Veja o que Danilo Lira, Gerente de Inovação em TI na Edenred, fala sobre o assunto
Uma iniciativa que busca conectar marcas e consumidores a partir de interpretação de dados e pesquisas é a startup brasileira MindMiners, de São Paulo. A startup realiza pesquisas de mercado digital, de forma a gerar insights para diferentes perfis de empresa, que auxiliam na tomada de decisões estratégicas. A MindMiners oferece soluções em diferentes áreas de atuação, sendo elas Comunicação e Mídia, Shopper e ponto de venda, Comportamento e hábitos de consumo, Inovação e desenvolvimento de produto e Branding e equity de marca. A startup possui, entre seus clientes, grandes empresas como P&G, Unilever, McDonald’s e Samsung.
No entanto, apesar da clara importância atribuída à área de Data Science e todos os benefícios que ela pode trazer para os negócios de uma empresa, existem questões ligadas à ética inerente à utilização de certos tipos de dados que precisam ou deveriam ser respeitadas. Em 2018, o episódio envolvendo o Facebook, que possui mais de 2,1 bilhões de usuários em sua rede social e a consultoria política Cambridge Analytica reacendeu um novo-velho debate sobre a privacidade e segurança de dados em um mundo superconectado, discutido mais detalhadamente no post Segurança de dados e privacidade de informações: como as tecnologias podem ajudar?.
A Databricks, startup americana que já levantou mais de US$ 240 milhões em investimentos, oferece uma solução de integração e estruturação de bases de dados, aplicando inteligência artificial para garantir a maior extração de valor desses fluxos informacionais.
A startup canadense ElementAI criou uma plataforma capaz de acelerar a entrada de empresas no mundo e uso de AI em seus negócios. Tendo entre seus investidores gigantes como a NVIDIA e Intel Ventures, a startup já levantou mais de US$100 milhões em investimentos.
A Refinaria de Dados é uma startup brasileira recém-investida e acelerada pela Brink’s no programa BrinksUp!. Com o objetivo de enriquecer dados com base em informações desestruturadas, a Refinaria tem aplicações para gestão de riscos, marketing, people analytics e análise de audiência.
A startup Looqbox é responsável pela estruturação de dados e informações em uma plataforma que funciona como um google dos negócios. De maneira simples, usuários podem perguntar ao Looqbox sobre informações de seu negócio e a resposta é entregue de forma estruturada.