fbpx
LOADING

Digite para procurar

Data lake: entenda o conceito e etapas da análise de dados

Roberta De Lucca
Compartilhar

Saiba o que é um lago de dados e o papel da inteligência analítica para interpretar as informações desse repositório

Num mundo onde os dados são cada vez mais importantes e necessários para qualquer negócio, uma empresa bem-preparada trabalha com data lake (lago de dados) – repositório que armazena grande quantidade de dados de uma corporação – e inteligência analítica, já que ambas são complementares. Uma vez que o lago de dados contém inúmeras informações, é necessário que alguém use sua inteligência e capacidade analítica para transformar o material coletado no lago em algo útil para a corporação.

Antigamente se trabalhava muito com dados estruturados, que consistem em tudo o que é tabular e, portanto, apropriado para armazenamento em um banco de dados, como uma tabela de cadastro ou de venda de produtos. Mas hoje existem três categorias de dados: os estruturados (têm estruturas rígidas, como planilhas de cadastro e tabelas), os semiestruturados (não possuem estrutura bem definida porque são uma composição de dados estruturados e não estruturados e são armazenados como páginas de web e XML, entre outros) e os não estruturados (fotos, textos, áudios e vídeos).

O que é data lake?

“Grande parte da web é composta por elementos não estruturados como vídeos, fotos e áudios e as empresas precisam deles para trabalhar”, explica Flavio Azevedo, coordenador da graduação em Ciência de Dados e Negócios e da pós-graduação Inteligência de Dados em Negócios na ESPM. Esses materiais são armazenados em um data lake pelo engenheiro de dados e o gigantesco volume de informações fica à disposição dos cientistas de dados para que eles façam a extração e transformação dos dados.

O que se faz com os dados?

O lago vai sendo abastecido com dados brutos que são trabalhados por meio de técnicas de extração, transformação e carregamento para preparar o material para ser utilizado pela equipe que toma decisões na empresa. Depois que o engenheiro de dados deixou tudo preparado, esse time que cuida da parte analítica vai utilizar algumas ferramentas, entre elas a inteligência artificial, para pegar esses dados e criar um dashboard e trabalhar com modelos preditivos para fazer uma classificação, uma clusterização ou um ranking, por exemplo. Os dados já estão prontos para serem utilizados e nessa etapa entra a inteligência analítica.

Como a inteligência analítica entra em cena?

Quando os dados estão prontos é necessária uma inteligência analítica para observá-los e transformá-los em algo palpável para ser usado na empresa e essa análise parte do ser humano. “O resultado que ela vai apresentar depende de o ser humano entender que aquele modelo preditivo tem uma acurácia e realmente responde a cerca de 90% do que você precisa, espera e deseja”, explica Azevedo.

Isso é um trabalho que entra na questão estatística e ela ajuda a indicar se o modelo é bom ou não e é o ser humano que escolhe o modelo e vai a campo testá-lo. “No final das contas sempre tem o ser humano por trás”.

Porque o cientista de dados cidadão é importante

A análise pode ser feita com cruzamento de dados, mas hoje é mais interessante trabalhar com uma projeção futura e para isso é necessária a inteligência artificial e a participação do cientista dados cidadão, que vai entender qual é o melhor modelo ou o modelo apropriado para aquela empresa.

Para exemplificar, Azevedo cita o trabalho feito pelo Netflix e Spotify, cujo objetivo é entender se o algoritmo que essas empresas usam para as recomendações do que assistir ou ouvir nessas plataformas é bom ou ruim. O data lake é alimentado pelas escolhas dos consumidores, o engenheiro extrai, transforma e carrega os dados e insere no data warehouse e as ferramentas analíticas de inteligência artificial que identificam padrões ou machine learning criam um modelo preditivo.

Os resultados coletados são entregues ao cientista de dados cidadão, ou data scientist citizen, que trabalha essas informações para o público interno ou externo da empresa. Esse profissional pode ter qualquer formação com uma especialização na área, como a oferecida no curso Inteligência de Dados em Negócios da ESPM.

Tags:
Roberta De Lucca

Jornalista colaboradora do Trendings.

Deixe um comentário

Your email address will not be published. Required fields are marked *