Grandes e médias corporações vêm investindo na governança de dados para assegurar que os dados do data lake sejam destinados aos departamentos certos e acessados apenas por quem tem permissão. Segundo Jorge Surian, professor dos cursos de pós-graduação em Inteligência de Dados em Negócios e Data Analytics e Marketing da ESPM, a governança de dados surgiu da necessidade de corrigir um problema que as empresas e as áreas criaram para si mesmas quando eliminaram o administrador de dados.
As corporações trabalhavam com sistemas vindos de diversas áreas e era necessário compatibilizar as informações. “Tinha o DBA (Administrador de Banco de Dados), que estava por trás do controle técnico, e o camarada que fazia os ajustes entre os vários tipos de sistemas. Essa profissão acabou sendo extinta porque surgiram os ERPs (Sistemas de Gestão Integrados) e os bancos de dados passaram a ser integrados”.
Com a criação do data warehouse as empresas passam a ter uma base analítica para competir ou trabalhar em paralelo a uma base transacional. Assim, novamente o mesmo dado passou a estar em lugares diferentes e em momentos diferentes e a governança de dados surge como uma nova roupagem do antigo administrador de dados.
O data lake é um repositório de diversos dados extraídos de suas fontes originais que são transformados e carregados na área do usuário. “Nesse transformar e carregar, eu transformo o quê e acesso o quê? É aí que a governança de dados entra, mapeando esses dados de forma que eu possa usá-los de uma maneira coerente com as minhas necessidades e sabendo o que serve para o que. Sem a governança viraria um cemitério de dados”, explica Surian.
Na prática, os dados do data lake são entregues para as áreas de acordo com a natureza do seu trabalho e há um controle de acesso a eles. Dados de cadastro de clientes, por exemplo, precisam ser protegidos por conta da Lei Geral de Proteção de Dados. Portanto, quando uma informação pessoal é acessada a empresa tem que saber quem está fazendo isso e por que, e se há permissão para essa ação. O principal motivo da governança é saber onde está o dado, para que serve, como vai ser usado e qual é a sua linhagem, ou seja, quais processos foram usados para a transformação de um dado primário no dado que será consumido.
“Os dados do data lake serão consumidos por um cientista de dados mediante a governança de dados. O CDO (Chief Data Officer) é o responsável pela governança, inclusive legalmente”, explica Surian. Esse cientista vai usar o dado liberado pelo CDO para enriquecer os dados que serão usados por diversas áreas da empresa.
O especialista exemplifica da seguinte maneira: uma marca de máquina de lavar roupas quer comparar suas vendas com as da concorrência. Ela pode analisar seus anúncios e os da concorrência para entender o que essas empresas fizeram para aumentar as vendas e para enriquecer esses dados coletam-se outros, como do Ibope Media Monitor, por exemplo.
O cientista de dados reúne essas informações e entrega um produto de dados mais segmentado, permitindo que cada área use os dados para implementar melhorias, fazer adaptações e desenvolver novos produtos. “As pessoas vão poder tomar decisões muito mais embasadas e vão usar esse dado para fazer predições muito mais assertivas, mas tem algumas outras coisas importantes que a gente tem que citar também, como a segurança”, diz Surian.
A segurança é maior quando uma empresa adota a governança, porque os dados estão protegidos. Afinal, não é qualquer pessoa que pode acessá-los. Há uma política criada pela segurança da informação, pela administração de dados da empresa, pelo pessoal de banco de dados e pelo comitê de áreas de negócio. Vale frisar que todos os profissionais envolvidos nesses processos estão ligados ao CDO, que cria o guarda-chuva da governança de dados, o qual também envolve a TI e a engenharia de dados.
Atualmente, todas as grandes empresas trabalham com governança de dados e as médias estão entrando gradualmente. Até porque elas têm muito acesso a tecnologias mais simples na nuvem, mas em algum momento vão perceber que precisam da governança de dados para atender as demandas do mercado e da legislação. Startups tomam decisões muito rápidas, são mais ágeis que os competidores e não podem ter dados vazados para não serem copiadas. Por isso, muitas já adotaram a governança de dados.