Data Lake: tudo o que você precisa saber sobre esse conceito

Escrito por Vicente Neto | Mar 16, 2021 1:57:43 PM

Nosso objetivo aqui é mostrar para você todas as nuances desta tecnologia de armazenamento e centralização de dados que faz parte de uma inegável revolução tecnológica voltada para os dados.

Sabemos do inestimável valor que os dados possuem. A realidade das empresas atuais é que ainda é necessário aprimorar as técnicas de coleta, armazenamento, organização e interpretação de dados.

Isto porque é preciso cada vez mais qualificação profissional e tecnologia de ponta para que as diretrizes e principais decisões empresariais sejam tomadas com base nestes dados.

A questão central é que vivemos em uma realidade em que a informação bruta é muito grande e é preciso filtrá-la e interpretá-la para tomar as melhores decisões. O que fazer com uma torrente de dados?

Utilizá-los ou armazená-los? Diante de tais questionamentos surge o conceito de data lake como uma alternativa inovadora para o armazenamento de dados.

O que é data lake?

Falamos aqui de um repositório capaz de armazenar grande quantidade de dados brutos em conjunto e em seus respectivos formatos originais, ou seja, nativos.

Em outras palavras, este repositório compõe uma interessante estratégia para o gerenciamento de dados, de forma que o gestor possa ter uma visão mais refinada deles.

Quando estamos diante de uma quantidade imperiosa de dados, é preciso compreendê-los de uma forma holística para que a qualidade do armazenamento melhore.

Assim, o data lake funciona exatamente como um grande lago de dados (conforme o nome já indica em inglês) armazenados em conjunto e em sua forma nativa. Exatamente como a água que vem diretamente de diversas nascentes e deságua no mesmo lago, sem qualquer processo de filtragem ou purificação.

Desta maneira é possível observar e selecionar determinados conjuntos de dados que podem ser bons - ou que não são tão relevantes - para uma determinada companhia.

Os dados que compõem um data lake são definidos apenas depois da consulta. Se você trabalha diretamente com dados brutos, o data lake permite seu acesso a estes dados por meio de ferramentas analíticas avançadas ou por modelagem analítica.

Quando consultamos um data lake, podemos selecionar quais conjuntos de dados poderão ser selecionados para análise e, logicamente, quando houver necessidade disso, o que pode ser realizado através da aplicação de esquemas.

A este procedimento de selecionar dados para análise é dado o nome de esquema de leitura, já que os dados se encontram no estado cru de armazenamento, aguardando para serem analisados.

Como explorar os dados de um data lake?

Os usuários de data lakes podem analisar e explorar os dados do lago da forma que desejarem, sem que haja necessidade de mover esses dados para outro sistema.

Normalmente, a geração de relatórios e a coleta de insights feita de um determinado data lake se dá de forma ad hoc, isto é, não há necessidade de que os usuários extraiam relatórios analíticos de forma frequente de um outro repositório ou plataforma.

Entretanto, é interessante aplicar algum esquema de automação que possa copiar um determinado relatório, caso haja necessidade.

Outro aspecto importante do funcionamento dos data lakes é a contínua manutenção para que se possa acessar os conjuntos de dados e, consequentemente, utilizá-los.

Sem essa constante vigilância e manutenção desses dados surge o risco de que eles se tornem inúteis, pesados demais, muito caros e inacessíveis. Quando os dados se tornam apenas um lixo virtual, eles passam a ser chamados de pântanos de dados ou, conforme a expressão em inglês, data swamps.

Embora antes de ocorrer o armazenamento em um data lake os dados não possuam um esquema fixo, a governança se faz imprescindível para que se evite o data swamp.

Como é a arquitetura de um data lake?

Como é possível manter os dados armazenados de forma não estruturada, semiestruturada ou estruturada, a arquitetura de um data lake é relativamente simples.

Além disso, também é possível que a coleta seja realizada de várias fontes dentro de uma mesma organização, já que o data warehouse vai armazená-los em pastas ou arquivos. Não se preocupe, pois já iremos conversar sobre as diferenças de um data lake e um data warehouse.
Além do que já conversamos, vale complementar que é possível realizar a hospedagem de um data lake na nuvem ou on premise.

Os sistemas de armazenamento tradicionais não oferecem o tipo de escala de armazenamento de um data lake, que pode chegar na impressionante escala dos exabytes.

Isso é bastante relevante porque, quando se cria um data lake, é bem provável que não haja conhecimento do gestor sobre a quantidade de dados que serão armazenados.

Esse tipo de arquitetura é muito útil para os cientistas de dados pois torna possível que eles extraiam esses dados e os explorem na empresa, sendo possível também compartilhá-los e descobrir novos insights através de referência cruzada com dados heterogêneos de campos distintos.

Também é possível utilizar a análise de big data e machine learning como formas de analisar e avaliar os dados de um data lake.

Além disso, é importante marcar os dados com metadados antes de introduzi-los em um data lake, para garantir sua acessibilidade posterior.

Distinção entre data lake e data warehouse

Algumas pessoas tendem a crer que data lake e data warehouse são a mesma coisa e sequer compreendem a necessidade de possuir um data lake se já houver um data warehouse disponível.

Vamos desconstruir esta ideia: são duas coisas distintas e a única característica em comum é a de que ambos são repositórios de big data.

O data warehouse é mais antigo e possibilita um modelo de dados estruturado e organizado, pronto para gerar relatórios. O data warehouse torna os dados disponíveis para o uso e análise.

Um data warehouse padrão possui:

Banco de dados relacional para armazenamento e gerenciamento;
Mineração de dados com a geração de relatórios e análise estatística;
Aplicações analíticas sofisticadas;
Ferramentas que possibilitam a análise de clientes.

Os dados que constituem um data warehouse, em regra, derivam de múltiplas fontes como, por exemplo, aplicativos de transação e arquivos de log.

Também é possível a criação de um registro de histórico para analistas de negócios e cientistas de dados.

Os data warehouses foram desenvolvidos com o intuito de analisar dados. Seu processamento analítico é executado em dados que já foram preparados para análise, ou seja, já foram contextualizados e convertidos com o intuito de gerar informações.

Além disso, são capazes de trabalhar com grande quantidade de dados oriundos de diversas fontes. Um data warehouse é um instrumento oportuno para uma organização que deseja processar a análise avançada de dados de múltiplas fontes, com base em dados históricos.

Os data warehouses têm como principais características:

Variabilidade com o passar do tempo;
Consistência entre dados diferentes de fontes diversas;
Estabilidade dos dados: uma vez inseridos em um data warehouse, os dados não se modificam;
Possibilidade de analisar dados de acordo com o assunto ou área da organização.

Quanto à arquitetura, os data warehouses comuns podem ser:

- Áreas seguras e protegidas que possibilitam a exploração informal e rápida de dados;
- Simples: compartilham um design em que dados brutos, dados de resumo e metadados são armazenados no repositório central;
- Simples com área de preparo: os dados são filtrados em uma área de preparo, onde lá são limpos e processados antes de ingressarem no data warehouse;
- Hub and Spoke: assim que os dados estiverem pronto para serem utilizados, serão movidos para os data marts, que ficam entre o repositório central e os usuários finais.

Os data lakes, por sua vez, podem armazenar uma enorme quantidade de dados crus (não filtrados) que podem ser usados no futuro se houver alguma necessidade específica.

Geralmente são dados dispositivos IoT, aplicativos móveis, dados de linha de negócios, redes sociais e diversos outros que são coletados de forma bruta e armazenados no data lake.

Tanto a integridade quanto toda a estrutura, seleção e formato dos conjuntos de dados é originada no momento da análise pelo profissional que a realiza.

Caso a empresa necessite de uma forma de armazenamento de custo menor para dados não estruturados e não formatados que advêm de várias fontes - mas que precisam ser armazenados para uso posterior -, um data lake será a opção ideal.

Como estão sendo utilizados por aproximadamente 30 anos, os data warehouse, a despeito de serem extremamente úteis às organizações, não foram planejados para o volume atual de dados e a diversidade de natureza deles, sem contar que as organizações passam aproximadamente 20% de seu tempo analisando dados e 80% preparando-os, o que indica que é claramente mais complicado organizar e estruturar dados - que nem sempre são significativos para a organização.

Com o data lake, esta questão pode ser solucionada, já que não há esquema ou modelo pré-definido. Com isso, o tempo antes gasto com a preparação e estruturação de dados é economizado, pois este repositório armazena dados em sua forma bruta, o que pode ser muito vantajoso para a empresa.

Desta maneira, com a redução do custo, o volume a velocidade de reunião e armazenamento de dados, a flexibilidade do sistema de coleta bruta de dados e a facilidade de acesso a eles faz o data lake não somente ser uma excelente opção para organização como também uma ótima ferramenta para se usar em conjunto com um data warehouse.

Se tiver mais dúvidas, deixe um comentário abaixo!

Visualizar publicação completa