Master Data Management - Basic Concepts
- mcb921
- 5 de out. de 2022
- 4 min de leitura
Eu não ia falar sobre isso, mas dadas conversas recentes, me senti forçado a fazê-lo.
*Admito que escrevi esse texto em inglês e use o tradutor do Google pra acelerar o trabalho,
O que é Master Data Management (MDM)?
É uma disciplina de governança de dados para aumentar a qualidade dos dados cadastrais, usando regras de qualidade de dados, fluxos de processos de negócios e STEWARDSHIP, resultando em dados mais organizados e controlados.
Claro? Não?
OK, então você já foi a um site onde você precisa se registrar, e depois entrou numa loja (da mesma empresa do site) e teve que se registrar novamente? Isso porque lhes falta um bom MDM.
Você já tentou fazer um relatório, mas tem 20 versões do mesmo item? Provavelmente está faltando um MDM.
Você extraiu uma lista com "tipo de cliente" e encontrou itens idênticos, mas misturados em letras minúsculas e maiúsculas? Pronto, MDM!
MDM Reference Architecture
Existem vários padrões de arquitetura, mas os principais são esses, o resto é variação.
1 - Consolidation
Este é geralmente feito para fins analíticos, nesse tipo de arquitetura os dados são criados/modificados nos sistemas fontes, o MDM recebe esses dados (geralmente em modo pull), aplica a lógica de negócios e gera um golden record, mas os dados não são enviados de volta para as fontes, eles vão apenas para os sistemas de tomada de decisão (BI).

Benefícios
Visão 360º
Dados harmonizados
Primeiro passo para uma implementação robusta
Implementação mais rápida
Desvantagem
Valor limitado
2 - Coexistence / Hybrid
Aqui temos uma evolução do modelo de consolidação, onde os dados são enviados de volta para as fontes, então sempre que houver uma alteração em alguma fonte ela é propagada para todas as outras, mas a criação/modificação do registro ainda acontece nas fontes, não no MDM.

Benefícios
Dados federados
Fonte única da verdade
Qualidade de dados melhorada
Desvantagem
Responsabilidade compartilhada
Implementação mais longa
Fluxos de trabalho complexos
Vários pontos de contato
3 - Centralized
Nesse caso, o MDM detém a função de originador, portanto, todos os dados são criados primeiro no MDM e, em seguida, propagados para downstream

Benefits
Responsabilidade centralizada (duh!)
Fluxos de trabalho simples
Menos pontos de contato
Desvantagens
Criticidade do sistema
Gestão de mudança
Implementação mais longa
Sobrecarga na operação
Workflows
Às vezes esquecidos, os fluxos de trabalho são parte crítica da estratégia de MDM, é isso que rege o ciclo de vida dos dados, determina quais atributos devem ser preenchidos em uma determinada etapa (ou seja, criação), quem deve revisar e aprovar e qual é a próxima etapa.
As etapas podem ser manuais ou automatizadas, dependendo da necessidade, e os fluxos de trabalho podem ter caminhos paralelos.
Por exemplo, quando um produto é criado, a equipe comercial e a equipe financeira devem preencher os respectivos atributos antes que o produto seja disponibilizado para os consumidores do MDM.
Matching Rules
As regras são o coração de qualquer sistema MDM, são elas que garantem registros exclusivos e qualidade de dados, regras de correspondência especificamente são como o MDM sabe que os registros de entrada fazem parte da mesma entidade, e essa é a primeira coisa que acontece dentro de um MDM.
A lógica é direta:
Comparar a semelhança entre os registros (novos e existentes)
Gerar uma pontuação (quanto maior, mais semelhante)
Comparar a pontuação com os limites (geralmente 3 intervalos são definidos)
Fazer algo (aceitar, rejeitar ou sugerir)
A comparação de registros pode ser feita com vários algoritmos, desde a correspondência exata simples até a correspondência difusa(fuzzy) e a correspondência de IA, é aqui que as ferramentas de MDM se diferenciam, quanto mais capazes as regras, melhores (teoricamente) os dados.
Definir os limites é a parte complicada, precisamos dar algumas orientações ao sistema sobre o que fazer, então se a pontuação, que é o nível de confiança, for inferior a 50%, poderíamos dizer que isso não corresponde, no entanto, se a pontuação for superior a 90%, é uma correspondência.
Claro que nenhuma regra é 100% correta, e falsas correspondências acontecerão, a chave é o ajuste fino para o menor número de erros.
Este é um exemplo simples de definição de regra, isso é uma abstração, a regra real vai precisar de mais parâmetros.

Vamos ver como nosso amigo John Smith se comporta com essas regras...

Transitive Match
Essa é a capacidade de combinar 2 registros não correspondentes por meio de uma abordagem iterativa, como o registro A corresponde a B, mas não corresponde a C, mas o registro B corresponde a C, então os registros A, B e C são iguais, mesmo que não correspondam diretamente entre si.
Survivalship Rules
Tudo bem, então temos todos os registros agrupados, sabemos quais são versões do mesmo e quais são grupos distintos, e agora?
Vamos definir como os atributos devem ser preenchidos para o nosso registro dourado, ou seja, devemos definir regras para cada atributo (mesmo que a regra seja a mesma para todos). Podemos especificar que temos uma fonte preferencial, para que o mesmo atributo seja preenchido em muitas fontes, ou podemos definir regras avançadas, como se o tipo de registro for X, obter a fonte B ou escolher o valor mais alto entre todas as fontes, etc.
A questão é que as regras de sobrevivência definirão qual atributo "sobrevive" de qual fonte.
Vamos supor as seguintes regras.

Continuando com meu exemplo anterior, este seria um resultado possível, o registro MDM é único e completo, adicionamos e-mail do e-commerce, escolhemos o nome mais longo e criamos uma referência cruzada aos sistemas de origem expostos para downstream.

Golden Record
Depois de tudo isso, que deve acontecer em um piscar de olhos, você tem seu golden record definido e está pronto para compartilhar dados com melhor qualidade.
Espero que isso dê pelo menos uma perspectiva de alto nível sobre como o MDM funciona, deixe-me saber!
Comments