vamos falar dessa parada aí aí deixa eu explicar uma coisa para vocês essa pergunta aí sobre medalhão e tal né cara aí eu vou vou desenhar um pouco assim da arquitetura que eu que eu curto trabalhar que vocês veem aqui nas lives né todos os projetos que a gente faz a gente faz meio que olhando para esse tipo de arquitetura para esse tipo de organização de dados Então vamos em frente dessa forma Tá bom então o que que acontece a gente tem aqui o nosso Database né então você pode ter vários databases aqui Database 1
Database 2 tal tá aqui seus databases E aí eu vou até colocar aqui ó db1 e aí tipo uma coisa que eu gosto de recomendar pra galera é usar um integrador de dados tipo DMS por exemplo vocês conhecem o DMS pode ser DMS pode ser data Factory Então vou colocar aqui DMS Então beleza e aí esse cara ele vai fazer o quê ele vai jogar tudo isso para uma camada para uma camada de dados que a gente pode chamar de Raw tá ligado colocar aqui Raw que é um Bucket mas o o DMS não sai
caro Ah cara depende mano mais ou menos DMS a WS DMS exatamente depende Cara depende do tamanho da máquina que você vai precisar velho não é para sair muito caro não então o que que acontece isso daqui tudo isso aqui é near Real Time né então a gente pode colocar aqui tudo isso daqui acontece próximo ao tempo real conforme só que qual que é a premissa né Você vai precisar do CDC ligado Então você precisa de um CDC On aqui tá então CDC CDC on tá cdc1 para todos os seus databases aqui aqui e aqui
Belê nenhuma novidade né Tá Safe então a gente pode alinhar no centro o ADF é uma bica mas o DMS até vai Pois é então tipo você tem isso então os seus banco de dados dos seus microsserviços aí que você tem acesso tá aqui o CDC fica ligado DMS fica ouvindo o CDC e joga na camada Raw Beleza então tudo isso daqui isso daqui está fora isso aqui está fora seu pipel de dados aqui fora do seu pipeline de dados certo você não precisa pensar numa de isso porque isso aqui acontece o tempo todo uma
coisa constante certo isso aqui é constante const colocar umob d d sim mas a gente vai pensar que é constante então o dado tá chegando e tá rodando que acontece a gente vai querer dar um passo aqui para colocar ISO numa camada agora camada que nós vamos pôr aqui uma camada bronze e aí esse cara aqui ele vai tá como ã mano tô tô sentindo falta da minha paleta aqui mano cadê os bagulho aqui então aqui ó nós vamos colocar a fonte um pouco maiorzinha Então olha só agora sim começa o nosso pipeline que é
alguém que vai ter que ir lá na camada Raw buscar os dados tá ligado E aí Isso aqui já é em delta delta on up search Delta on up search então o dado vai chegando a gente pode até colocar duas Flechas aqui se a gente quiser o dado vai chegando e conforme o dado vai chegando a gente vai colocando uma carga full load e uma carga incremental tá ligado Então eu faço uma carga full load de todos os dados que tem aqui e depois via streaming eu vou pegando só dado que vai chegando tá bom
isso aqui dá para você deixar também ligado em tempo real se você quiser é Safe aí que que acontece tem agora bronze Ah desculpa a Silver E aí a galera deve estar se perguntando Qual que é a diferença t para você da Silver para bronze se eu fizer se eu fizer olhando para esse esima aqui para esse lance que a gente tá fazendo se a gente pegar a camada bronze e fizer se a gente olhar aqui fizer um select fizer um select aqui fizer um select asterisco Aqui tá o select asterisco aqui esse select asterisco
ele tem que ser igual igual igual igual igual a qual select asterisco a desse cara aqui tá ligado Então o o o melhor mesmo mais correto é que eu tô T simplificando demais as coisas mas seria uma parada tipo assim ó aqui seria bronze db1 seria bronze db1 aí eu tenho bronze db2 Então eu tenho uma um esquema para cada um dos meus bancos dos meus databases tá claro isso para todo mundo tá claro para todo mundo acho que sim né se eu fizer um select asterisco aqui aqui ou aqui ele tem que bater na
vírgula com cada um desses caras porque é exatamente a réplica do banco é a réplica do próprio banco só que agora no dat Lake beleza Esquece esquece o airflow a gente só tá pensando no conceito aqui o airflow é só um orquestrador se você quiser fazer com Chrome Tab você consegue tá ligado o airflow é só um orquestrador então o que que acontece aqui eu vou ter agora também a Silver que que é silver db1 aí muita gente vai me perguntar isso né É comum a galera me perguntar que que é silver db1 a Silver
db2 né O que que são essas [ __ ] isso aqui galera é é onde a gente começa a colocar um pouco de camada de governança de dados Beleza então aqui que que nós vamos fazer é a gente vai padronizar nome de coluna então a não sei se se todo mundo já se deparou com isso mas é comum você ter por exemplo nome de colun padronizado você vai ter ID Player aí depois ID underline Player aí depois Player underline ID Player ID é uma zona é uma zona essas nomenclaturas Silver bronze padrão elas significam algo
em relação aos dados significa a qualidade dos dados tá ou o tipo de granularidade que os dados representam tá é uma coisa que databrick meio que cunhou então dá uma procurada aí no databrick gosta isso não o qu que que você não gosta aí aqui nesse lugar a gente padroniza Toda A nomenclatura então a gente cria uma taxonomia aí você vai ter tudo padronizado ID Player ID customer Vl transaction Desk product tá tudo p AD tá ligado tá tudo padronizado é um baralhado demais ação nomenclatura de tabela Ah mas é bom velho é bom ajuda
para [ __ ] velho em no local que não pode dizer as tabelas Mac id e content condent tem os mesmos dados então aí aqui a gente padroniza então todos os campos de tabelas diferentes que representam a mesma coisa agora tem o mesmo nome entendeu então aqui você coloca ordem no seu banco de dados Não começa transformação a gente não muda o dado a gente não mexe no dado a gente não mexe no dado não mexe nada no dado beleza por quê Porque agora o que que acontece os analistas que vão consumir os dados Enquanto
isso não existir Enquanto essa parada aqui não existir os analistas vão continuar consumindo daqui quando isso começa a nascer os analistas passam a consumir daqui Beleza o time de Analytics é basicamente isso tá ligado é um dado melhor para ser consumido bem melhor para ser consumido é de certa forma um etl mais ou menos então aqui eu já tenho os dados continuam dados transacionais isso aqui é transacional isso aqui continua sendo transacional transacional porque vem do banco não é um dado analítico ainda não é um dado analítico então eu posso pegar isso daqui Colocar assim
ó transacional Belê tudo isso aqui é transacional ainda ISO aqui ainda é um dado transacional aí o que que acontece agora agora a gente vai começar a criar o que eu chamo de Silver de contexto que que é uma Silver de contexto é por exemplo por exemplo vendas é um contexto clientes é um contexto fornecedores é um outro contexto por qu por qu Por que que é um contexto porque você pode ter você pode ter o conceito de vendas que venha de diferentes sistemas vou dar exemplo tem empresa que tem um sistema para e-commerce um
sistema pra loja física um sistema para venda direta e cada um Vem de um banco diferente de um sistema diferente então quando você cria um contexto por exemplo Silver vendas aqui é o consolidado por exemplo dessas camadas aqui ó Então você sai da Silver que você já tem os dados padronizado e agora cria um contexto um contexto novo e agora sim esse contexto vai ter transformação de dado por qu porque agora agora nasce as regras de negócio tá ligado nasce as regras de negócio então eu posso ter e cada um considera um cliente uma coisa
diferente exatamente Exatamente letan exatamente E aí por isso que é importante você começar a conversar sobre isso dentro de casa então eu posso ter um Silver aqui e sei lá eh products ou ou Supply supply chain por exemplo tá ligado E aí tipo a a o olhar para isso é diferente tá ligado ou eu posso olhar para nível de produto para nível de bu tá ligado cada bu pode ter seu próprio contexto tá ligado cada bu pode ter seu próprio contexto ten uma bu aqui TM Y Silver tell me Y que com que que consome
dados de diferentes informações de diferentes Fontes Então as minhas contextos agora agora tem regras de negócio então eu saio do transacional Puro que é como a minha como a minha aplicação funciona e eu venho para um mundo aonde eu tenho regras de negócio para cada tipo de contexto bu Business unit uma empresa uma empresa ela pode se organizar com várias sub empresas tá ligado com empresas menores então por exemplo grupo Boticário dentro do grupo Boticário você vai ter Eudora quem Berenice eh o próprio Boticário eh você vai ter várias outras Vult e Vult por exemplo
Então você tem várias outras empresas ali dentro o nubank funciona assim também o nubank Tem a parte de crédito a parte de eh conta corrente Tem a parte de investimentos Tem a parte de PJ então cada uma vira meio que uma empresa pequena dentro da própria empresa tá ligado a aí por que que eu tô falando toda essa [ __ ] porque galera é perguntaram de DW pra mim na minha cabeça e por isso que eu falei que eu quero que vocês possam fiquem à vontade para me corrigir pra gente trocar essa ideia mas na
minha cabeça o DW que a gente conhece ele é isso aqui então isso aqui é o que muitas empresas chamam de data warhouse então tipo assim o que que acontece o DW ele meio que pula daqui PR cá tá ligado o DW ele pula daqui para cá então por isso que agora se fala sobre é data Lake House tá ligado ou Lake House aí depois vira datart exatamente então o que que acontece a gente vai ter agora aqui o que eu chamo de Gold o que que é gold que que é gold vendas aqui né
o gold essa caralha aqui ela só pode vir daqui é sempre um para um é sempre um para um você não vai misturar coisas aqui não faz sentido misturar coisas aqui Ox colocar aqui para trás aí você vai colocar aqui desse jeito e aí que que você vai ter aqui galera aqui você vai ter Supply aqui você vai ter tmy TM Y você vai ter aqui que a gente chama tabelas dimensão métricas então e aí você Finalmente vai plugar isso daqui na [ __ ] de um dashboard aí Isso aqui vira um dashboard aí você
tem aqui um painel esse cara aqui a gente chama de cubos tá até colocar aqui ó que da hora vai ficar assim aqui a gente chama de cubo então isso aqui é a camada Gold aqui você não tem mais dado transacional você não tem n n aqui você tem regra de negócio Tipo o que que é uma venda válida vai tá aqui só as vendas válidas as vendas inválidas não aparecem é não entra aqui e aí você tem já direto uma go de vendas que é relatório vai ter o quê uma dimensão de data por
exemplo uma métrica de quantidade uma métrica de valor uma dimensão de estado por exemplo de UEF por exemplo já entra aqui então aqui sim entram as suas métricas os seus cálculos métricas eu vou até colocar aqui ó Barra cálculos e aí depois que vem que entra uma ferramenta de bi aí aqui é o famoso bi sacou Essa é a minha visão queria ouvir o chat aí tô muito tô muito maluco tô muito maluco faz sentido isso aqui para vocês e é bizarro como um monte de empresa não não entende isso mano go ainda é Delta
tudo Delta tudo Delta tudo tudo tudo tud tudo Delta tudo aqui é Delta mano o Bia chega só para tomar um cafezinho e organizar os gráficos exatamente velho onde entra o ML nessa estrutura normalmente entra aqui Opa normalmente entra eh tanto no transacional quanto nas regras de negócio nos dois machine learning DS entra aqui nesses dois esse diagrama onde se encaixa se encaixa o staging então eu não trabalho com staging o que eu chamo é exatamente isso aqui ó Raw bronze Silver e Gold podemos serer todas essas dimensões dentro do bigquery pode é que isso
daqui é um padrão databricks tá ligado preciso me adaptar esse formato atualmente estou no meio do P seleiro buscando só o resultado final mas tem muita coisa mas tem mas não tem muita rabilidade faça um trabalho transacional diretamente para o Dimensional é então eu acho que é legal ter essa camada intermediária aqui ó tem muita gente tem muito lugar tem muito lugar que pula do transacional aqui às vezes do próprio bronze nem tem Silver aqui e pula direto pra Gold maluco isso velho no Médio prazo vira tá ligado quando falam Pântano de dados já ouviram
essa expressão Pântano de dados um dos motivos é quando você faz isso mano quando você sai daqui do transacional e quer pular diretamente para cá mano aí velho é loucura aí é loucura aí velho você aí o que que vai acontecer vão querer destruir tudo isso aqui e fazer do zero tá ligado Por que que existem duas camadas Silver porque uma é a transacional que é do jeito que o dado vem ao mundo você só padronizou as colunas colocou taxonomia e a outra é a de contexto que continua sendo transacional só que você tem regra
de negócio aplicada então por exemplo aqui você vai ter uma tabela de vendas mas não significa que todas essas vendas são vendas válidas são vendas que deveriam ser computadas então você mantém esse dado do jeito que ele é que representa o sistema é sistemicamente e aqui você tem a tabela de vendas agora consolidada com regras de negócio entendeu então você tem as duas Você tem o dado que representa o seu sistema e o dado que representa as suas regras de negócio beleza por isso que a gente chama de contexto por quê Porque para cada texto
Você pode ter regras de negócio diferentes aí você isola isso a diferença de bronze são algumas transformações taxonomia transformação regra de negócio qualidade podia rolar um projetinho pra gente fazer essas etapas tem aqui tudo na Twitch mano exclamação cursos essa parada virou um manguezal é [ __ ] velho um é select outro é select com R ou e join né Você pode ter join aqui também porque você tá falando de um contexto esse contexto pode pegar dados transacionais de diferentes databases de diferentes sistemas pode misturar aí por isso que tem várias Flechas aqui gostaram disso
então tipo assim o que a galera às vezes chama de dator house são esses dois caras aqui ó são esses dois caras aqui aí o seu pipeline começa onde seu pipeline ele começa aqui ó tudo isso aqui é seu pipeline esse conteúdo é ouro malandro vou te falar não é por nada não mas só para essa informação que eu acabei de dar velho tem gente aí cobrando uma nota tem gente cobrando uma nota só para só para fazer esse desenho aqui que eu levei 20 minutos tomando uma cerveja com vocês no Eco tá ligado mas
mano tipo é isso