Fala galera hoje eu vou bater um papo com vocês sobre agenerativa e seu impacto na engenharia de dados Será que tem Será que a gente pode se beneficiar enquanto Engenheiros de dados dessas tecnologias e ferramentas que estão surgindo e a resposta para abreviar para seu vídeo curto É sim a forma com que um Transformer ingere dados de forma paralela com alta capacidade de processamento chama atenção de um engenheiro de dados sim e isso é conseguido por várias técnicas eu vou explicar um pouquinho da melhor que é o embedden Ou seja você transformar palavras em vetores
numéricos cara isso é fenomenal a gente tá vendo o surgimento de bancos de dados de impedem você não guarda mais os dados de palavras você guarda vetores e esses vetores são compostos por conhecimento eles estão alinhados a um determinado objetivo e a recuperação dele é muito mais rápida é muito mais eficiente é um paradigma novo nada ainda é definitivo a gente tá fazendo vários testes a gente vem acompanhando vários testes na área mas é muito promissor até a capacidade que ele tem de armazenar gigantescos volumes de dados para conseguir extrair um resultado em um tempo
recorde eu acho isso muito legal a parte da carga que tende a ser amorosa que tende a tomar tempo e recurso de vários nós de um sistema distribuído a gente consegue abreviar por meio do impedis mais ou menos como Transformer faz que é quebrando esse esse grande conjunto de dados de texto em porções pequenas e contextualizadas de informação de vetores passando ali pela rede neural e depois recombinando isso e fazendo Decode para texto novamente como engenheiro de dados a gente pode pegar essa arquitetura e pensar por exemplo num Spark trafegando um vetor dentro de palavras
e Justamente na carga que é uma etapa muito amorosa muito pesada a gente consegue distribuir isso muito mais adequadamente isso não tem a dúvida galera a gente vai ver uma arquitetura muito mais centrada em dados cada vez mais Paralelos cada vez mais vetorizados para que eles sejam processados ali por camadas analíticas como Spark Já faz muito bem mas a gente vai ter que como engenheiro de dados pré processar muito mais esse dado para que ele se torne mais eficiente no tráfego na combinação ali de features como a gente tem por exemplo na machine learning e
não muito longe a gente vai passar a guardar os parâmetros desses dados num banco de dados orientada conhecimento aonde outros modelos serão plugados ali e não precisarão de ingerir o dado original mas sim o que foi extraído dele isso vai mudar a forma com que a gente faz dashboard isso vai mudar a forma com que a gente faz processamento de dados isso vai mudar a forma analítica de enxergar os dados Eu acho esse cenário muito legal e apesar de nada tá fechado fica muito interessante a gente acompanhando Só aos poucos pessoal então eu queria trazer
isso aqui para vocês porque é algo que tá nascendo e é e é possível que a gente tenha várias áreas da engenharia de dados focado nesse tipo de processamento de impedis de dados vetorizados E por que não de um analíticos orientado a vetores de um analítico orientada em badges a gente vai acompanhar isso tudo junto