o olá nessa aula narrada faremos uma introdução ao tema big data e antes de conhecer o conceito de big data é importante compreender historicamente a evolução dos processos computacionais que está diretamente ligado ao aumento do volume de dados gerados por pessoas e computadores e consequentemente a necessidade de armazená-los e forma otimizada vamos nos ater apenas quatro momentos da história para compreendermos o surgimento dos big data a partir da década de 1970 com o surgimento dos computadores pessoais houve um aumento substancial do volume de dados e consequentemente a necessidade do seu armazenamento e entre os anos
de 1970 e 1980 os primeiros datacenters estavam sendo construídos e banco de dados sendo desenvolvidos por volta de 2005 com o advento das redes sociais o número de usuários e os dados gerados por eles se expandiu significativamente nos anos seguintes a computação em nuvem expandiu ainda mais as possibilidades de armazenamento de dados pois a nuvem oferece uma escalabilidade elástica na qual os desenvolvedores podem simplesmente criar clusters para analisar um subconjunto de dados e o subconjunto de dados constituem um fluxo gerado por equipamentos conectados como pc e smartphones sensores como leitores rss feed e câmeras de
trânsito assim big data se refere a tríade volume variedade e velocidade volume é o imenso conjunto de dados que alcançam elevadas ordens de magnitude variedade ou seja big data refere-se a uma grande diversidade de dados que inclui dados estruturados semiestruturadas e não-estruturadas velocidade significa que os dados chegam mais rápido do que você ou sua organização já tiveram que lidar e nos últimos anos surgiram mais 2 vezes que complementam o conceito de big data valor e veracidade as organizações podem realmente capturar analisar visualizar e aplicar o big data as suas metas empresariais diferenciando-se e superando a
concorrência em termos de eficiência operacional e resultados finais o simplificadamente big data um processo de análise e interpretação de um grande volume de dados armazenados remotamente e para que essa análise e interpretação de dados seja feita corretamente partimos de alguns requisitos segundo machado em sua obra big data o futuro dos dados e aplicações o funcionamento do big data se dá a partir da integração gerenciamento e análise de dados na integração o big data reúne dados de diversas fontes e aplicativos diferentes isso requer novas estratégias e tecnologias para analisar conjuntos e big data em terabytes ou
até mesmo em escala de petabytes para o gerenciamento dos dados uma solução pode ser o armazenamento em nuvem ou também em computadores locais é por meio da análise de dados um grande volume de dados sem significado aparente pode ser tratado de forma inteligente para que possa ajudar na tomada de decisões algumas empresas utilizam o big data para realizar os desejos dos clientes antes que eles peçam um exemplo disso são as sugestões de sites de compras vindas de algoritmos que analisam o perfil de acesso dos clientes aos produtos adquiridos indicando produtos similares e para fins de
exemplificação de como se utilizar ferramentas de big data vamos apresentar o apache errado pe um framework que permite o processamento distribuído de grandes conjuntos de dados entre clusters de computadores usando o modelo simples de programação ele foi projetado para expandir-se de servidores únicos para milhares de máquinas cada uma oferecendo o computação e armazenamento local a sua implementação ocorre por meio de um cluster de nós de servidor padrão onde os dados são organizados pelo nome mestre e processados via nós a implantação do apache radup em câncer de nós de servidor padrão é realizada de acordo com
esquemático da figura apenas para relembrarmos o conceito de cluster e em português significa grupo aglomerado consiste em computadores fim o ou fortemente conectados que trabalham juntos e podem ser considerados como um sistema único os computadores em cluster tem um conjunto de nós que podem executar a mesma tarefa e podem ser controlados e programados por software simplificadamente podemos ver que os dados podem ser organizados pelo nome mestre o master node e processados via nos chamados de escravos ou slave em inglês e vamos revisar o que aprendemos nessa aula se você já é capaz de entender o
que é o big data o big data pode ser definido como um conjunto de técnicas capazes de analisar grandes quantidades de dados para a geração de resultados você já é capaz de compreender como funciona o big data o funcionamento do big data ocorre por meio dos seus requisitos integração gerenciamento e análise de dados nesta aula também exemplificamos como as empresas estão adotando essa solução pela utilização de clusters de alta performance