e Olha só hein seja muito bem-vindo muito bem-vindo a mais um vídeo do Linux chips e hoje eu vou trazer aqui um conteúdo mano sensacional demais pelo seguinte ó Hoje eu vou mostrar para você como que você pode ter um chat GPT mais do que um chat GPT no seu docker no seu kubernets na sua máquina sim eu vou te mostrar como que faz para que você possa utilizar um llm diretamente aí na sua máquina utilizando diversos tipos de modelo por isso que eu fala é melhor do que o chat GPT porque no chat GPT você só tem um modelo mesmo que é o modelo lá da openen certo eu vou trazer aqui apresentar uma porrada de ferramentas uma porrada um novo mundo para que você entenda Como utilizar Inteligência Artificial aí no seu dia a dia Lembrando que é sempre com foco pro profissional de tecnologia por que que eu quero rodar um llm dentro num kubernetes imagina só que eu tenho lá por exemplo o olama certo que é sensacional demais uma ferramenta assim ó que é tipo se eu pudesse fazer um paralelo seria o docker a importância do docker para os contêiners é a importância desse olama para a inteligência artificial porque ele traz para nós uma maneira muito mais simples de você usar no seu dia a dia modelos de Inteligência Artificial todo mundo já ouviu falar em vários deles tem diversos modelos tem o o lama 2 lá do meta tem por exemplo o gema lá do Gemini do Google que mais que tem tem o Mistral tem vários vários mesmos que você pode utilizar cada um com o seu propósito Cada um com as suas configurações características e por aí vai mas o principal aqui é o seguinte antes de mais nada pô Carlos panato mano maluco é zica da comunidade de kubernetes mundial ó descolou essa cervejinha para mim tomando aqui ó sensacional dar uma golinha aqui pera aí antes de mais nada aqui antes de mais nada vamos fazer o seguinte vamos entender o que que é esse olama certo olama aí da vida o olama nada mais é do que uma ferramenta um Framework aí uma porção de bibliotecas que faz com que seja possível e super simples você testar e utilizar modelos de de Inteligência Artificial sim que nem é o caso do gema aí que eu falei ou então do lama 2 lá do meta certo você não precisa ser nenhum Expert não para sair utilizando esses modelos né inclusive para aprimorar esses modelos não precisa por isso que eu falo que ele é tão importante como foi o docker então Ó você que sempre segue a linox ship está ligado que aqui não tem dica de pequena certo tá aí então a minha dica de hoje minha dica do ano ol lama esse cara vai revolucionar a forma como que nós vamos acessar aí os modelos de Inteligência Artificial certo com o olama você pode fazer aí a instalação dele seja na sua máquina certo ou então seja no contêiner aí você pode utilizar docker ou então no kubernet nesse primeiro vídeo eu vou mostrar para vocês como fazer a instalação do olama aí na sua máquina certo se você tiver uma GPU melhor ainda porque vai ser bem melhor a performance dele lá com o nosso querido lat trado do docker se você for utilizar no docker né eu vou falar lá no segundo vídeo tem que habilitar lá o GPU w lá senão né senão você não vai utilizar a GPU E aí fica bem deprimente bem triste mesmo a performance beleza mas ó não foca nisso agora vamos focar aqui ó no dia de hoje então nós vamos fazer o seguinte hoje nós vamos pegar vamos instalar o olama eu vou mostrar para vocês como que ele funciona nós vamos testar algumas bases aí alguns modelos certo os modelos vamos pegar Sei lá o gema vamos pegar o lama vamos vamos ver alguns aí e nós vamos ver na prática essa brincadeira funcionando beleza e por fim ainda vou te mostrar como ter a interface gráfica igualzinha igualzinha do chat GPT você não vai gastar nada somente utilizar a sua máquina beleza Vamos então lá começar essa bagaça vou lá mudar de tela tomar mais um golinho aqui porque né para ajudar hum Saúde Mais uma vez ho esse meu chapeuzinho tá muito bonitinho fala a verdade é muito bonitinho certo antes até de vir aqui no terminal eu quero trazer para vocês essa tela aqui ó que é o hama. com você entra lá hama. com você vai cair nessa tela bonitinha já e meu Deus e aqui tem ó blog discord github models e o sign in e o download certo se você vem aqui em models a gente consegue ver todos os modos os modelos né que nós temos disponível então tem o o gem aqui que é do Gemini lá do do do Google né tem o lama 2 que é do caso aí do meta daí tem o Mistral mano que é sensacional demais e por aí vai ó tem o mixt tem vários certo Dá uma olhadinha aí que você vai ver que tem diversos somente aqui tem uma porrada ainda tem o Hang Face também que é um outro assunto que eu venho falar uma outra hora que é um repositório mano sensacional demais vai só vai pegando essas palavrinhas que eu tô falando aqui ó mano porque eu vou te falar É só assunto quente eu falei para vocês que i começar a trabalhar com isso que eu queria entender como que funcionava Inteligência Artificial dentro desse mundo de sri de devops de Dev e tudo mais para trazer para vocês então tá começando agora essa série que vai ser monstra hein vai ser monstra vai ser monstra Então antes de mais nada já deixa o joinha aqui ó porque 2000 Stars aqui nesse vídeo 2000 joinhas nesse vídeo o que acontece vem a segunda parte mostrando como ter isso aqui rodando no kubernetes Beleza então é isso olha só já deixei aí 2.
000 Então vamos lá sentando o dedo no joinha muito bem presta atenção aqui então vamos voltando aqui vamos pegar e fazer o seguinte eu quero fazer o download venho aqui em download ele tem lá paraa Mac Linux e o Windows o Windows é novão né acabou de sair para Windows mas tem pra Mac e paraa Linux se você for utilizar no Mac OS com docker vai dar zica né Por Conta do GPU lá no docker não sei se já tá resolvido mas eu acho que não no Linux roda fino no do roda fino local instalado mas em todos eles aqui vai rodar fino se você fizer do jeitinho que eu tô falando aqui certo é isso aqui pra Linux é só fazer um cur nada de outro mundo tá vendo é um curinho maroto lá no Mac OS vai fazer o download lá de um pacote e aqui no Wind Down também a mesma pegada Então vamos lá pro nosso querido latr do Linux certo fazer lá através do Linux vou pegar vou clicar aqui B Olha só copiar aqui fazendo no curinho nada de outro mundo o que que eu faço deixa eu pegar aqui compartilhar o nosso querido latado terminal e eu vou iar aqui olha só é um cur menos fsl mano até nisso é parecido com o docker né quando o docker saiu por muito tempo utilizava assim essa maneira para fazer a instalação do docker é muito parecido as ideias aqui mano Eu acho assim sensacional bem o que que ele vai fazer tá fazendo a instalação aí do nosso querido lado olama vou colocar aqui a o meu password né 1 2 3 mudar aqui tudo bonitinho ele vai criar o usuário vai fazer tudo que tem para fazer né vai criar esse cara como serviço né Para que você possa fazer um start stop e tudo mais ele falou assim ó mano olha só NVIDIA GPU Stage né que eu tô com uma NVIDIA aqui eu tenho uma plaquinha da NVidia aqui na minha máquina que deixa tudo muito mais agradável quando a gente tá falando de a beleza dito isso com isso nós já temos o nosso olama Olha só se eu V aqui dá um olama pronto ó já tá lá em execução tá aqui bonitinho né se eu vem aqui ó olama menos menos help da vida desse jeito Opa help Olha só ele traz lá o que eu posso ter ó o Lhama tá vendo ó O serve que é para ele startar esse carinha o Create o show o Run o Pool e por aí vai uma coisa que é legal também de falar é o seguinte ó se eu vier aqui na interface aqui ó vou aqui ó local host dois pontos e a porta dele que é 11. 434 vou dar no enter ele já tá falando lá olha só oama is Running aqui tá vendo ó tá aqui ó deixa eu até tirar o o terminal aqui aí tá vendo ó deixa eu diminuir aqui um pouquinho ah lá ah lá Ixe tá grande aqui demais essa tela É isso aí agora sim Olana Oliana eu falo Olana ou Oliana né Vamos nos dois aí is Run tá rodando bonitinho Então é isso que nós queremos certo então ele tá lá o serviço dele fizemos a instalação Lembrando que ele já colocou como serviço já tá lá em execução fino agora vamos sair fora orora aqui vamos voltar para o nosso terminal aqui no nosso terminal nós vamos fazer o seguinte vocês viram aí os comandos é tudo tranquilo serve Create né então server vai ser para startar o lama né para que ele suba nessa porta na 11000 é na 11. 434 certo e aí nós temos outros comandinho que você olha que é bem parecido com o docker então lembra lá dos modelos então vou voltar aqui pros modelos de novo vamos voltar aqui para que nós possamos vir aqui nos modelos ó vem aqui nos modelos então vamos imaginar que eu quero usar o lama 2 aqui lá do Facebook mano então mais uma vez né os modelos nada mais são ali do que o a própria Inteligência Artificial certo são algoritmos ali que vai levar aí o propósito dessa inteligência artificial para realizar a tarefa para que ela se propõe certo então isso daí é o modelo é uma coisa que você tem que estar bem claro na sua cabeça o olama que nós estamos utilizando aqui é o Framework um conjunto de bibliotecas que vão executar esses caras e aqui no caso nós temos o da Meta certo que é o Lhama 2 o modelo aí bastante Popular que vai desde 7 bilhões a 70 bilhões de parâmetros ou seja os 70 bilhões de parâmetros tem muito mais ajustes lá dentro dessa inteligência do modelo vai ser muito mais preciso ele vai trabalhar com informações muito mais de de uma maneira muito mais completa afinal ele tem muito mais parâmetro muito mais ajustes do que o de 7 bilhões que já é uma coisa bem legal certo por default se eu não me engano o nosso querido latar do liama aqui são sete o o modelo default dele ó só que daí você tem que ficar atento o seguinte ó se for um modelo de 7 bilhões de parâmetros você tem que ter pelo menos 8 GB de Ram se for o de 13 16 se for o de 70 bilhões Você precisa ter 64 GB de Ram certo dá Bis uniss que isso é importante bem vamos fazer a instalação do nosso lama aí ele vai pegar o 7 bilhões aí vamos voltar lá para o nosso terminal e aqui no terminal Como que você faz para executar essa bagaça como que eu faço para ter um modelo aqui em execução lembra lá você vai digitar olama menos Run menos Run não só Run olama Run espaço o nome da nossa querida latado modelo do nosso querido latado modelo Então como que é o nosso que nós vamos querer aí utilizar é o lama 2 aqui no meu histório tem até o de 13 bilhões de parâmetros Mas eu não quero não vou deixar o padrão Se eu quisesse o de 70 bilhões a mesma coisa 70b né o 13b E por aí vai então vou colocar aqui o liama 2 padrão eu acho que ele vai ter lá por volta de trê a quatro Quanto é 3.
8 GB esse momento nesse momento ele tá fazendo o download desse cara né tá fazendo download de todo o nosso querido lat trado modelo e lembrando se você pega o de 70 bilhões vai ser bem maior de 70 bilhões se eu não me engano são 60 GB ou alguma coisa parecida enquanto ele faz o download mano fazend um download rapidinho ó 95 Meg aí até que tá bom né Vamos tomar um Golinha de serve veja maravilhosa hein boa hein quando nós estamos fazendo Run você percebe que tá demorando mais por quê Porque ele tá fazendo o pull né ele tá baixando é como se tivesse baixando a imagem de contêiner ele tá baixando esse modelo Então nesse momento o pool tá demorando mais né o o porque é a primeira vez o Run tá demorando mais porque é a primeira vez na segunda vez que nós executarmos o Run essa essa imagem né esse modelo já vai estar aqui na nossa máquina Então vai ser imediato certo ele fazendo lá o que precisa ser feito e maravilha olha só Parece que deu bom já acabou fez aí o download desse modelo e nós já podemos interagir com ele olha só vou começar aqui ó você ah consegue criar coisas em português do Brasil vamos dar um enter Ele falou que sim ó ele é super rápido na hora de pegar e e responder essa bagaça então ó vou falar o seguinte ó criar um exemplo de deployment para o kubernetes onde iremos usar o engex com sei lá três réplicas vou dar um enter E aí ele vai lá tá criando pra gente aí o nosso o modelo que nós queríamos aí o que nós pedimos para ele certo ele traz uma porrada de informações ainda em inglês eu tinha que falar para ele que era para ele criar em português para que ele seguisse em frentea dar um cont control c aqui seta para cima em em PTBR at passar para ele vamos ver com certeza a introdução e aí ele vai gerando isso para mim lembrando isso aqui é um modelo que eu tô utilizando de 7 bilhões de parâmetros lá que é o Lhama lá o olama 2 né do nosso querido lat trado Facebook lá do meta vou dar um control c aqui ó um cont contrl D sair fora não estou mais dentro lá do olama só que se eu vier aqui agora digitar assim olama espaço list ele vai me trazer o quê todas as imagens ou todas os modelos que eu tenho aqui na minha máquina então no caso eu tenho o lama 2 certo simples assim agora vamos pegar vamos baixar um outro lá vou pegar sair fora aquii vamos chamar aqui novamente esse carinha vou dar um um voltar aqui para que nós possamos ver um outro modelo tem o o o gema lá do Google o Mistral o Mistral a acho ele bem legal também o lava o neuro shar tem vários ó o Code lama é focado para códigos esse aquii né para ó a large language Model that can use Tex prompt to generate and discuss code então ele é um larg l mod O que é possível né utilizar para e prompt de texto né para gerar e discutir códigos Então vamos utilizar esse cara aí como que é o nome dele então para que eu possa utilizar ó o lama Run e o cod lama certo desse jeito aí simples assim Então vou tirar Fora esse cara vamos voltando aqui para o nosso carinha então ol Lhama Run Como que é o nome dele code lama Ó tem até eu utilizei o de 34 bilhões de parâmetros que é o maior então eu vou pegar aqui vou colocar somente o básico lá se se eu não me engano é de sete também deixa eu pegar ver aqui na página dele sempre ó sete 7 bilhões el tem de sete de 13 de 34 e de 70 bilhões de parâmetros bem fazendo aí toda essa bagaça uma coisa também que a gente pode fazer aqui é o seguinte eu vou pegar e vou dividir a tela porque nós temos um carinha que é bem interessante deixa eu até mostrar aqui para vocês antes de instalá-lo é esse cara aqui ó é uma chance de você ter uma u um uma ui né uma interface né uma user Interface para o nosso querido latr olama certo esse cara aqui é o open web ui antes ele tinha um nome até eu acho que era um nome até do do olama acho que é olama y alguma coisa assim mas agora é open web Y porque ele funciona para vários né para vários ã frameworks aí que rodam aí que executam e utilizam aí os modelos Mas ó o que que nós vamos fazer aqui fazer a instalação dele nesse caso nós vamos fazer via docker acessem lá tá todos os links de tudo isso tá aqui na aqui embaixo na descrição do vídeo e não esqueça deixa lá o joinha para que 2000 likes 2000 joinhas venha a segunda parte rodando no kubernetes eu vou copiar essa parte aqui ó o s docker Run que é justamente para que eu possa ter essa interface gráfica né conectada já no meu querido lat trado olama que nós já estamos executando aqui certo vou voltar aqui no meu terminal todo mundo aqui ó no terminal tá tá vendo aqui vou copiar aquele comando que é um docker Run el tá fazendo o seguinte ó tá o utilizando aqui Network igual a host e depois ele vem lá com um volume né que ele precisa do volume para que ele Salve os dados e tudo mais vem a variável de ambiente falando Aonde tá o endereço do olama né Tá vendo aqui é 11. 434 o nome tá falando de Restart always né Se tiver algum problema e aí a imagem desse carinha simples assim vou dar um enter aqui opa ele fala assim ó já tem um cara rodando com esse nome não tem problema então vamos remover esse cara eu já estava utilizando ele de algum algum momento da minha vida né eu gosto muito desse cara porque facilita muito a nossa vida bem vou dar aqui um d PS olha só ele em execução H 4 Segundos e ele roda na porta 8080 por default Beleza então o que que nós vamos fazer saindo desse cara voltando aqui no terminal e vamos lá local host 8080 Olha só nós já estamos aqui ó bonitinho certinho se você não tem um usuário ainda você cria aqui lembrando que é sempre local né vem lá faz o signup da vida e aqui no signup você pode colocar as suas informações Então vou colocar aqui ó Jeferson Vou colocar aqui ó o e-mail Jeferson @ Linux chips. io e eu vou colocar aqui a senha sei lá giro poops só para testar aqui essa bagaça ele já existe eu já tenho aqui criado então vou fazer o seguinte então vamos lá fazer o signin giro poops est Trigos giros enter Agora sim eu estou aqui mano mas tá muito grande essa bagaça aqui Vamos diminuir um pouquinho para ficar mais fácil aqui ele fala o que tem de novo aqui pra gente tá vendo tem uma porrada de informação né do que tem de novo na web Y aqui dele bem é isso que eu quero já está aqui ó a mesma carinha que nós temos lá no nosso e como chama no chat GPT que você já conhece tá vendo ó não muda nada o que que nós vamos fazer ó selecionar o modelo Nós temos dois modelos que nós já baixamos certo nós temos o Code lama aqui e nós temos o lama dois certo então vamos sei lá pegar o Code lama aqui code lama e selecionado ele mostr tá o tamanho e aí nós vamos pegar e começar a falar ó criar um service para um deployment do kubernetes sei lá qualquer coisa assim desse jeito ó e aí ele vai pegando e vai trazero dendo as informações ó Cub Create Men f o arquiv inho tá lá o get né E aí eu posso pegar e falar para ele trazer todas as informações tudo que eu quiser que ele faça aqui não vou digitar aqui direitinho ó criar um arquivo eemil para um deployment sei lá deployment do redis vamos ver o que que ele vai trazer olha só ele vai pegando vai trazendo lá criar um arquivo né do Emil E aí trouxe o nosso deployment tudo bonitinho do jeitinho que nós queremos mesma interface que nós já sabemos que nós já conhecemos lá do chat GPT perceba não teve diferença nenhuma então agora nós já temos aí o nosso a nossa interface gráfica nós já temos o olama também rodando em ah modo texto perceba que a minha máquina também ela tá explodindo a esse momento né eu tenho aqui na minha máquina eu tenho eu tenho uma boa máquina ó se liga tá ó como que tá o processamento toda vez que eu fizer alguma pergunta ele vai utilizar mais processamento né vou perguntar aqui ó o que é jupiters sei lá mandei uma pergunta ele tá processando quando ele vai fazer esse processamento o CPU começa a carregar um pouquinho mais eu peço para que ele faça uma tarefa um pouco mais avançada ele vai pegar e vai utilizar mais CPU mais memória mais essa essa coisa rada toda certo simples assim nada de outro mundo vou voltar aqui pro meu terminal Cadê Deixa eu voltar aqui o meu terminal Cadê o meu terminal está aqui aqui no terminal nós temos lá então mais uma vez né eu posso estar utilizando esse cara aqui né fazendo direto essas perguntas aqui no meu terminalzinho né que nem criar um tutorial em iniciantes E por aí vai vou colocar aqui ó criar um tutorial para iniciantes mais uma vez ele já tá criando ó pode ver que é rapidinho Ele já sabe que é em português por conta do histórico nosso de conversa e ele tá lá só criando esse carinha o meu processador eu tô acompanhando aqui até que não tá não tá consumindo muito não deixa eu mostrar aqui para vocês ó rapidinho ó como que tá lá ele tá criando Mas ó tem partes lá dele que tá com 20% não tá chegando nem a 50% de utilização porque ten uma pad de processador aí ah nessa maquineta Mas ó ele já foi lá e já criou aqui o tutorial pra gente rapidinho então dessa maneira nós podemos aí ter o nosso a a inteligência artificial rodando dentro aí de kubernetes dentro de docker e tudo mais e colocando as aplicações para falar com quem com o olama e o olama ele vai ter o quê os modelos né que vai ter as inteligências que nós precisamos para que faça determinadas tarefas Então olha só o poder que nós temos agora a partir de agora de começar a utilizar esses modelos e começar a criar as soluções dentro do nosso kubernetes dentro do Linux de uma maneira muito mais palpável então não é mais somente utilizar o chat GPT você vai criar o seu chat GPT vai começar a entender sobre modelos vai começar a criar os seus próprios modelos também ah uma coisa importante vou sair fora aqui ó deixa eu sair fora aqui desse cara e você quer por exemplo ver lá suas imagens né você vem aqui com list tem lá ela você quer remover porque elas ocupam bastante espaço que que você faz o lama RM e sei lá lama Ah qual que é o normal né não foi o de 13 Pronto ele vai remover e a mesma coisa eu consigo fazer com qual que é o outro lá que nós temos é o Code né então RM code lama desse jeito já era agora eu tenho o meu espaço liberado novamente eu não tenho mais essas imagens mas agora se eu precisar se eu quiser rodar de novo o lama Run ele vai fazer o pull para mim beleza da mesma forma que eu poderia utilizar somente o pull aqui caso eu queira só fazer o download pull cod lama aqui por exemplo para ter aquela lama focada no código então dá um bizu gasta um tempinho da sua vida para entender o que são esses modelos porque ó vou te falar uma coisa você vai ficar bastante feliz última dica do dolinho Então é isso daqui ó vai lá e acessa esse site aqui ó huggingface.