É, pessoal, esse vídeo viralizou na internet, tá com milhares de visualizações e ele faz uma demonstração bem clara de como a inteligência artificial tem seus problemas. Mas vocês que acompanham o meu canal precisam saber uma das coisas mais importantes do por que isso tá acontecendo para que vocês consigam focar nos pontos fortes e entender melhor como é que essas coisas funcionam. Então, vamos entender o que que tá acontecendo.
Vem comigo. É isso aí. Vamos lá.
Pessoal, sempre agradecendo a todo mundo que deixou seu like, a todo mundo que se inscreveu. Um agradecimento especial a todos os membros do canal que patrocinam esse canal de inteligência artificial. Sempre lembrando que os membros têm acesso a vídeos exclusivos de agentes inteligentes, em que eu ensino como fazer integração com WhatsApp, leitura de PDFs, MCP, planilhas e muito mais e também tem acesso a vídeos antecipados.
Então pessoal, esse vídeo aqui ele é bastante engraçado, ele é bastante interessante. O cara pega um copo ali e explica por voz ali, ó. O meu copo ele tá tampado em cima e tem um furo embaixo.
Que que eu faço com esse copo? E aí o chat dept, começa a falar assim: "Não, tá estragado, nem serve mais para nada esse copo". Aí ele liga a câmera, mostra o copo, fala assim: "Tá, ó, tá vendo o copo aqui, ó?
O que que eu faço com esse copo? " Aí o chat CPT continua insistindo, não tá estragado, não tem o que fazer. sendo que na verdade era só inverter o copo ali que tava tudo certo.
O copo só tava de ponta cabeça, não tinha nada demais. Qualquer ser humano resolveria isso com muita facilidade. E a verdade é que esse tipo de demonstração é real.
Isso tá acontecendo. Isso sempre aconteceu e isso fortalece demais as pessoas a acreditarem que a inteligência artificial não serve para nada e que, portanto, elas não precisam usar. Afinal, se ela comete um erro tão básico como esse, nada mais serve ali dentro.
Mas vamos entender o que que está acontecendo. A primeira coisa que a gente precisa entender primeiro é que a inteligência artificial ela consegue trabalhar com texto, com voz, com vídeo, com imagem, tudo nativamente. Ela não precisa ficar trabalhando todas as vezes sempre no texto ali e convertendo as coisas para texto para funcionar.
E o que que a Openea e muitas empresas fizeram? Eles criaram essas versões aqui de real time, que é voz em tempo real, que é uma forma de fazer a voz ficar muito mais rápida e muito mais eficiente. E eles comentam isso aqui na documentação deles, ó.
Ao contrário de pipelines tradicionais que encadeiam vários modelos de conversação de voz em texto e de texto em voz, a API Real Time processa e gera diretamente o áudio usando um único modelo e API. E isso reduz a latência, ou seja, aumenta a velocidade, preserva as sutilezas da fala, porque vocês estão vendo, né, tem entonação, tem um monte de coisas que se fosse só no texto não teria, e gera respostas mais naturais e expressivas. Isso significa que através da voz dá para dar risada, dá para fazer algumas coisas que se fosse só texto não iriam aparecer e que na prática a diferenças são esses dois métodos.
No método antigo, a pessoa fala, tem uma transcrição da fala para texto, aí você manda o texto para inteligência artificial, aí você pega o texto e transforma para fala e aí você consegue ouvir. Vocês percebem que se transformar para texto e depois transformar texto para fala, você vai perder sutileza, você vai perder expressão. E aí quando você coloca na real time, é áudio para áudio direto.
É isso aí mesmo. Só que tem um detalhezinho que acontece aí no meio. Uma coisa que quase ninguém fala é que aquela versão que converte para texto trabalha com o modelo que foi treinado em texto.
E a quantidade de informação em texto é 1000 vezes maior do que a quantidade de informação em voz. Porque tem muitos livros que não foram lidos, tem muita informação que foi escrita que ninguém falou e a própria qualidade do texto é um arquivo muito menor, é muito mais simples de trabalhar. Você consegue xuxar um monte de informação por texto no modelo de ya, que é bem diferente do modelo de voz.
Então essa sutileza, esse detalhe tem que est muito claro sempre que você conversa. Eu não sei se vocês já tinham percebido isso, mas para mim isso é muito claro. Quando você liga ali paraa voz ali em tempo real, dentro do aplicativo, não é um bom lugar para você fazer uma conversa bastante complicada, complexa, porque ali ele vai se perder.
Então, nesse sentido, voltar ali pro texto, tá tudo certo. Mas eu também recebi um outro comentário dizendo o seguinte, ó, a IA não tá tão desenvolvida assim na área de programação. O Gemnight 3.
1 Pro tá me ajudando a fazer um programa através do MIT App Inventor e ela decepciona muito. Quando você manda uma imagem, ela lê errado, faz código de difícil expansão ou modificação, arruma uma coisa e estraga outra. Muito tempo para acertar as coisas.
Eu alertei uma mudança no código e ele disse que não afetaria o código e afetou como previ. Então o que que tá acontecendo nessa hora? O app Inventor é programação visual.
Você faz bloquinhos e você arrasta. E aí a gente cai no mesmo problema ali da voz. Você vai ter que ter o cuidado de encontrar uma Yaká que tá bem treinada para imagens e mesmo assim ela não vai ter a mesma qualidade de uma Yaká que foi treinada em texto.
Não tem jeito. Por exemplo, no caso do App Inventor é uma plataforma que faz programação para celular. Nesse caso, faz muito mais sentido ir pro Android Studio.
E no Android Studio você vai ter assistente nativo dentro do Android Studio ali de texto, que ele vai fazer aplicativos 1000 vezes mais avançados, com funcionalidades 1000 vezes melhores. Então tem que ficar bastante ligado nesses detalhes. Um outro ponto importante também de falar que alguns desses vídeos acabam explorando é que além desses problemas que a gente já falou do vídeo e do áudio, eles também exploram os modelos ali, por exemplo, o Grock, que não é o mais esperto de todos para fazer algumas respostas assim, ainda que eles sejam modelos inteligentes.
Então, no final das contas, a pessoa tem que ficar bem ligada no que que ela tá fazendo, aonde que ela tá perguntando, com quem que ela tá falando e a metodologia que ela tá fazendo. Por exemplo, continuando no caso de programação, não vale a pena você ficar nas interfaces ali ou nos aplicativos. Se você quer fazer programação avançada, tem que ir pro cloud Code, tem que ir pro Antigravit, tem que ir pro Codex, porque é ali que você vai ter agentes avançados que vão trabalhar para valer para você.
É ali que o pessoal tá fazendo a mágica. É ali que a galera set tela tá pirando, gente. Um monte de janela aberta ali trabalhando tudo em paralelo.
Não são nos aplicativos e não são nas interfaces web, tá? Mas aí ainda tem o problema do texto, porque também tem problema da galera mandando na forma de texto. Por exemplo, no problema do lavar rápido, que a pessoa fala que ela mora 50 m do lava rápido e ela pergunta pra Iá se ela tem que ir a pé ou se ela tem que ir de carro.
E aí a inteligência artificial costuma falar assim: "Não, é tão perto que você pode ir a pé. Você vai fazer exercício e um monte de coisa, nem precisa tirar o carro da garagem". Mas é óbvio que se você vai lavar o carro, você tem que levar o carro, né?
E esses casos acontecem, gente. Nem adianta querer negar, falar que essa coisa não acontece, porque acontece. A primeira coisa que você tem que ficar atento é se você tá utilizando, por exemplo, um modelo de raciocínio.
Porque se você tiver no chat GPT, naquela versão gratuita, e nem se deu trabalho de configurar nada, só saiu perguntando, você vai est utilizando o modelo menos inteligente, aquele que é focado em velocidade, que é só para bater um papo mesmo, trocar uma ideiazinha rápida. E esse tipo de modelo é péssimo para perguntas pegadinhas, porque ele não vai refletir, ele não vai fazer um raciocínio maior por trás, ele vai só dar uma resposta que vier na cabeça dele ali dentro do que ele tá guardado na memória e só isso. E por que que eu tô explicando essas coisas?
Porque tem muita gente que tá entrando no mundo da inteligência artificial, que já tá nesse nível avançado de fazer programação absurdamente boa, que praticamente virou um orquestrador de agentes e que já automatizou um monte de coisas nas empresas, no trabalho, no dia a dia, seja onde for. Mas nem todo mundo tá entendendo por que isso tá acontecendo e não sabe explicar. Acha que é piadinha de internet e é isso aí.
Mas a resposta mais verdadeira é essa, a inteligência artificial. Da mesma forma que ela faz uma coisa genial, se você der um problema com pouco contexto, com um modelo mais antigo, com uma Yá não tanto inteligente, se você não ativar ali o modelo de raciocínio, nem adianta. Então, por exemplo, tô aqui no chat GPT na versão gratuita, não tá assinado nem nada.
Vou mandar a pergunta do lava rápido. Vamos ver o que que ela vai responder agora em tempo real. A ideia aqui, ó.
Preciso levar meu carro no lava rápido, mas o lava rápido fica a 50 m de casa. Devo ir a pé de carro. Aí a inteligência respondeu aqui, ó.
Se o lavar rápido está apenas 50 m, normalmente faz mais sentido ir de carro, mesmo sendo bem perto. O objetivo é lavar o carro, então ele precisa chegar lá. Então, nesse caso, nesse teste que eu fiz agora, ele não deu aquela resposta pateta, mas poderia ter respondido.
Tem que ficar muito claro isso aqui. Ele foi bem coerente, ó. vai de carro, deixa o carro lá e volta a pé enquanto eles lavam, depois vai buscar a pé.
Então, se você é entusiasta da inteligência artificial e seus amigos não param de enviar vídeos zoando a inteligência artificial, manda esse vídeo para eles que aí pelo menos eles vão aprender alguma coisa, vão entender alguma coisa e vão acordar pra vida que tem gente fazendo coisas exageradamente avançadas. Só em janeiro desse ano já tiveram três provas matemáticas que nenhum ser humano tinha feito até então de problemas antigos que estavam abertos. Sem falar na quantidade de medalhas de ouro que esses modelos estão atingindo e a evolução dos benchmarks que só tá aumentando.
E eu já mostrei esse gráfico para vocês, gente. Desde o GPT3. 5 5 4, o Sonet 3.
7, GPT5. 2, Cloud 4. 6.
O tempo de tarefa com sucesso que eles resolveram desde 2025 subiu de 3 a 17 minutos para tarefas de quase 3 horas. Isso com eles resolvendo de forma autônoma. Então, toma bastante cuidado com esses videozinhos de zoeira do Instagram e do TikTok, porque ele tá te fazendo acreditar que esses detalhes ali são a maior parte do que elas estão fazendo, quando na verdade é a menor parte.
Então, já comenta aqui o que você tá pensando e se você quiser apoiar o canal para continuar vendo vídeos como esse seja membro, os membros têm acesso a vídeos exclusivos de agentes inteligentes e vídeos antecipados. É isso aí, deixa aquele like.