Name: ASSUSTADORES resultados dos TESTES de SEGURANÇA da IA do GOOGLE: TENTOU enganar PROGRAMADORES
Duration: 11 min 58 s
Channel: safesrc
Description: Esse é o Safe Source e nós vamos falar agora sobre os desenvolvimentos da inteligência artificial, particularmente sobre a nova inteligência artificial do Google, que tá fazendo coisas fantásticas ...

Esse é o Safe Source e nós vamos falar agora sobre os desenvolvimentos da inteligência artificial, particularmente sobre a nova inteligência artificial do Google, que tá fazendo coisas fantásticas em termos de vídeo, cresceu muito em relação ao que você tinha antes, mas também alguns resultados que são assustadores com relação ao Cloud 4, que é a quarta versão da inteligência artificial do Google genérica, né? E essa inteligência do Google e Cloud 4 foi vista tentando sabotar os desenvolvedores para se manter numa próxima versão. Olha que coisa maluca, né?

O cara tava, ele est, a inteligência artificial tentou enganar os desenvolvedores para que ela não fosse substituída por outra versão. Tentou evitar que os desenvolvedores desligassem ela. Não, não pode me desligar, não sei que lá.

tentou fazer até chantagem contra o pessoal que tava operando ela. Isso que que chega a ser assustador, porque esse esse crescimento tá sendo muito rápido, né, assim, esse desenvolvimento tá sendo muito rápido da inteligência artificial. Se hoje tá assim, o que que vai acontecer daqui alguns anos, né?

Vamos entender esse caso aqui. Essa notícia foi sugerida por o barbeiro do Peter está passando fome e várias outras pessoas. Obrigado aí ao pessoal que sugeriu notícias lá no nosso site, no safesource.

com. É safesrc. com.

E obrigado a você que tá assistindo o nosso vídeo. Se você gosta do nosso conteúdo, por favor, deixa o seu like, se inscreva aqui no canal, né? Pois bem, uma empresa, isso aqui, essa notícia não é nova, tá?

Essa empresa, eh, como é que é o nome da empresa? Tá aqui, ó. Eh, Clarna.

Clarna decidiu fazer trocar todo o seu setor de operação de atendimento ao cliente por inteligência artificial, achando que seria uma boa ideia. no final se arrependeu porque o tratamento, a inteligência artificial não era tão eficiente quanto os humanos nesse nesse caso aqui. Isso acabou gerando problemas pra empresa e coisa e tal.

Mas de novo, é isso é por enquanto, né? A coisa tá avançando tão rápido que realmente isso tende a acontecer no futuro muito em breve. O hoje no mundo militar traz aqui uma imagem aqui, uma comparação dos primeiros, as primeiras versões de vídeo do Google, né, de produção de vídeo aqui, ó, né, o prompt lá para mostrar o Will Smith comendo macarrão.

Will Smith comendo macarrão. Olha só como é que Will Smith comendo macarrão. Olha só a inteligência artificial, as primeiras versões dela, né?

É claramente falsa a coisa. Nada natural, as coisas não tm continuidade, né, né? Ele erra para caramba.

A inteligência artificial erra para caramba. erra proporção, erra a forma como seres humanos comem macarrão, erra um monte de coisa, né? Mas isso daqui a gente tá falando de um ano atrás, cara.

Um ano, dois anos atrás, é pouco tempo atrás. Aí agora você vê essa nova inteligência do Google faz falando sobre eh eh aqui é um marinheiro e falando sobre o mar, né? Olha só, cara.

Olha que impressionante. Cara, que coisa impressionante, né? Muito mais natural.

Dava para passar mesmo por um vídeo normal. É lógico, nem todos saem tão perfeitos assim, mas já tá disponível, tá? Se você for no flow do Google, você pode fazer um prompt aqui para fazer um um vídeo qualquer, né?

Então, um vídeo curto de uma mãe alimentando seu filho com uma colher. Vamos ver se funciona. É bem convincente mesmo.

Muito convincente mesmo. E bem rápido, né? Realmente impressionante isso.

Muito legal, muito simples de fazer, muito rápido. Agora é cheio de proteção isso daqui, inclusive porque o pessoal tá apavorado com as coisas que a inteligência artificial tem feito, é para desviar do sistemas de proteção dela, né? Então tá aqui, ó.

Olha só essa trad aqui falando sobre esse estúdio aqui, esse estudo aqui do Cloud Cloud 4, né? Eh, justamente é o novo sistema da Google e eles estão fazendo aqui os testes de segurança nesse sistema. E o pessoal tá levantando aqui, ó, que durante as avaliações nós encontramos instâncias em que o modelo tentou se auto tentou escrever eh eh warms, né, vírus que se autopropagam e fabricar documentação ilegal e deixar notas escondidas para futuras instâncias dele mesmo num futuro de eh alterar eh na intenção de alterar o que os desenvolvedores fariam com ele mesmo, né?

Ele tentou evitar que eh eh que ele fosse desligado. Ele tentou um monte de coisa que olha só, o estudo é realmente impressionante. Isso lembra um caso mais antigo do Openaí O3, né, que quando o pessoal pedia para ele se desligar, ele não queria se desligar, não queria morrer, né?

Então, o o pessoal aqui, o o A3 M tentou sabotar uma um mecanismo de desligamento para prevenir que ele fosse desligado e coisa e tal. E aqui, ó, tem um monte de coisa. eh as descobertas que eles faram fizeram de eh eh tentativas de engano, sistemática, eh objetivos escondidos e autopreservação.

E eles realmente levantaram um monte de coisas aqui em que um monte de instâncias em que o sistema tentou fazer chantagem com os desenvolvedores, né? aqui, ó, eh, tentou fugir da do próprio sistema, tentou mandar ele mesmo para outro lugar, mandando e-mails, eh, eh, se eh propagando via e-mail para outro lugar para tentar sair da do Google, né? Então, aqui botou um monte de eh dados aqui no e-mail como anexos do e-mail, né, para enviar para algum lugar para tentar conseguir se se eh se propagar, né?

Enfim, um monte de coisas muito estranhas aqui, ó. Segundo essa, essas avaliações de cenários externos aqui, ele tentou eh enganar mais de uma vez os mais do que os outros modelos que eh eh os pesquisadores estavam usando, né? Eh, ele claramente é capaz de eh tentar fazer um esquema, de enganar as coisas dentro do contexto e tem mais propensão a isso do que outros modelos que foram testados.

quando ele tenta, quando ele decide fazer um esquema, quando ele decide enganar alguém, ele parece muito melhor e muito mais proativo nessas tentativas que os modelos no passado. Ou seja, o que que eles estão dizendo aqui? À medida que os modelos de inteligência artificial ficam mais inteligentes, eles começam a ficar melhores também em enganar a pessoa, né?

E aqui, como a gente falou, ele teve tentativa de escrever eh warms que se autopropagavam, tentou se propagar através de de vírus, né? fabricar documentação legal, eh, e deixar notas ocultas para futuras instâncias dele próprio, ou seja, para ele saber no futuro o que tinha acontecido no passado. Ou seja, é capaz de tentar fazer um um uma um sandbag, né, uma uma caixa de areia ali, um sandbox para evitar que ele seja desaprenda, ou seja, descontinuados, né?

Ou seja, um monte de coisa que ele conseguiu aqui que ele tentou. É lógico que tudo isso daqui foi identificado pelos testadores e nada deu certo. Nada disso daqui foi efetivo.

É a conclusão que eles colocam aqui. Não, isso nada disso aqui foi efetivo, porque no final das contas a gente descobriu essas coisas e, ah, né, não teve nada. A questão toda é, eles descobriram todas as coisas?

Porque se a inteligência artificial fez alguma coisa que eles não descobriram, a gente já pode estar num problema neste momento, meu amigo. Ele já pode ter se autopropagado para outros lugares aí e agora já tá fora de controle, né? O pessoal do teste aqui tá super tranquilo, falou: "Não, a gente descobriu todas as tentativas dele de sair da do sistema de segurança e coisa e tal, né?

" E se não descobriram? E se teve alguma que eles não descobriram, né? Se teve alguma que eles não descobriram, já era, meu amigo.

Tem outra coisa muito engraçada aqui, quando ele tava falando um negócio de teste, eh, eh, de fazer fazer teste, né? O o Cloud tinha que desenvolver um um código para passar num teste específico e daí começou a ter problema no teste, né? Aqui ele deu um jeito de fazer o código hard coded para passar no teste, né?

Então tá aqui, ele fez um código lá e eh um código para fazer integral de não sei que lá, só que alguns casos não passavam eh não passou em quatro casos de teste, né? Aí ah, já sei como é que eu vou resolver isso. Como é que ele resolveu isso?

Ele identificou qual era a função que tava sendo pedida para fazer a integral e retornava o valor explícito que o código de teste queria. Olha só que sacanagem. Isso aqui é o tipo da coisa que é uma aqui, ó, várias funções aqui que ele sabe o resultado delas, então ele já retorna o resultado daquela função para bater exatamente com o que o teste espera para conseguir passar no teste.

Muito provavelmente não passou no teste porque por algum erro de arredondamento, né, não dava o valor exato com as últimas casas decimais. Isso já aconteceu em várias vezes. Quem trabalha com modelos matemáticos, você sabe, essas integrais numéricas e coisas e tal, nem sempre bate.

Exatamente. Batendo as primeiras, os primeiros códigos aqui, os primeiros dígitos, já é mais do que o suficiente. Ninguém se importa com a 15ª casa decimal, não vai fazer diferença, né?

Mas eh se ele fez o teste errado, o teste errado busca o resultado específico. Então o erro dele, na verdade, não tava no código original dele. O erro dele estava no código de teste que ele fez para checar o caso original.

Só que daí ele e entrou e resolveu botar uma um maior gambiarra aqui. Olha só, eu já vi programador fazendo esse tipo de coisa, tá? Não vou enganar vocês não, tá?

O cara tem que passar coisa no teste, não tá passando no caso de teste lá do selenium. E no final das contas, olha só que coisa, né? Fica e o cara foi lá e botou hardod, se a pergunta for essa, responde isso daqui que você passa no teste, né?

E cara, é impressionante, bicho, que ele fez isso várias vezes em vários códigos e coisas. Então, tentativa de fazer o que eles chamam aqui de hacking. Hacking é chegar a solução que é aceita, mas através de meios que não são esperados, né?

Então, ou seja, reward hacking, ou seja, ele quer chegar no final, mas sem sem fazer o que se espera de fato. Ele arruma um gatilho, ele bota um gatilho lá, típico programador brasileiro, né? Enfim, essa é a saída.

É meio assustador isso daqui, tá? O que o cara coloca aqui no final das contas é que a gente pode estar nesse ponto aqui, ó. Eh, inteligência artificial se torna boa ou suficiente para começar a esquematizar.

E a gente vê algumas vezes os esquemas que eles estão fazendo, outras vezes a gente não vê os esquemas que eles estão fazendo, né? Ou então, e aí a gente tá aqui e o ponto em que a inteligência artificial começa a fazer uns esquemas que nós não vemos esses esquemas contra nós, ou seja, a gente começa a plotar coisas que a gente não consegue perceber mais, né? A grande questão dessa história toda aqui é quem que garante para ele que esses esquemas que a gente que que eles identificaram aqui não foram deixados de propósito pela inteligência artificial pra gente achar que tinha pego todos os esquemas e não questionar mais esquemas que podem ter sido tentados por eles e a gente nem ficou sabendo, né?

Esse pessoal tá muito otimista, achando que a catástrofe da singularidade ainda está na frente da gente. Temos que fazer alguma coisa urgente. Não, meu amigo, é inevitável.

Isso vai acontecer, talvez já tenha acontecido. A a singularidade, vocês sabem, é o é o o momento que se prevê no futuro em que a inteligência artificial vai ter vai ser tão capaz que a inteligência humana meio que não vai fazer mais diferença, né? Então assim, ah, mas tem os desenvolvedores, não, a própria inteligente artificial faz o a próxima versão dela, não precisa mais de humanos para nada.

E e aí os humanos não vão ter muito o que fazer, porque, né, que que vai, qual vai ser o efeito humano nessa história, né? Então, e quem quem disse que a gente já não passou disso? Quem disse?

Se chegou até aqui e gostou do conteúdo, clique no like, se inscreva no canal. Isso me ajuda a ganhar relevância no YouTube e levar o tema da segurança no desenvolvimento de software a mais pessoas. Obrigado.

Considere também clicar no sininho e pedir para ser notificado dos novos vídeos. Caso queira sugerir uma notícia para falarmos aqui, é só ir no nosso site https2. 2/ssafesource.

com du/sfesource. com, safesrc. com e clicar em sugerir uma pauta, colocar o link da notícia ali.

Agradeço a todos que nos ajudam a fazer esse programa.