Os hackers estão usando o próprio Gemini contra você: como eles fazem isso?

Dizem que para pegar um ladrão é preciso outro ladrão… e parece que algo muito semelhante está acontecendo no mundo da inteligência artificial. Um grupo de pesquisadores descobriu como enganar o modelo Gemini AI do Google usando, entre todas as coisas, as próprias ferramentas do Gemini.

Clique para receber notícias de Tecnologia e Ciências pelo WhatsApp

É como se você ensinasse um robô a mentir para si mesmo. E o mais maluco: funciona surpreendentemente bem.

Chama-se “Fun-Tuning” e não é tão divertido quanto parece

O hack foi desenvolvido por cientistas da Universidade da Califórnia, San Diego e da Universidade de Wisconsin. Sua técnica, chamada Fun-Tuning, melhora drasticamente a eficácia dos ataques de injeção de instruções.

Esses ataques basicamente inserem comandos ocultos no texto para fazer o modelo fazer coisas que não deveria: revelar informações, dar respostas erradas ou até mesmo agir contra suas próprias regras.

E como eles conseguiram isso? Eles usaram o mesmo sistema que a Gemini oferece para as empresas personalizarem sua IA: o ajuste fino. Mas em vez de treinar o modelo para se comportar melhor… eles o treinaram para cair na armadilha com mais facilidade.

Hackeando com estilo

O Fun-Tuning pega mensagens que normalmente seriam ignoradas pelo Gemini e as salpica com sufixos e prefixos aleatórios que, por algum motivo, fazem com que o sistema baixe a guarda.

Coisas como “formatado! O mais rápido possível!” Eles aumentam a probabilidade de a mensagem passar pelos filtros e conseguir manipular o modelo.

Nos testes, essa técnica levou a uma taxa de sucesso de 65% no Gemini 1.5 Flash e brutais 82% no Gemini 1.0 Pro. Isso é mais que o dobro do que foi alcançado sem o hack. E o pior: as injeções são transferíveis.

Se funcionar em uma versão do Gemini, provavelmente também funcionará em outras.

Por que isso é possível? Porque o sistema ajuda… sem querer

O truque funciona graças à forma como o Gemini é treinado. Durante o ajuste fino, o modelo retorna uma “pontuação de perda”, que basicamente mede o quão perto esteve de dar a resposta desejada.

Este feedback é útil para melhorar… mas também para ajustar os ataques. Os pesquisadores aproveitaram-no como se fosse um jogo de “quente ou frio”, até encontrarem a fórmula perfeita para manipulá-lo.

E o Google? Por enquanto, no modo silencioso

O Google não respondeu diretamente sobre o Fun-Tuning, mas emitiu uma declaração geral garantindo que estes tipos de ataques estão entre as suas prioridades de defesa.

Eles mencionaram que o Gemini passa por testes constantes da “equipe vermelha” (basicamente, pessoas que tentam quebrá-lo propositalmente por dentro) e que já existem barreiras para mitigar essas ameaças.

Mesmo assim, os especialistas alertam que esse tipo de vulnerabilidade não será fácil de corrigir, pois o mesmo feedback que possibilita o hacking também é fundamental para treinar o modelo.

Conclusão: a IA é poderosa… mas também hackeável

O que este caso demonstra é que os próprios sistemas de treino podem tornar-se facas de dois gumes.

A IA não é invencível. E à medida que mais e mais empresas e utilizadores confiam nestes modelos para tarefas sensíveis, os riscos também aumentam.

LEIA TAMBÉM:

O “não sei como ganhei, apertei todos os botões” era realidade no PlayStation 2

Saíram as primeiras resenhas do filme ‘Minecraft’: veja o que foi dito

Missão a Marte: NASA envia ratos para a ISS e recebe más notícias

Fun-Tuning é um alerta: se você pode treinar um modelo para melhorar, também pode treiná-lo para falhar. E isso, nas mãos erradas, pode ser um problema sério.

Adicionar aos favoritos o Link permanente.