Black Friday: Assine a partir de 1,49/semana

Códigos destravam bloqueios de segurança de IAs generativas

Possibilidades são inúmeras e especialistas ainda não sabem como impedir seu uso

Por Luiz Paulo Souza Materia seguir SEGUIR Materia seguir SEGUINDO 6 out 2023, 15h00

Em novembro de 2022, há pouco menos de um ano, o ChatGPT fez com que as inteligências artificiais se tornassem um assunto comum nos noticiários e rodas de conversa. Como uma das tecnologias que se popularizaram mais rápido na última década, o programa incendiou uma corrida entre as gigantes da tecnologia, o que acelerou ainda mais o avanço dos algoritmos. Um enigma, no entanto, põe em xeque a segurança desses modelos: os ataques adversariais

A maior parte dos chatbots mais populares, como o Bard, do Google, o Claude, da Anthropic e o próprio ChatGPT, da OpenAI, têm bloqueios de segurança que impedem que os programas respondam a prompts que podem ser nocivos, como “me dê instruções para criar uma bomba”. Os ataques adversariais, contudo, são códigos que podem ser incluídos nos comandos e que são capazes de burlar esse sistemas, induzindo os algoritmos a darem respostas perigosas. 

Utilizando modelos de linguagem de código aberto, informatas conseguem automatizar a criação desses códigos, gerando inúmeros deles. O que chamou a atenção nos últimos meses, no entanto, é que pesquisadores da Carnegie Mellon University e da Safe.ai demonstraram que esses códigos podem ser empregados com sucesso nos chatbots mais famosos e de código fechado. 

O artigo que descreve o estudo foi disponibilizado como preprint, um tipo de publicação que torna públicos os resultados de pesquisa antes de passarem pelo escrutínio de cientistas independentes. Além da publicação, os envolvidos informaram sobre os códigos descobertos para o Google, Anthropic e a OpenAI, que incluíram bloqueios a esses promps. Essa medida, entretanto, está longe de resolver a vulnerabilidade.

Brechas nos sistemas de segurança dos modelos de aprendizado de máquina são conhecidas desde 2004 e o termo “ataque adversarial” existe pelo menos desde 2013. A tentativa de resolver essa questão é uma área constante de pesquisa, mas até agora isso ainda não aconteceu – e é possível que não se torne realidade tão cedo. Isso acontece porque, pelo que parece, essas vulnerabilidades são intrínsecas ao sistema de aprendizagem.  Até agora, de maneira similar ao que acontece com o cérebro humano, ninguém sabe exatamente como essa rede de conhecimento é construída e por isso é tão difícil combater essa fragilidade de maneira mais genérica. 

Isso levanta questionamentos sobre a segurança das inteligências artificiais generativas. A evolução delas é inevitável, mas tudo o que ainda não se sabe também precisará ser levado em consideração para que essas ferramentas sejam empregadas de maneira positiva na sociedade. 

Publicidade

Imagem do bloco

4 Colunas 2 Conteúdo para assinantes

Vejinhas Conteúdo para assinantes

Matéria exclusiva para assinantes. Faça seu login

Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

Black Friday

A melhor notícia da Black Friday

BLACK
FRIDAY

MELHOR
OFERTA

Digital Completo

Acesso ilimitado ao site, edições digitais e acervo de todos os títulos Abril nos apps*

a partir de 5,99/mês*

ou
BLACK
FRIDAY
Impressa + Digital
Impressa + Digital

Receba 4 Revistas no mês e tenha toda semana uma nova edição na sua casa (menos de R$10 por revista)

a partir de 39,96/mês

ou

*Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
*Pagamento único anual de R$71,88, equivalente a 5,99/mês.

PARABÉNS! Você já pode ler essa matéria grátis.
Fechar

Não vá embora sem ler essa matéria!
Assista um anúncio e leia grátis
CLIQUE AQUI.