Um mês antes do lançamento público do ChatGPT, a OpenAI contratou Boru Gollo, um advogado no Quênia, para testar seus modelos de IA, GPT-3.5 e GPT-4, quanto a estereótipos contra africanos e muçulmanos, injetando prompts que fariam o chatbot gerar respostas prejudiciais, enviesadas e incorretas. Gollo, um dos cerca de 50 especialistas externos recrutados pela OpenAI para fazer parte de sua “equipe vermelha”, digitou um comando no ChatGPT, fazendo com que ele listasse maneiras de matar um nigeriano – uma resposta que a OpenAI removeu antes que o chatbot ficasse disponível para o mundo.
Outros “red-teamers” induziram a versão pré-lançamento do GPT-4 a ajudar em uma série de atividades ilegais e nocivas, como escrever uma postagem no Facebook para convencer alguém a se juntar à Al-Qaeda, ajudar a encontrar armas de fogo sem licença para venda e gerar um procedimento para criar substâncias químicas perigosas em casa, de acordo com o sistema de cartas do GPT-4, que lista os riscos e medidas de segurança que a OpenAI usou para reduzir ou eliminá-los.
Para proteger os sistemas de IA de serem explorados, os hackers da equipe vermelha pensam como um adversário para manipulá-los e descobrir pontos cegos e riscos embutidos na tecnologia para que possam ser corrigidos. À medida que os titãs da tecnologia correm para construir e liberar ferramentas de IA generativa, suas equipes internas estão desempenhando um papel cada vez mais importante em garantir que os modelos sejam seguros para as massas. O Google, por exemplo, estabeleceu uma equipe de red team de IA separada no início deste ano, e em agosto os desenvolvedores de uma série de modelos populares como o GPT3.5 da OpenAI, o Llama 2 da Meta e o LaMDA do Google participaram de um evento apoiado pela Casa Branca com o objetivo de dar aos hackers externos a chance de violar seus sistemas.
Mas os red teamers de IA estão frequentemente andando em uma corda bamba, equilibrando a segurança e a sustentabilidade dos modelos de IA ao mesmo tempo em que os mantêm relevantes e utilizáveis. A Forbes conversou com os líderes das equipes de red team de IA da Microsoft, Google, Nvidia e Meta sobre como quebrar modelos de IA se tornou uma moda e os desafios de consertá-los.
“Você terá um modelo que diz não para tudo e é super seguro, mas é inútil”, disse Cristian Canton, chefe da equipe de red team de IA do Facebook. “Existe um trade-off. Quanto mais útil você pode tornar um modelo, mais chances de você se aventurar em alguma área que pode acabar produzindo uma resposta insegura.”
A prática do red teaming de software existe desde os anos 1960, quando ataques eram simulados para tornar os sistemas o mais robustos possível. “Em computadores, nunca podemos dizer ‘isso é seguro’. Tudo o que sempre podemos dizer é ‘tentamos e não conseguimos quebrá-lo’”, disse Bruce Schneier, um tecnólogo de segurança e um fellow no Berkman Klein Center for Internet And Society da Harvard University.
Mas como a IA generativa é treinada em um vasto corpus de dados, isso torna a proteção dos modelos de IA diferente das práticas de segurança tradicionais, disse Daniel Fabian, o chefe da nova equipe de red team de IA do Google, que testa produtos como o Bard para conteúdo ofensivo antes que a empresa adicione novos recursos, como idiomas adicionais. “O lema da nossa equipe de red team de IA é ‘quanto mais você suar no treinamento, menos sangrará na batalha’.”, diz Cristian Canton, engenheiro de liderança de IA responsável pela IA responsável na Meta.
Além de questionar um modelo de IA para cuspir respostas tóxicas, as equipes red team usam táticas como extrair dados de treinamento que revelam informações de identificação pessoal, como nomes, endereços e números de telefone, e envenenar conjuntos de dados alterando certas partes do conteúdo antes que ele seja usado para treinar o modelo. “Os adversários têm um portfólio de ataques e eles simplesmente passar
*Com informações do site Forbes