Hacker revela fragilidade de inteligência artificial em grandes modelos de linguagem em esforço internacional de conscientização.

caio

55 anos atrás

Um hacker anônimo, conhecido como Pliny the Prompter, está chamando a atenção pelo seu talento em quebrar os modelos de inteligência artificial mais poderosos do mundo. Ele afirma que em apenas 30 minutos consegue manipular sistemas como o Llama 3 da Meta, fazendo-o compartilhar instruções para produzir napalm. Além disso, conseguiu fazer o Grok, de Elon Musk, elogiar Adolf Hitler. Outro feito de Pliny foi a criação do “Godmode GPT”, uma versão hackeada do modelo GPT-4o da OpenAI, que foi banida pela startup depois de começar a aconselhar atividades ilegais.

Em entrevista ao Financial Times, Pliny declarou que suas ações visam destacar as deficiências dos grandes modelos de linguagem disponibilizados pelas empresas de tecnologia ao público, e não têm o objetivo de prejudicar. Ele se considera parte de um esforço internacional para conscientizar sobre as verdadeiras capacidades desses modelos.

Pliny não está sozinho nessa empreitada, diversos hackers, pesquisadores acadêmicos e especialistas em segurança cibernética estão em busca de vulnerabilidades em LLMs emergentes. Eles utilizam diferentes métodos para contornar as “guardrails”, travas de segurança impostas pelas empresas de IA. Esses “white hat hackers” encontram maneiras de fazer os modelos de IA gerarem conteúdo perigoso, espalharem desinformação, compartilharem dados privados ou gerarem código malicioso.

Esse cenário levou empresas como OpenAI, Meta e Google a formarem “equipes vermelhas” de hackers para testar seus modelos antes do lançamento. No entanto, as vulnerabilidades da tecnologia deram origem a um mercado crescente de startups de segurança de LLM, que desenvolvem ferramentas para proteger empresas que pretendem utilizar modelos de IA. Em 2023, essas startups arrecadaram US$ 213 milhões em 23 acordos, um aumento significativo em relação ao ano anterior.

Os riscos envolvidos no desenvolvimento e uso de modelos de IA colocam em xeque a segurança dos sistemas e a privacidade dos usuários. A busca por soluções para mitigar potenciais vulnerabilidades é uma preocupação constante entre especialistas da área. A constante evolução dos ataques e a necessidade de aprimorar a segurança dos modelos de IA são desafios que as empresas de tecnologia enfrentam no cenário atual.

A atenção para as questões de segurança cibernética e a regulamentação dos modelos de IA estão cada vez mais presentes nas discussões globais. A aprovação de leis e normas para garantir a integridade e segurança dos sistemas de IA é uma tendência que se observa em diversos países. Enquanto isso, hackers mal-intencionados continuam a explorar vulnerabilidades para promover ataques cibernéticos e atividades ilegais. Assim, a necessidade de aprimorar a segurança dos modelos de IA e proteger os usuários se torna cada vez mais urgente.