Anthropic oferece atualização do Mythos para parceiros cibernéticos e uma versão ‘segura’ para o resto de vocês

A Anthropic lançou dois novos modelos de IA chamados Claude Fable 5 e Claude Mythos 5 na terça-feira, que a empresa afirma ter capacidades maiores do que o Mitos Visualize o modelo lançado em abril a um conjunto limitado de parceiros da indústria tecnológica. Antrópico disse que o lançamento inicial e limitado resultou de preocupações de que as capacidades do modelo poderiam ser exploradas por malfeitores para desenvolver ferramentas de hacking que poderiam capturar defensores desprevenido.

Atualmente, a Anthropic está lançando Claude Mythos 5 apenas para um conjunto limitado de parceiros da indústria, muitos dos quais receberam acesso ao Mythos Preview, e a empresa diz que está colaborando com o governo dos EUA no lançamento.

Claude Fable 5, que está sendo lançado publicamente, usa o mesmo modelo subjacente do Mythos 5, mas terá “proteção” no lançamento, disse a empresa na terça-feira, que impedirá o modelo de responder a muitas perguntas dos usuários relacionadas à segurança cibernética, biologia e química. Em vez disso, essas solicitações serão redirecionadas para um modelo de IA mais antigo, Claude Opus 4.8. Se a Anthropic suspeitar que um usuário está tentando realizar destilação– treinando um modelo de IA menor a partir das respostas de um modelo de IA maior – no Claude Fable 5, essas solicitações também serão redirecionadas para o Claude Opus 4.8, diz a empresa.

Em entrevista à WIRED, a chefe de gerenciamento de produtos da Anthropic, Diane Penn, diz que a empresa tem lutado com a questão de como lidar com as habilidades de descoberta de vulnerabilidades de software e outros recursos avançados da Mythos desde antes de seu lançamento em abril, mas que os testes e as contribuições do usuário desde então ajudaram a aprimorar a estratégia.

“Estamos tentando fazer melhorias de uma forma que seja benéfica, mesmo que não tenhamos a (solução) perfeita para cada caso de uso inicial”, diz Penn. “De todas as diferentes abordagens, esta surgiu como a mais viável e a melhor. Acabamos por sentir que esta era a melhor escolha de produto para os utilizadores obterem o máximo valor do Fable 5.”

Por enquanto, Penn diz que o mecanismo de proteção foi construído para ser cauteloso, o que significa que algumas consultas de usuários podem ser roteadas para o modelo de IA menos capaz, mesmo que sejam benignas. Com o tempo, a Anthropic espera tornar seus classificadores mais precisos, mas Penn diz que essa era a única maneira segura pela qual a empresa poderia lançar o modelo amplamente neste momento.

A empresa disse na terça-feira que, além de oferecer Claude Mythos 5 aos parceiros do Projeto Glasswing, também está dando acesso a “pesquisadores de biologia selecionados”. Além disso, a Anthropic observou em seu postagem no blog sobre o lançamento de terça-feira que está fornecendo versões irrestritas para esses pequenos grupos de clientes “até que nosso programa de acesso confiável esteja disponível”, sugerindo planos futuros para expandir ainda mais o acesso. Desde o lançamento do Mythos em abril, a Anthropic enfatizou repetidamente que, eventualmente, seus concorrentes, tanto nos espaços de peso privados quanto abertos, inevitavelmente também oferecerão modelos com capacidades de nível Mythos.

A capacidade de Claude Mythos e outros novos modelos de IA conceberem ferramentas de hacking capazes de encontrar e explorar vulnerabilidades em software novo e legado forçou as empresas tecnológicas e os governos em todo o mundo a protegerem as suas defesas de software antes que os modelos de IA deste nível sejam amplamente disponibilizados aos atacantes. A Anthropic lançou o Mythos pela primeira vez para parceiros da indústria sob um consórcio chamado Projeto Glasswing, com a ideia de que isso poderia dar aos membros uma vantagem inicial na preparação de seus próprios sistemas e na avaliação de soluções globais para a ameaça antes de um lançamento mais amplo.

Antrópico escreveu em um atualizar sobre o Projeto Glasswing na semana passada: “Estamos trabalhando o mais rápido que podemos para liberar com segurança capacidades de nível Mythos em acesso geral. Para fazer isso, precisaremos de salvaguardas altamente robustas que evitem que as capacidades cibernéticas do modelo sejam mal utilizadas – salvaguardas que nós (e, até onde sabemos, todos os outros desenvolvedores de IA) ainda temos que desenvolver.”

Source link