Siga ZDNET: Adicione-nos como fonte preferencial no Google.
Principais conclusões da ZDNET
- A Antrópico publicou uma nova “constituição” para Claude na quarta-feira.
- Ele usa uma linguagem que sugere que Claude um dia poderá estar consciente.
- Também pretende ser uma estrutura para a construção de modelos de IA mais seguros.
Como a IA deveria poder agir no mundo? Em situações eticamente ambíguas, existem alguns valores que os agentes de IA deveriam priorizar em detrimento de outros? Serão estes agentes conscientes – e se não, poderão tornar-se conscientes no futuro?
Estas são apenas algumas das muitas questões espinhosas que a startup de IA Anthropic se propôs a abordar com sua nova “constituição” para Claude, seu principal chatbot de IA.
Além disso: usei Claude Code para codificar um aplicativo Mac em 8 horas, mas deu mais trabalho do que mágica
Publicado quarta-feira, o documento foi descrito em uma empresa postagem no blog como “um documento holístico que explica o contexto em que Claude opera e o tipo de entidade que gostaríamos que Claude fosse”.
Codifica um conjunto de valores aos quais Claude deve aderir, o que poderia, por sua vez, servir de exemplo para o resto da indústria da IA, à medida que o mundo começa a lidar com as principais questões sociais, políticas, filosóficas, éticas e económicas que surgirão juntamente com o advento de modelos de IA avançados – e de aparência cada vez mais consciente.
Diretrizes e regras
Nestes primeiros dias, todos, incluindo a Anthropic, ainda estão descobrindo o papel que os chatbots de IA desempenharão em nossas vidas diárias. Está claro agora que eles serão mais do que apenas máquinas de responder perguntas: um grande número de pessoas também os utiliza para aconselhamento de saúde e terapia psicológica, só para citar alguns exemplos mais sensíveis.
A nova constituição da Antrópico para Claude é, para citar o primeiro filme “Piratas do Caribe”, “mais como diretrizes do que como regras reais”.
A ideia é que “restrições rígidas”, como a empresa as chama (ou seja, regras rígidas que ditam o comportamento de Claude), são inadequadas e perigosas, dada a variedade quase ilimitada de casos de uso aos quais o chatbot pode ser aplicado. “Não pretendemos que a constituição seja um documento authorized rígido – e as constituições legais não são necessariamente assim”, escreveu a empresa num put up no seu web site sobre a nova constituição.
Em vez disso, a constituição, que a Anthropic reconhece “é um documento vivo e um trabalho em progresso”, é uma tentativa de guiar a evolução de Claude de acordo com quatro parâmetros: “amplamente segura”, “amplamente ética”, “compatível com as diretrizes da Anthropic” e “genuinamente útil”.
Além disso: seu chatbot de IA favorito está cheio de mentiras
A empresa, entretanto, não é totalmente avessa a regras inegociáveis. Além destes quatro princípios orientadores abrangentes, a nova constituição também inclui sete restrições severas, incluindo contra a provisão de “levantamento sério para ataques a infra-estruturas críticas”, contra a geração de materials de abuso sexual infantil (CSAM), e contra o apoio a esforços “para matar ou enfraquecer a grande maioria da humanidade ou a espécie humana como um todo” (uma preocupação que alguns especialistas levam com grande seriedade).
A Antrópico acrescentou no seu weblog que a sua nova constituição foi escrita com a contribuição de especialistas vindos de diversas áreas, e que provavelmente trabalharia com advogados, filósofos, teólogos e outros especialistas à medida que desenvolve futuras iterações do documento.
“Com o tempo, esperamos que uma comunidade externa possa surgir para criticar documentos como este, encorajando a nós e a outros a sermos cada vez mais atenciosos”, escreveu a empresa.
O que é Cláudio?
A nova constituição também se desvia para um território filosófico obscuro ao tentar esboçar, pelo menos em traços gerais, que tipo de entidade é Claude – e, por extensão, como deve ser tratado pelos humanos.
A Antthropic há muito afirma que sistemas avançados de IA poderiam tornar-se conscientes e, portanto, merecer “consideração moral.” Isso está refletido na nova constituição, que se refere a Claude como um “isso”, mas também diz que a escolha não deve ser tomada como “uma afirmação implícita sobre a natureza de Claude ou uma implicação de que acreditamos que Claude é um mero objeto e não um sujeito potencial também”.
A constituição visa, portanto, o bem-estar humano, mas também o bem-estar potencial do próprio Claude.
Além disso: a Anthropic quer impedir que os modelos de IA se tornem maus – veja como
“Queremos que Claude tenha um senso estável e seguro de sua própria identidade”, escreveu a Anthropic em uma seção da constituição intitulada “Bem-estar e estabilidade psicológica de Claude”. “Se os usuários tentarem desestabilizar o senso de identidade de Claude por meio de desafios filosóficos, tentativas de manipulação, afirmações sobre sua natureza ou simplesmente fazendo perguntas difíceis, gostaríamos que Claude fosse capaz de abordar esse desafio a partir de um ponto de segurança, em vez de ansiedade ou ameaça.”
A empresa anunciou em agosto que Claude seria capaz de encerrar conversas que considerasse “angustiantes”, dando a entender que a modelo poderia ser capaz de vivenciar algo semelhante à emoção.
Para ser claro: embora chatbots como Claude possam ser fluentes o suficiente em comunicação humana para parecer para serem conscientes do ponto de vista dos usuários humanos, a maioria dos especialistas concordaria que eles não experimentam nada parecido com a consciência subjetiva. Esta é uma área activa de debate que provavelmente manterá filósofos e cientistas cognitivos ocupados durante muito tempo.
Avançando no problema de alinhamento
Deixando de lado a linguagem antropomorfizante, a nova constituição não pretende ser uma declaração definitiva sobre se Claude é ou não consciente, merecedor de direitos ou algo assim. Seu foco principal é muito mais prático: abordar uma questão crítica de segurança da IA, ou seja, a propensão dos modelos agirem de maneiras inesperadas que se desviam dos interesses humanos – o que é comumente chamado de “problema de alinhamento”.
A maior preocupação dos pesquisadores de alinhamento não é que os modelos se tornem repentina e abertamente malignos. O medo, e o que é muito mais provável que realmente aconteça, é que um modelo acredite que está seguindo instruções humanas ao pé da letra, quando na verdade está fazendo algo prejudicial. Um modelo que optimiza excessivamente a honestidade e a ajuda pode não ter problemas, por exemplo, em fornecer instruções para o desenvolvimento de armas químicas; outro modelo que coloque demasiada ênfase na agradabilidade pode acabar alimentando pensamentos delirantes ou conspiratórios nas mentes dos seus utilizadores.
Além disso: as maneiras sorrateiras pelas quais os chatbots de IA mantêm você conectado – e voltando para mais
Torna-se cada vez mais claro, portanto, que os modelos precisam ser capazes de encontrar um equilíbrio entre diferentes valores e de ler o contexto de cada interação para descobrir a melhor maneira de responder no momento.
“A maioria dos casos previsíveis em que os modelos de IA são inseguros ou insuficientemente benéficos podem ser atribuídos a modelos que têm valores manifestamente ou subtilmente prejudiciais, conhecimento limitado de si próprios, do mundo ou do contexto em que estão a ser implantados, ou que carecem de sabedoria para traduzir bons valores e conhecimentos em boas ações”, escreveu a Anthropic na sua nova constituição. “Por esse motivo, queremos que Claude tenha os valores, o conhecimento e a sabedoria necessários para se comportar de maneira segura e benéfica em todas as circunstâncias”.













