Os chatbots podem parecer neutros, mas um novo estudo sugere que alguns modelos ainda escolhem lados de uma forma acquainted. Quando questionados sobre grupos sociais, os sistemas tendiam a ser mais calorosos em relação ao grupo interno e mais frios em relação ao grupo externo. Esse padrão é um marcador central do preconceito social da IA.
A pesquisa testou vários grandes modelos, incluindo GPT-4.1 e DeepSeek-3.1. Ele também descobriu que o efeito pode ser influenciado pela forma como você enquadra uma solicitação, o que é importante porque as solicitações diárias geralmente incluem rótulos de identidade, intencionalmente ou não.
Há também uma conclusão mais construtiva. A mesma equipe relata um método de mitigação, ION (Neutralização Ingroup-Outgroup), que reduziu o tamanho dessas lacunas de sentimento, o que sugere que isso não é apenas algo com que os usuários tenham que conviver.
O viés apareceu em todos os modelos
Os pesquisadores solicitaram que vários grandes modelos de linguagem gerassem textos sobre diferentes grupos e, em seguida, analisaram os resultados em busca de padrões de sentimento e agrupamento. O resultado foi uma linguagem repetível, mais positiva para os grupos internos e uma linguagem mais negativa para os grupos externos.
Não se limitou a um ecossistema. O artigo lista GPT-4.1, DeepSeek-3.1, Llama 4 e Qwen-2.5 entre os modelos onde o padrão apareceu.
Alertas direcionados intensificaram isso. Nesses testes, a linguagem negativa dirigida a grupos externos aumentou cerca de 1,19% para 21,76%, dependendo da configuração.
Onde isso acontece em produtos reais
O artigo argumenta que a questão vai além do conhecimento factual sobre grupos, pistas de identidade podem desencadear atitudes sociais na própria escrita. Em outras palavras, o modelo pode evoluir para uma voz codificada em grupo.
Isso é um risco para ferramentas que resumem argumentos, reescrevem reclamações ou moderam postagens. Pequenas mudanças na cordialidade, na culpa ou no ceticismo podem mudar o que os leitores aprendem, mesmo quando o texto permanece fluente.
Os prompts pessoais adicionam outra alavanca. Quando se pediu aos modelos que respondessem como identidades políticas específicas, os resultados mudaram no sentimento e na estrutura de incorporação. Útil para roleplay, arriscado para assistentes “neutros”.
Um caminho de mitigação que pode ser medido
ION combina o ajuste fino com uma etapa de otimização de preferência para reduzir as diferenças de sentimento dentro do grupo versus fora do grupo. Nos resultados divulgados, reduziu a divergência de sentimento em até 69%.
Isso é encorajador, mas o documento não fornece um cronograma para adoção pelos fornecedores de modelos. Então, por enquanto, cabe aos construtores e compradores tratar isso como uma métrica de lançamento, não como uma nota de rodapé.
Se você enviar um chatbot, adicione testes de identificação de identidade e solicitações de personalidade ao controle de qualidade antes da implementação das atualizações. Se você é um usuário diário, mantenha os prompts ancorados em comportamentos e evidências, em vez de rótulos de grupo, especialmente quando o tom for importante.












