Skip to main content

ChatGPT foi lançado em sua versão beta em 30 de novembro de 2022 e, desde então, tem despertado discussões significativas na mídia, nas casas legislativas e no público em geral. O modelo de linguagem, no entanto, apresenta um problema antigo que a IA (Inteligência Artificial) ainda não conseguiu resolver: a criação de respostas que soam muito bem, mas que são inconsistentes diante da lógica e da realidade, conhecidas como alucinações – a “GPT hallucination”.

Ao longo do seu desenvolvimento, os modelos de linguagem generativos são alimentados com um conjunto de dados (data set) que envolve bilhões de palavras, a partir de milhões de computadores. Dependendo do input recebido, surge o risco de a aprendizagem da máquina ocorrer a partir de informações enviesadas ou falsas.

Quando questionamos o ChatGPT sobre os data sets que serviram de base para o seu treinamento, ele nos informou ter utilizado o WebText (conjunto com mais de 8 milhões de documentos coletados da web), o BookCorpus (dados com mais de 11 milhões de frases extraídas de mais de 11 mil livros), a Wikipedia (um conjunto de dados com mais de 2 milhões de artigos, lembrando que este acervo é desenvolvido a partir da atuação colaborativa dos próprios usuários) e o Common Crawl (mais de 45 terabytes de textos coletados da web).

Este último acervo, em particular, é composto por textos coletados aleatoriamente, sem qualquer tipo de filtro específico. Contudo, de acordo com o próprio ChatGPT, durante o pré-processamento de dados, foram aplicados filtros para remover conteúdos ofensivos e spam. A filtragem de conteúdo ofensivo funcionou bem: a interface amigável da ferramenta é notável, e muitos (como nós) já se surpreenderam tratando o Chat como se estivessem conversando com um ser humano. No entanto, informações imprecisas, mas que não sejam ofensivas, podem permanecer e permanecem, razão por que o site do próprio ChatGPT adverte: “O ChatGPT às vezes escreve respostas que parecem plausíveis, mas são incorretas ou sem sentido.”

O fato é que em decorrência da dificuldade em apurar a autenticidade de informações contidas nas bases coletadas, o ChatGPT pode criar respostas que não têm nenhuma conexão com a realidade, mas que parecem coerentes e convincentes porque a ferramenta foi muito bem treinada não só em gramática, mas também em sintaxe. Ethan Mollick, professor da Wharton School of Business, compara a IA a um “estagiário infinito” que “mente um pouco” e, às vezes, quer deixar seus chefes “um pouco felizes”.

Recentemente, o renomado sociólogo Roberto DaMatta perguntou ao ChatGPT sobre si mesmo e foi surpreendido pela resposta que afirmou, “com toda segurança”, que “Roberto DaMatta faleceu em junho de 2021, aos 84 anos, em decorrência de complicações causadas por uma pneumonia”. Trata-se, no caso, de afirmação completamente falsa. E esse tipo de coisa acontece porque o modelo aprendeu a imitar padrões de texto que foram alimentados durante o treinamento, e não porque ele de fato entende o que está escrevendo. Vem daí a expressão “papagaio estocástico”, termo cunhado por Emily M. Bender, referindo-se a “grandes modelos de linguagem que são impressionantes em sua capacidade de gerar linguagem realista, mas que, no final das contas, não compreendem verdadeiramente o significado da linguagem que estão processando.”

São inegáveis os ganhos de produtividade e eficiência decorrentes do uso dessas tecnologias, mas o fenômeno das alucinações apresenta um risco associado à propagação de informações falsas e de desinformação, elevando a exigência de senso crítico nos usuários. Como o modelo é capaz de gerar textos muito convincentes, confiar nessas informações e transmiti-las como se fossem verdadeiras pode causar danos individuais e coletivos.

Consideremos a notícia recente do advogado norteamericano que, representando cliente contra uma companhia aérea, usou o ChatGPT para pesquisa de precedentes e terminou levando ao juízo petição em que vários casos inexistentes foram citados. Em sua defesa, o advogado justificou-se dizendo que usou a IA em sua pesquisa jurídica – “uma fonte que se mostrou não confiável”.

O aguardado desfecho do caso resultou na imposição de multa ao advogado, equivalente a US$ 5.000, junto com a observação do juiz Kevin Castel de que “as regras existentes impõem um papel de controle aos advogados para garantir a precisão em suas petições”. Desfecho semelhante foi visto em abril deste ano no Brasil, quando o TSE aplicou multa por litigância de má-fé a um advogado que ajuizou petição despropositada e inadequada, baseada em conversa com o ChatGPT.

Por essas e outras, quem quer que entre em um relacionamento sério com o ChatGPT deve estar alerta à possibilidade das alucinações, avaliando criticamente as informações que recebe. Preferencialmente, deve-se fazer dupla verificação em fontes autênticas sempre que os dados obtidos venham a compor entregas relevantes executadas pelos usuários. De outra sorte seremos traídos não pelo ChatGPT, mas por nós mesmos, afinal, a responsabilidade pelas nossas entregas é pessoal e não há robô ou algoritmos que nos salvem da nossa própria IA – ignorância autêntica.

Matéria publicada no Jota: https://www.jota.info/opiniao-e-analise/colunas/regulando-a-inovacao/alucinacoes-do-chatgpt-18072023.