Experimento da TV pública francesa revela contradição entre avaliação humana e inteligência artificial
No último dia 16 de junho, durante o exame nacional de filosofia do ensino médio francês — o Abitur — a emissora France 3 decidiu conduzir um experimento inusitado: colocou o ChatGPT à prova. O objetivo? Avaliar a capacidade da IA em produzir uma dissertação digna de um bom desempenho no exame. O resultado revelou um interessante contraste de percepções.
O experimento
A filial regional da emissora, France 3 Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação de filosofia com base nos parâmetros reais do exame. A proposta pedia que a IA se colocasse no papel de um aluno do último ano do ensino médio, construindo o texto com os códigos esperados: introdução, desenvolvimento, conclusão, referências filosóficas pertinentes e boa articulação dos argumentos.
Avaliação humana x julgamento das IAs
O texto produzido foi submetido à avaliação de uma professora experiente de filosofia, que sabia de antemão que se tratava de uma produção artificial. Mesmo assim, analisou o conteúdo com o mesmo rigor com que corrige qualquer redação do exame.
- Nota atribuída pela professora: 8 de 20 pontos
- Notas dadas por ferramentas de IA avaliadoras: entre 15 e 19,5 de 20 pontos
A discrepância entre as avaliações foi notável. Segundo a professora, a nota modesta se justifica por falhas importantes na abordagem inicial da questão, além de incoerências no desenvolvimento do raciocínio filosófico. Já os sistemas automatizados atribuíram notas significativamente mais generosas, sugerindo uma avaliação mais superficial e focada em aspectos formais.
Onde a IA tropeçou
O erro mais gritante identificado pela professora foi logo no início do texto: uma interpretação equivocada da pergunta norteadora da dissertação. Embora o texto seguisse uma estrutura clara e apresentasse referências acadêmicas, a fundamentação das ideias carecia de profundidade filosófica — algo que, para uma correção humana criteriosa, tem peso decisivo.
Reflexões maiores
Este pequeno experimento expõe um dilema cada vez mais relevante no universo da educação: até que ponto as inteligências artificiais podem (ou devem) ser utilizadas na produção de trabalhos escolares e na avaliação de conteúdos?
A análise demonstra que, embora as ferramentas de IA sejam úteis para gerar textos bem estruturados, ainda não substituem o olhar crítico humano — principalmente em disciplinas que exigem argumentação, reflexão ética e profundidade conceitual.