Descobrindo como aprimorar a avaliação utilizando IA

fundo laranja com elementos de pesquisa

A IA pode nos ajudar a melhorar a avaliação? Ela pode nos dar uma compreensão mais clara do que os estudantes sabem e são capazes de fazer? 

A avaliação em sala de aula geralmente ocorre de duas formas: as geradas pelo professor, voltadas para o próprio docente e para o aluno, e as avaliações em larga escala, onde os estudantes realizam o mesmo exame que outros colegas da escola, rede, estado e/ou país, com resultados amplamente compartilhados.

No geral, essas avaliações em larga escala têm sido limitadas quanto aos tipos de perguntas, em parte porque as respostas são corrigidas automaticamente. 

Como resultado, muitos sentem que as avaliações em larga escala não são capazes de medir as habilidades e conhecimentos que os alunos realmente possuem ou que são importantes.

A IA Generativa abre novos caminhos para desenhar avaliações que reflitam melhor o que realmente queremos que os estudantes aprendam e façam. Há duas áreas específicas em que a IA generativa pode ajudar: novos tipos de atividades avaliativas e novos modelos de correção.

Explorando um novo tipo de atividade avaliativa

Desde janeiro passado, estamos testando nos Estados Unidos uma funcionalidade chamada ‘Explique seu Raciocínio’ com algumas escolas selecionadas. Esse recurso foi criado para simular as conversas que os professores têm com os alunos sobre suas tarefas. 

Eles podem sentar-se com um estudante e dizer coisas como: ‘Me diz por que você seguiu para este próximo passo’ ou ‘O que essa resposta revela sobre o problema?’.

De forma semelhante, o nosso ‘Explique seu Raciocínio’ pede que os alunos primeiro respondam a uma questão tradicional e, em seguida, iniciem uma conversa com a IA sobre sua resposta. Por trás das câmeras, utilizamos comandos (prompts) para guiar a IA a fazer perguntas que alcancem ideias conceituais específicas.

A IA generativa abre novos caminhos para desenhar avaliações que reflitam melhor o que realmente queremos que os estudantes aprendam e façam.

Em nossa pesquisa, analisamos tanto se a conversa fornecia novas informações quanto se a IA generativa era capaz de pontuar esses diálogos com precisão. Analisamos 220 conversas de álgebra e 296 de geometria.

Investigamos se a conversa revelava mais sobre a compreensão dos alunos do que as suas respostas iniciais. Em outras palavras: conseguimos entender melhor o que o estudante sabe por meio de uma conversa do que conseguiríamos apenas com uma única resposta aberta?

Cerca de 20% dos alunos nos itens de álgebra e 36% no de geometria não demonstraram compreensão inicialmente, mas o fizeram ao final da conversa com a IA. Esse é um número substancial de estudantes que demonstraram maior entendimento em um ambiente conversacional.

Estamos entusiasmados com esses resultados preliminares e ansiosos para explorar ainda mais como questionar os alunos sobre seu raciocínio os leva a revelar mais sobre sua compreensão.

Cada conversa possui critérios que podem ser pontuados como corretos ou incorretos. Desenvolvemos um corretor de IA para julgar, a cada interação, se os critérios foram atingidos e, ao final, atribuir uma nota à conversa.

O corretor de IA demonstrou um excelente alinhamento com avaliadores humanos, tanto no nível de cada fala quanto no da conversa completa. Você pode ler mais sobre este trabalho no artigo Measuring Student Understanding via Multi-Turn AI Conversations (em inglês), liderado pela psicometrista sênior Jing Chen.

Naturalmente, para que o recurso ‘Explique seu Raciocínio’ funcione em um cenário de avaliação, a IA não pode revelar a resposta nem dar dicas durante o diálogo. Sabemos que muitos modelos de IA tendem a ser ‘prestativos’, por isso testamos novas formas de garantir que ela não forneça ajuda aos estudantes.

Uma das estratégias é um sistema de ‘autocrítica’, onde a IA analisa sua própria resposta antes que ela seja exibida ao aluno. Para testar essa ideia, selecionamos 176 conversas (em um grupo de 597 casos de teste) onde era muito provável que a IA tentasse dar uma dica.

Ao compararmos as versões com e sem a autocrítica, a taxa de dicas inadequadas caiu drasticamente de 65,9% para 6,1%. Vale ressaltar que esta não é uma amostra aleatória, mas sim de casos propensos a erros; logo, na prática, a incidência de dicas seria ainda menor que 6%.

Detalhes extras estão no artigo Beyond the Hint (em inglês), escrito pelos engenheiros de prompt Tyler Burleigh e Jenny Han.

Explorando um novo tipo de pontuação

Para criar essas avaliações conversacionais, precisamos escrever tanto os comandos (prompts) dos itens quanto os critérios pelos quais eles serão pontuados.

Depois, precisamos testá-los e, caso não sejam confiáveis, revisá-los e testar novamente. Se tivéssemos que testar cada item com alunos reais, você poderia imaginar que esse processo levaria meses a anos para criar uma única avaliação.

Para reduzir esse tempo e garantir que só testaremos com estudantes quando tivermos bons itens, experimentamos um sistema que utiliza IA para gerar 150 respostas sintéticas para um item, permitindo que ele seja testado e revisado antes do piloto.

Com essa ferramenta, podemos realizar muitas interações e, principalmente, garantir que os critérios de correção resultem em pontuações confiáveis.

Desenvolvemos 17 itens com a ferramenta, que resultaram coletivamente em 68 ciclos de iteração. Antes da iteração, apenas 59% dos itens podiam ser pontuados de forma confiável; com a ferramenta, todos os 17 atenderam aos critérios de confiabilidade, e isso foi alcançado em dias, não anos.

Leia mais sobre a ferramenta no artigo Pre-Pilot Optimization of Conversation-Based Assessment Items Using Synthetic Response Data (em inglês), de autoria do engenheiro de prompt sênior Tyler Burleigh e da psicometrista sênior Jing Chen.

Se decidirmos usar a IA generativa para a correção de provas, há uma SÉRIE de considerações a serem feitas. Elaboramos uma estrutura com todos os pontos que precisamos analisar: Propósito da Medição, Design do Sistema, Seleção do Modelo, Desenvolvimento dos Itens, Testes Piloto e em Tempo Real, e Mitigação de Riscos.

Você pode ler mais sobre isso no artigo A Framework for Live Scoring Constructed Response Items with Commercial LLMs (em inglês), de autoria do psicometrista sênior Scott Frohn, da diretora de avaliações Lauren Deters e do engenheiro de prompt sênior Tyler Burleigh

Caso optemos por utilizar a IA generativa para a pontuação, há muitos fatores a considerar antes de prosseguirmos.

Estamos ansiosos para continuar conduzindo pesquisas rigorosas sobre as possibilidades da IA generativa para aprimorar a avaliação e nos fornecer uma visão mais rica do que os estudantes sabem e são capazes de fazer.