Por que estamos empenhados em melhorar o Khanmigo na tutoria de matemática? (e o que temos feito ultimamente)

fundo amarelo com elementos de matemática e o marcote do Khanmigo lindo um livro de capa laranja

Muitos alunos enfrentam dificuldades com matemática. Nos EUA, por exemplo, apenas 36% dos estudantes da quarta série são proficientes na disciplina; entretanto, na oitava série, esse número cai para 26%.

Por outro lado, no Brasil, a situação é ainda mais preocupante, pois estamos abaixo da média internacional. Para se ter uma ideia, 51% dos alunos do 4º ano tiveram um desempenho inferior ao nível baixo em matemática. Além disso, no oitavo ano, esse percentual aumenta para 62%.

Como resultado, muitas crianças acabam se sentindo perdidas com frações, inseguras com números inteiros e confusas com cálculos. Dessa forma, a matemática pode se tornar um obstáculo para a realização de seus sonhos.

Foi por isso que apresentamos o Khanmigo, nosso tutor piloto de IA e assistente de ensino, no ano passado. Quando a IA é cuidadosamente adaptada para a sala de aula, ela tem um enorme potencial

O Khanmigo pode guiar os alunos enquanto aprendem e fazer perguntas, como um tutor faria.

Após o primeio ano de piloto do Khanmigo

“Quando a IA é cuidadosamente adaptada para a sala de aula, ela tem um enorme potencial.”

À medida que chegamos ao fim do nosso primeiro ano letivo completo do piloto, ficamos entusiasmados com a capacidade do Khanmigo de ensinar matemática (e muitos outros componentes curriculares!). 

O Khanmigo ocasionalmente comete erros, o que já esperávamos. (Você pode ler mais sobre erros de matemática em nosso blogpost do ano passado, em inglês).

Mesmo os tutores humanos cometem erros às vezes. Independentemente disso, estamos comprometidos a tornar o Khanmigo melhor.

Mas a ferramenta ser boa em matemática é apenas uma parte do desafio. A outra parte é garantir que o Khanmigo avalie o trabalho do aluno corretamente. 

O Khanmigo consegue seguir os passos do aluno?  Às vezes, o Khanmigo comete erros ao avaliar se um aluno está certo ou errado, mesmo quando calcula a matemática corretamente.

Mas acertar a matemática é apenas uma parte do desafio.”

Melhorias feitas no Khanmigo

fundo roxo escuro com um notebook aberto em cima de alguns livros
Veja as melhorias e atualizações que estamos fazendo no Khanmigo

Esse é um problema complexo que nosso campo enfrenta. Para resolvê-lo, aqui estão algumas das melhorias recentes feitas pela nossa equipe de engenheiros, pesquisadores e ex-professores:

  • O Khanmigo agora usa uma calculadora para resolver problemas numéricos, em vez de usar as capacidades preditivas da IA. Se você tem usado o Khanmigo recentemente, pode ter visto que ele às vezes diz que está “fazendo matemática”. Isso acontece quando o problema de matemática é executado na calculadora nos bastidores.
  • Atualizamos partes do Khanmigo para um modelo de linguagem mais capaz, que é o software que gera a linguagem humana. O modelo de linguagem mais potente é o GPT-4 Turbo. Nossos testes internos mostram uma melhoria na matemática depois que fizemos a troca.
  • Estamos começando a testar as capacidades de um novo modelo de linguagem grande chamado GPT-4o, e também estamos avaliando outros modelos para ver se eles são mais fortes em matemática.
  • Melhoramos a forma como a IA “pensa” durante uma interação de tutoria antes de responder ao aluno. Instruímos a IA a escrever todas as maneiras pelas quais o aluno pode ter chegado à sua resposta. Essa abordagem imita como um tutor real trabalha com um aluno. Descobrimos que isso melhora significativamente a qualidade das interações matemáticas.
  • Criamos novas ferramentas para monitorar nosso progresso na matemática.
  • Estamos compartilhando exemplos e aprendizados de matemática com outras pessoas da nossa área para que possamos aprender uns com os outros.
  • Estamos estudando os últimos artigos de pesquisa sobre desempenho em matemática. 

Conclusão

Além disso, montamos um conjunto de exemplos de tutoria de matemática para avaliar novos modelos de IA e novas correções. 

Isso nos permite rodar cada nova correção por meio do nosso conjunto de exemplos para avaliar seu desempenho e evitar a reintrodução de problemas antigos quando corrigimos um novo problema (o que é uma ocorrência comum na engenharia de software).

“À medida que chegamos ao fim do nosso primeiro ano letivo completo do piloto, estamos entusiasmados com a capacidade do Khanmigo de dar aulas de matemática (e de muitas outras disciplinas!).”

Ainda há trabalho a ser feito? Com certeza.

Não será fácil, mas estamos motivados a enfrentar esse problema por uma razão muito importante. Pense em todas as crianças cujos sonhos poderiam ser alcançados se pudessem superar expoentes ou conquistar cálculos.

Avante!