Pesquisadores da NYU Tandon School of Engineering resolveram testar se a inteligência artificial (IA) consegue combinar habilidades humanas para achar conexões obscuras entre palavras. Para tanto, eles recorreram ao quebra-cabeça diário "Connections", do The New York Times.
O "Connections" dá a chance aos jogadores de agrupar 16 palavras em quatro conjuntos de quatro tematicamente vinculados, progredindo a partir de grupos "simples", normalmente conectados por meio de definições diretas, até grupos "complicados", que refletem associações abstratas de palavras que precisam de pensamento não-convencional.
Leia mais:
Os resultados apontaram que, apesar de todos os sistemas de IA testados terem conseguido resolver parte dos quebra-cabeças apresentados pelo "Connections", no geral, era uma tarefa desafiadora.
O GPT-4 resolveu por volta de 29% do total, bem melhor que os demais métodos e seu "irmão", o GPT-3.5, mas distante de dominar o jogo. Os modelos refletiram o desempenho humano ao encontrar níveis de dificuldade alinhados com a categorização do quebra-cabeça, de "simples", a "complicado".
Os LLMs estão se tornando cada vez mais difundidos e investigar onde eles falham no contexto do quebra-cabeça do 'Connections' pode revelar limitações na forma como eles processam informações semânticas.
Graham Todd, estudante Ph.D. do Game Innovation Lab e principal autor do estudo
Foi descoberto que solicitar explicitamente ao GPT-4 que raciocinasse o jogo passo-a-passo melhorou muito o desempenho da IA para pouco mais de 39% do total de quebra-cabeças testados.
Nossa pesquisa confirma trabalhos anteriores que mostram que esse tipo de estímulo de 'cadeia de pensamento' pode fazer os modelos de linguagem pensarem de maneiras mais estruturadas. Pedir aos modelos de linguagem que raciocinem sobre as tarefas que estão realizando os ajuda a ter melhor desempenho.
Timothy Merino, estudante Ph.D. do Game Innovation Lab e um dos autores do estudo
Mas não é só as capacidades da IA que estão em jogo no estudo. Os autores também querem saber se modelos, como o GPT-4, podem nos auxiliar na geração de novos quebra-cabeças de palavras do zero.
Esta tarefa que poderia ampliar limites de como os sistemas de aprendizado de máquina (machine learning) representam conceitos e fazem inferências contextuais, explica o TechXplore.
Para o teste, os pesquisadores usaram dados de 250 quebra-cabeças de um arquivo online, que foram liberados ao público diariamente entre 12 de junho de 2023 a 16 de fevereiro de 2024.
Além de Togelius, Todd e Merino, também fez parte da equipe de pesquisa Sam Earle, aluno Ph.D. do Game Innovation Lab. O estudo auxilia o trabalho de Togelius, que utiliza IA para melhorar jogos e vice-versa. Togelius é autor do livro "Playing Smart: On Games, Intelligence, and Artificial Intelligence" ("Jogando Inteligente: Nos Jogos, Inteligência e Inteligência Artificial", em tradução livre), de 2019.