Desempenho e Economicidade de Modelos de Linguagem para Classificação de Toxicidade em Jogos
Authors:
Autores
Person role | Person | |
---|---|---|
7464 |
299,3236
|
|
7463 |
299,3236
|
Informations:
Pesc publication
A toxicidade em jogos online é praticamente onipresente atualmente, com aproximadamente 86% dos jogadores adultos tendo experienciado alguma forma de assédio em 2022. Diante desses desafios, 91% dos desenvolvedores de jogos veem a toxicidade como um problema crítico. O surgimento dos Grandes Modelos de Linguagem (LLMs), apresenta uma oportunidade para aprimorar a detecção e a classificação de toxicidade, dado suas sofisticadas capacidades de compreensão da linguagem natural.
Esta pesquisa investiga o uso de LLMs para classificação de toxicidade no contexto de um desenvolvedor de jogos, que enfrenta uma significativa toxicidade entre seus jogadores. Foi definida uma metodologia abrangente para selecionar LLMs adequados, desenvolvendo dezesseis prompts para análise em dez LLMs. Análises de desempenho, custo e impacto no negócio identificaram os modelos Llama-3-8B-Instruct e GPT-4o como os de melhor desempenho. Um modelo proposto de impacto no negócio destacou a sensibilidade da receita a classificações incorretas do modelo, enfatizando a importância das métricas de desempenho. O modelo final selecionado, Llama-3-8B-Instruct, foi avaliado para uso prático, mostrando competência em conversas claramente tóxicas, mas dificuldade em contextos mais sutis.
The toxicity in online games is nearly ubiquitous today, with approximately 86% of adult gamers experiencing some form of harassment in 2022. Given these challenges, 91% of game developers view toxicity as a critical issue. The emergence of Large Language Models (LLMs) presents an opportunity to enhance the detection and classification of toxicity due to their sophisticated natural language understanding capabilities.
This research investigates the use of LLMs for toxicity classification in the context of a game developer facing significant toxicity among its players. A comprehensive methodology was defined to select suitable LLMs, developing sixteen prompts for analysis across ten LLMs. Performance, cost, and business impact analyses identified the Llama-3-8B-Instruct and GPT-4o models as top performers. A proposed business impact model highlighted the sensitivity of income to incorrect model classifications, emphasizing the importance of performance metrics. The final selected model, Llama-3-8B-Instruct, was evaluated for practical use, showing competence in clearly toxic conversations but difficulty in more nuanced contexts.