Autores

7191
3151,299
7192
3151,299

Informações:

Publicações do PESC

Título
Uma Abordagem para Extração de Relações Entre Entidades NOmeadas Utilizando Autoencoder e Grradient Boosting
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
6/9/2022
Resumo

O avanço da tecnologia, dos sistemas digitais e das comunicações tem levado a uma geração contínua de grandes quantidades de dados, em sua maioria textos não estruturados, tornando inviável processá-los e analisá-los manualmente. A necessidade de ferramentas para extrair informações de forma automática de dados semiestruturados ou não estruturados deu origem ao campo da Extração de Informação (EI). A EI possui diversas sub-tarefas, e uma delas é a extração de relações (ER). ER visa identificar relações semânticas entre entidades nomeadas que foram previamente identificadas em textos por meio da tarefa reconhecimento de entidades nomeadas (REN). A tarefa de extração de relações é usada principalmente como base para criação de soluções para sistemas de perguntas e respostas, vinculação textual e busca semântica. A solução proposta é composta por algumas etapas que podem ser definidas como a criação de embeddings para representação das entidades nomeadas no espaço vetorial, o processo de geração de embeddings para relações entre os pares de entidades nomeadas por meio de um autoencoder e, por fim, o processo de treinamento do modelo de classificação binário, baseado na técnica de gradient boosting trees, que tem como objetivo identificar se há ou não relação entre os pares de entidades nomeadas. A solução proposta foi avaliada em dois conjuntos de dados nos idiomas português e inglês, e então foi comparada com um framework de referência na literatura, o OpenNRE. Em comparação com o OpenNRE, os resultados mostraram que a proposta obteve um valor de F1 8.1% para o português e 16.7% para o idioma inglês.

Abstract

The advance of technology, digital systems and communications has led to a continuous generation of massive amounts of data, mostly unstructured text, becoming infeasible to process and analyze them manually. The need for tools to automatically extract information from semistructured or uninstructed data gave rise to the field of Information Extraction (IE). IE has many sub-tasks, and one of them, among many others, is the Relation Extraction (RE). RE is the task of automatically extracting semantic relationships between named entities that were previously recognized in texts by means of the Named Entity Recognition (NER) task. The RE task is mainly used as a base for Question Answering (QA), Textual Entailment (TE) systems and Semantic Search. The solution proposed for the RE task is based on supervised learning and is composed by three steps. In the first step, embeddings are generated for each entity annotated in the data-set. In the second step, an auto-encoder is used to generate relation embeddings from each pair of entities that have a semantic relationship in the data-set. Finally, the embeddings generated in the first and second steps are then combined as features to build a classification model based on gradient boosting trees technique. The proposed solution was evaluated on two data-sets from different languages, Portuguese and English, and then compared to one of the benchmark solutions available in the literature, the OpenNRE. Compared to OpenNRE, the results showed that the proposal achieved an 8.1% higher F1 score for the Portuguese language and 16.7% higher F1 score for the English language.

Arquivo
Topo