Uso do BERT na Expansão de Consultas e Documentos para Busca e Recuperação de Informação
Autores
7183 |
3150,299
|
|
7184 |
3150,299
|
Informações:
Publicações do PESC
Métodos de Expansão de Consultas e Expansão de Documentos são utilizados para obter melhores resultados em modelos de Busca e Recuperação de Informação. Foram utilizados os discos 1 e 2 do dataset TREC, totalizando 741853 documentos, com as consultas 51-100 como conjunto de desenvolvimento e as consultas 101-200 como conjunto de testes para avaliação dos métodos de expansão.
Foram exploradas as etapas de Pré-processamento, Indexação, Expansão de Consultas e Expansão de Documentos, utilizando as funções de expansão RM3-IDF (ROY et al., 2019) e expandindo os documentos do dataset utilizando a biblioteca OpenNMT com o método Doc2Query (NOGUEIRA et al., 2019), adicionando consultas ao final de cada documento para expandi-lo. E então, o BERT foi utilizado para re-rank dos documentos retornados nas etapas de expansão (NOGUEIRA e CHO, 2019). Os melhores resultados nos experimentos foram utilizando a Expansão de Consultas RM3+3 + BM25 + Re-Rank com o BERT LARGE, considerando P@10 e NDCG e mantendo o RECALL por utilizar a mesma lista e reordenar.
Query Expansion and Document Expansion methods are used to obtain better results in Information Retrieval models. Disks 1 and 2 of the TREC dataset were used, totaling 741853 documents, with queries 51-100 as the development set and queries 101-200 as a test set to evaluate the expansion methods.
The steps of Pre-processing, Indexing, Query Expansion and Document Expansion were explored, using the RM3-IDF expansion functions (ROY et al., 2019) and expanding the dataset documents using the OpenNMT library with the Doc2Query method (NOGUEIRA et al., 2019), adding queries at the end of each document to expand it. And then, BERT was used to re-rank the documents returned in the expansion steps (NOGUEIRA e CHO, 2019). The best results in the experiments were using the Query Expansion RM3+3 + BM25 + Re-Rank with BERT LARGE, considering P@10 and NDCG and keeping RECALL by using the same list and reordering.