CDD004 Information Retrieval

Ementa

Introdução à recuperação da informação. Indexação e pré-processamento. Modelagem em recuperação da informação: modelos booleano, vetorial e probabilístico. Avaliação da recuperação.
Ofertado em: [2021-1] [2021-2] [2022-1]

Conteúdo Programático
  1. Introdução à recuperação da informação: Tipos de sistemas de RI. Modelos de interação em RI. Visão geral de recuperação da informação. Recuperação da informação na Web.
  2. Indexação e pré-processamento: Termos de indexação e vocabulário. Representação de documentos: matriz de termos e índice invertido. Visão lógica dos documentos. Pré-processamento de texto.
  3. Modelagem em recuperação da informação: Modelagem e ranqueamento. Modelo booleano. Ponderação de termos. Ponderação TF-IDF. Normalização pelo tamanho dos documentos. Modelo vetorial. Modelo probabilístico. Modelo BM25.
  4. Avaliação da recuperação: Métricas de recuperação: precisão e revocação. Métrricas de avaliação: média das precisões médias, curva de precisão vs. revocação, precisão interpolada, F-score.
Bibliografia
  • Baeza-Yates, R.; Ribeiro-Neto, B. Modern Information Retrieval: The Concepts and Technology behind Search. 2a ed. Pearson, 2011.
  • Elmasri, R.; Navathe, S. B. Fundamentals of Database Systemas. 7a ed. São Paulo: Pearson, 2016.
tecnicas_de_recuperacao_da_informacao.pdf1.2 MB
a00_apresentacao_da_disciplina.pdf1.82 MB
a01_introducao_a_recuperacao_da_informacao.pdf20.58 MB
a02_indexacao_e_pre-processamento.pdf5.65 MB
a03_modelagem_em_ri.pdf1.13 MB
a04_avaliacao_da_recuperacao.pdf756 KB
e01_programacao_em_python.pdf1.09 MB