Resumo: avaliação de embeddings para sentenças


(Christian S. Perone) #1

Para quem estiver interessado, recentemente publicamos um artigo comparando alguns métodos de embeddings para sentenças, incluindo word2vec, GloVe, ELMo, Google Universal Sentence Encoder, InferSent, etc:

Título: Evaluation of sentence embeddings in downstream and linguistic probing tasks
https://arxiv.org/abs/1806.06259
Autores: Christian S. Perone, Roberto Silveira, Thomas S. Paula

Pontos principais:

  • ELMo se saiu muito bem tanto em tarefas que capturam informações de baixo-nível de sentenças como por exemplo tamanho da sentença, mas também se saiu muito bem em tarefas complexas onde é necessário um entendimento da semântica do texto. A parte interessante é que no artigo original sobre tarefas de probing, eles mostraram que que durante o treino de muitos modelos, quanto mais o modelo captura propriedades linguísticas complexas, mais ele tende a esquecer features superficiais (ex. tamanho da sentença), o que vai contra o que foi encontrado com o ELMo no nosso artigo. Acreditamos que isso se dá com o ELMo por ele conter vários níveis de representação do modelo de linguagem ao invés de extrair features só das camadas finais para representar os embeddings;

  • Um bag-of-words (BoW) do ELMo se saiu melhor em 5 de 9 tarefas de classificação.

  • Mesmo a forte tendência de “universal sentence encoders”, nenhum método se saiu consistentemente bem em todas tarefas. Maioria dos métodos se saíram bem em tarefas similares no qual os modelos foram treinados.

Segue a tabela de comparação dos resultados em vários datasets:


Resumo: [NAACL18 Best Paper] Deep contextualized word representations