Resumo: Mean teachers are better role models


(Christian S. Perone) #1

Para quem gosta de semi-supervised learning, segue resumo de um paper bem importante da área e atualmente uma das técnicas com melhores resultados para semi-supervised learning.

Título: Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
Autores: Antti Tarvainen, Harri Valpola
ArXiv: 1703.01780

A ideia principal do paper é basicamente:

  1. Duplicação da arquitetura do modelo (gerando dois modelos: student e teacher);
  2. Para atualizar os parâmetros do modelo teacher, ao invés de fazer backpropagation, é feito um EMA (exponential moving average) a cada passo do treino (cada step do SGD) baseado nos parâmetros do modelo student. Então a cada step, os pesos do teacher são na verdade os pesos do student mas com um running average durante cada step do treino;
  3. O loss de classificação é o mesmo loss tradicional (ex. cross-entropy ou qualquer outro);
  4. Um novo loss de consistência é adicionado entre as predições do student e as predições do teacher, fazendo com que o student aprenda (um tipo de knowledge distillation) com as predições do teacher que são sempre um pouco melhores que as do student devido ao EMA (existem garantias dessa melhoria no modelo teacher em alguns modelos, devido ao EMA);
  5. Como o loss de consistência é feito somente entre as predições dos modelos e não com um rótulo (ground truth), abre-se um caminho para adicionar samples não rotulados.

Fluxo do método:


(Imagem do paper)

Resultados:


(Tabela do paper)

Os resultados são muito bons, especialmente quando se tem poucos dados rotulados. Na tabela acima os resultados no CIFAR-10 usando 1000 imagens rotuladas e 50000 não rotuladas, teve uma melhora de 46.43 (apenas modelo supervisionado) para 21.55 (modelo mean teacher, usando dados sem rótulos).

A gente expandiu o método para segmentação também, no contexto de imagens médicas (onde é bem comum não ter rótulos ou onde a obtenção de rótulos é muito cara), quem tiver interesse o paper é este Deep semi-supervised segmentation with weight-averaged consistency targets. Para segmentação surgem outros problemas com por exemplo o desalinhamento da segmentação durante a fase de consistência.


(Felipe Salvatore) #2

Boa inciativa! :grinning::grinning::grinning::grinning::grinning::grinning::grinning::grinning: