Object.sys · ICD/IFSC

🏷️ Classes de objeto

Cada classe recebe uma cor. O box anotado herda a cor da classe atribuída.

🖼️ Dataset

Arraste imagens aqui
ou clique para selecionar

0 imagens · 0 anotadas

⚙️ Hiperparâmetros

Épocas

Taxa de aprendizado Batch size Peso da perda do box (λ)

Validação (%)

20%

Augmentation: espelhar horizontalmente (2x dados)

O espelhamento também transforma o box: cx vira 1 − cx. Bom exemplo de que a anotação acompanha a imagem.

🚀 Treinamento

Aguardando: anote ao menos 4 imagens por classe

💾 Exportar

As anotações saem no formato cx, cy, w, h normalizados, semelhante ao formato YOLO.

🖥️ Console

Etapa 1 de 6

📦 Dataset de imagens

Diferente do Image.sys (classificação), aqui a imagem bruta não basta: o modelo precisa saber onde o objeto está. Por isso o pipeline ganha uma etapa nova, a anotação. Comece criando as classes na barra lateral e enviando as imagens. Dica: fotografe o objeto em posições, tamanhos e fundos variados, senão o modelo aprende a posição e não o objeto.

Nenhuma imagem ainda. Use o cartão Dataset na barra lateral.

Etapa 2 de 6

🎯 Anotação de bounding boxes

Selecione a classe, depois clique e arraste sobre a imagem para desenhar a caixa ao redor do objeto. A caixa é salva normalizada como (cx, cy, w, h) em relação ao tamanho da imagem, o mesmo princípio do formato YOLO. Desenhar de novo substitui a caixa. Use ← e → do teclado para navegar entre imagens.

Envie imagens na Etapa 1 para começar a anotar.

🏷️ Classe da caixa

A classe selecionada é atribuída à próxima caixa desenhada.

🎞️ Imagens

Etapa 3 de 6

🧠 Arquitetura do detector

Usamos transfer learning: o backbone MobileNet (treinado no ImageNet) fica congelado e extrai um mapa de características 7×7×256. Só a cabeça é treinada, e ela tem duas saídas simultâneas: uma softmax para a classe e quatro neurônios sigmoid para a caixa (cx, cy, w, h). A perda total combina as duas tarefas: L = CE(classe) + λ · MSE(caixa). O λ controla quanto o erro de posição pesa frente ao erro de classe.

Fluxo do modelo

Resumo da configuração

Backbone	MobileNet v1 (α 0.25, 224)
Parâmetros do backbone	congelados
Cabeça	Flatten → Dropout 0.3 → Dense 128
Saída de classe	-
Saída de caixa	4 (cx, cy, w, h)
Perda	CE + λ·MSE
Otimizador	Adam
Imagens anotadas	0

Pergunta para a turma: por que usar sigmoid na saída da caixa? Porque as coordenadas normalizadas vivem em [0, 1], então a ativação já restringe a previsão ao espaço válido.

Etapa 4 de 6

📈 Treinamento

Acompanhe as duas perdas separadamente: se a perda de classe cai mas a de caixa estagna, aumente o λ. O gráfico da direita mostra o IoU médio na validação por época: IoU (Intersection over Union) mede a sobreposição entre a caixa prevista e a anotada, de 0 a 1. Acima de 0.5 já se considera uma detecção aceitável.

Época

Perda classe

Perda caixa

IoU médio (val)

Perdas por época

Validação: IoU médio e acurácia de classe

Etapa 5 de 6

🧪 Avaliação no conjunto de validação

Uma detecção correta exige duas coisas ao mesmo tempo: classe certa e IoU ≥ 0.5. É por isso que detectores reportam métricas como AP@0.5. Abaixo, a caixa tracejada branca é a anotação (ground truth) e a caixa colorida é a previsão.

Detecção @ IoU 0.5

classe certa + IoU ≥ 0.5

Acurácia de classe

IoU médio

Amostras (val)

Matriz de confusão (classe)

Relatório por classe

Classe	N	Acerto classe	IoU médio	Det @0.5

Inspeção visual: anotação × previsão

anotação (ground truth) previsão (cor da classe prevista)

Etapa 6 de 6

🔍 Detecção em novas imagens

Envie imagens que o modelo nunca viu. Repare nos casos de erro: objeto muito menor do que nos exemplos de treino, fundo diferente, mais de um objeto na cena (o localizador só prevê uma caixa, e tende a apontar para um meio termo). Esses erros motivam exatamente as ideias de grade e âncoras do YOLO.

Arraste imagens de teste aqui
ou clique para selecionar