AMST2: multi agregado
LarLar > blog > AMST2: multi agregado

AMST2: multi agregado

Aug 26, 2023

Scientific Reports volume 13, Número do artigo: 9062 (2023) Citar este artigo

59 acessos

2 Altmétrica

Detalhes das métricas

Recentemente, muitos rastreadores visuais existentes fizeram progressos significativos incorporando informações espaciais de camadas de convolução de vários níveis ou informações temporais para rastreamento. No entanto, as vantagens complementares das informações espaciais e temporais não podem ser aproveitadas quando esses dois tipos de informações são usados ​​separadamente. Neste artigo, apresentamos uma nova abordagem para rastreamento visual robusto usando um modelo baseado em transformador que incorpora informações de contexto espacial e temporal em vários níveis. Para integrar os mapas de similaridade refinados por meio de codificadores espaciais e temporais de vários níveis, propomos um codificador de agregação. Conseqüentemente, a saída do codificador de agregação proposto contém recursos úteis que integram os contextos globais de vários níveis espaciais e os contextos temporais. O recurso que propomos oferece uma representação contrastante, mas complementar, de contextos espaciais e temporais multiníveis. Essa característica é particularmente benéfica em cenários aéreos complexos, onde podem ocorrer falhas de rastreamento devido a oclusão, desfoque de movimento, objetos pequenos e variações de escala. Além disso, nosso rastreador utiliza um backbone de rede leve, garantindo rastreamento de objetos rápido e eficaz em conjuntos de dados aéreos. Além disso, a arquitetura proposta pode obter rastreamento de objetos mais robusto contra variações significativas, atualizando os recursos do objeto mais recente, mantendo as informações do modelo inicial. Experimentos extensivos em sete benchmarks desafiadores de rastreamento aéreo de curto e longo prazo demonstraram que o rastreador proposto supera os métodos de rastreamento de última geração em termos de velocidade e desempenho de processamento em tempo real.

O rastreamento visual de um objeto de interesse é um tópico de pesquisa altamente importante e desafiador em visão computacional1. O principal objetivo do rastreamento visual é estimar a localização e o tamanho de um objeto arbitrário em uma sequência de quadros de vídeo, estabelecendo correspondências entre pixels semelhantes em quadros diferentes. Nos últimos anos, com a crescente importância e uso de veículos aéreos não tripulados (VANTs), como drones, vários métodos de rastreamento visual que usam dados aéreos têm sido estudados2,3. Apesar dos avanços consideráveis ​​no rastreamento visual, o rastreamento aéreo ainda enfrenta inúmeros desafios, incluindo rastreamento em tempo real, flutuação de iluminação, oclusão, movimento rápido, confusão de fundo e desfoque.

Os paradigmas convencionais de rastreamento visual podem ser categorizados em duas categorias: (1) rastreamento por detecção e (2) rastreamento baseado em rede siamesa.

O método de rastreamento por detecção primeiro detecta o objeto em cada quadro de vídeo e, em seguida, atualiza a localização do objeto usando um modelo de movimento. O filtro de correlação discriminada (DCF) é um método representativo de rastreamento por detecção, que usa transformadas de Fourier para calcular eficientemente a computação de correlação cruzada e obtém processamento em tempo real4,5,6,7,8,9,10,11. O rastreador DCF também emprega recursos artesanais, como histograma de gradientes orientados (HOG) para representar o objeto e o plano de fundo. No entanto, o rastreador DCF sofre de algumas limitações, como a incapacidade de lidar com mudanças de escala e variações significativas de aparência.

Usando os recursos profundos das redes neurais convolucionais (CNNs), os métodos baseados em aprendizado profundo fizeram maiores avanços no desempenho de rastreamento do que os rastreadores baseados em DCF12,13,14,15,16,17,18. Apesar dos avanços nos rastreadores baseados em aprendizado profundo, alguns algoritmos carecem de recursos computacionais que os tornam inadequados para plataformas embarcadas, enquanto outros não podem fornecer o nível desejado de desempenho de rastreamento. Até recentemente, os rastreadores baseados em DCF eram frequentemente empregados em aplicativos de baixo custo, ignorando seus desempenhos de rastreamento mais fracos em comparação com os métodos baseados em aprendizagem profunda devido a restrições de dispositivos como as de plataformas incorporadas.