Aprendizaje de representación de vídeo de formato largo (Parte 3: Aprendizaje de representación de vídeo egocéntrico de for

Exploramos métodos novedosos de aprendizaje de representación de videos que están equipados con capacidad de razonamiento de formato largo. Esta es la Parte III, que ofrece un adelanto de nuestras últimas y mejores exploraciones para el aprendizaje de representación de vídeo egocéntrico de “formato largo”. Ver Parte I en video como un gráfico y es Parte II en escasos transformadores de vídeo-texto.

Los dos primeros blogs de esta serie describieron cómo diferentes motivos arquitectónicos, desde redes neuronales de gráficos hasta transformadores dispersos, abordaron los desafíos del aprendizaje de representación de video de “formato largo”. Mostramos cómo los métodos explícitos basados en gráficos pueden agregar un contexto temporal entre 5 y 10 veces mayor, pero eran métodos de dos etapas. A continuación, exploramos cómo podemos crear memoria y calcular modelos eficientes de aprendizaje de un extremo a otro basados en transformadores y agregados en un contexto temporal 2 veces mayor.

En este blog, lo llevaré a nuestras últimas y mejores exploraciones, especialmente para la comprensión de videos egocéntricos. Como puedes imaginar, lo más probable es que un vídeo egocéntrico o en primera persona (capturado normalmente con cámaras montadas en cascos) provenga de una cámara siempre encendida, lo que significa que los vídeos son realmente muy largos, con mucha información visual irrelevante, especialmente cuando El usuario de la cámara mueve la cabeza. Y esto sucede muchas veces con las cámaras montadas en la cabeza. Un análisis adecuado de estos vídeos en primera persona puede permitir una comprensión detallada de cómo interactúan los humanos con el medio ambiente, cómo manipulan los objetos y, en última instancia, cuáles son sus objetivos e intenciones. Las aplicaciones típicas de los sistemas de visión egocéntricos requieren algoritmos capaces de representar y procesar vídeo en períodos temporales que duran del orden de minutos u horas. Ejemplos de tales aplicaciones son la anticipación de acciones, el resumen de videos y la recuperación de memoria episódica.

Figura 1: (Imagen del autor) Los gráficos de escena de acción egocéntrica son gráficos dinámicos temporales (G

*Related*

Tags: aprendizaje egocéntrico formato largo mayo Parte representación Subarna Tripathi video

Technical Terrence Team

Next Post

Walmart posts strong quarter thanks to higher-income shoppers

Leave a Reply Cancel reply
Your email address will not be published. Required fields are marked *
Comment *
Name *

Email *

Website

Save my name, email, and website in this browser for the next time I comment.

Δ

Aprendizaje de representación de vídeo de formato largo (Parte 3: Aprendizaje de representación de vídeo egocéntrico de formato largo) | de Subarna Tripathi | mayo, 2024

Related

Recommended.

Solana-Focused Phantom Wallet Adds Support for Coinbase's Base Network

New Stanford AI research presents an alternative explanation for the seemingly sharp and unpredictable emergent abilities of big language models

Spot Ethereum ETF Issuers to Meet with SEC in March

The Great Inscription Renumbering Debate: The Code & The Culture

XRP and Solana are trending as powerful new altcoins emerge

Categories

Important Links