Visión artificial contemporánea

Visión artificial contemporánea

Instructor: Pablo Andrés Arbeláez Escalante

Sponsored by Louisiana Workforce Commission

4 modules

Gain insight into a topic and learn the fundamentals.

Intermediate level

Recommended experience

11 hours to complete

3 weeks at 3 hours a week

Flexible schedule

Learn at your own pace

4 modules

Gain insight into a topic and learn the fundamentals.

Intermediate level

Recommended experience

11 hours to complete

3 weeks at 3 hours a week

Flexible schedule

Learn at your own pace

What you'll learn

Reconocer los orígenes históricos de la visión por computador y explorar arquitecturas clave que la impulsaron.
Identificar las aplicaciones de arquitecturas modernas en casos prácticos de la vida diaria usando técnicas de visión por computador.
Identificar áreas esenciales de la visión por computador, como reconocimiento, segmentación y reconstrucción.

Details to know

Shareable certificate

Add to your LinkedIn profile

Assessments

4 assignments

Taught in Spanish

See how employees at top companies are mastering in-demand skills

Learn more about Coursera for Business

Earn a career certificate

Add this credential to your LinkedIn profile, resume, or CV

Share it on social media and in your performance review

There are 4 modules in this course

La visión por computador es una destreza indispensable en el mercado laboral, catalizando avances significativos en campos como la inteligencia artificial, la robótica y la automatización. Su uso transforma nuestra interacción con la tecnología, optimizando sistemas de producción y fomentando la innovación en la interacción humano-computadora. Nuestro curso brinda una comprensión detallada de esta tecnología, destacando su capacidad para procesar información visual en diversas tareas.

Daremos un enfoque profundo a la composición y procesamiento de imágenes desde una perspectiva computacional, concentrándonos en aprendizaje profundo y Redes Neuronales Convolucionales (CNN) para la clasificación de imágenes. Exploraremos modelos avanzados como los Transformer Visuales y técnicas como aprendizaje auto-supervisado, Few-Shot learning, y Masked Autoencoders, abarcando la detección de objetos, segmentación de imágenes y calibración de cámaras. En etapas avanzadas, nos enfocaremos en la reconstrucción 3D, análisis de movimiento, flujo óptico y temas emergentes como el metaverso y la realidad aumentada. El curso se basa en un aprendizaje teórico, el cual es reforzado con un enfoque práctico basado en casos y aplicaciones de la visión por computador en el mundo real. Los estudiantes accederán a recursos variados como videos, lecturas y actividades, promoviendo un aprendizaje integral y aplicado de esta tecnología revolucionaria. ¿Para quién es este curso?: (qué perfil de entrada debería tener el estudiante que toma este curso) Este curso se dirige a cualquier persona que tenga interés en conocer de manera introductoria el área de la visión por computador y los avances contemporáneos que esta rama ha tenido en diferentes aplicaciones. Principalmente, está pensado para personas con por lo menos un título de pregrado en ingeniería y ciencias de la computación y es deseable que los estudiantes cuenten con conocimientos de básicos de programación. Sin embargo, cualquier persona que quiera estudiar esta área para aplicarla en su contexto puede tomar el curso.

Este módulo ofrece una introducción a la visión por computador, abarcando desde su conceptualización hasta sus aplicaciones prácticas. Exploraremos las tareas fundamentales que constituyen este campo, la evolución histórica de la tecnología y los principios de cómo las máquinas interpretan las imágenes. Nos adentraremos en la naturaleza de las imágenes digitales, cómo se forman y cómo se estructuran los conjuntos de datos para su análisis. Introduciremos el uso del aprendizaje profundo para la clasificación de imágenes y desglosaremos los conceptos y la arquitectura detrás de las Redes Neuronales Convolucionales (CNN). Al final de este módulo, los participantes podrán construir su propia CNN y tendrán una comprensión sólida de los fundamentos de la visión por computador, preparándolos para sumergirse en aplicaciones más complejas.

What's included

4 videos6 readings1 assignment2 plugins

4 videosTotal 52 minutes

Bienvenida al curso7 minutesPreview module
Historia de la visión por computador12 minutes
Estructura del conjunto de datos12 minutes
Aprendizaje Profundo para Clasificación19 minutes

6 readingsTotal 115 minutes

Programa del curso20 minutes
¿Qué es la visión por computador?20 minutes
¿Qué es una imagen?20 minutes
¿Cómo se conforma una imagen?20 minutes
¿Qué es una CNN?15 minutes
Construcción de una CNN20 minutes

1 assignmentTotal 20 minutes

Evaluación de la semana20 minutes

2 pluginsTotal 30 minutes

Tareas principales de la visión15 minutes
Arquitectura Básica de una CNN15 minutes

En este módulo exploramos los Transformers Visuales, su impacto en el campo de la visión por computador y sus aplicaciones en escenarios reales. Comenzaremos con una visión general de este sistema, introduciendo su arquitectura innovadora y cómo se diferencia de otros modelos en el procesamiento de imágenes. Además, examinaremos los componentes clave que permiten abordar tareas como la clasificación, detección y segmentación de imágenes. Además, introduciremos distintos métodos de supervisión del aprendizaje automático que darán al participante herramientas necesarias en escenarios donde no hay suficientes anotaciones. Finalizado este módulo, habremos estudiado también los fundamentos de la segmentación y sus inicios como tarea de visión por computador.

What's included

2 videos4 readings1 assignment2 plugins

2 videosTotal 20 minutes

¿Cómo funciona un transformer visual?7 minutesPreview module
Supervisión13 minutes

4 readingsTotal 58 minutes

Aprendizaje auto-supervisado15 minutes
Aprendizaje débilmente supervisado15 minutes
Few-shot learning8 minutes
Fundamentos de la segmentación20 minutes

1 assignmentTotal 20 minutes

Evaluación de la semana 20 minutes

2 pluginsTotal 25 minutes

Aplicaciones de Transformers Visuales en Visión por Computadora10 minutes
La tarea de detección15 minutes

En este módulo exploraremos los principios básicos de la reconstrucción 3D, el análisis de movimiento y la visión egocéntrica. Iniciaremos con una revisión de los parámetros esenciales para la calibración de cámaras, los cuales son cruciales para el análisis de imágenes en diversas aplicaciones de la visión por computadora. Proseguiremos con el estudio de las técnicas para la reconstrucción tridimensional y el análisis del movimiento, además de revisar algunas de sus aplicaciones prácticas en escenarios reales. Posteriormente, nos enfocaremos en la visión egocéntrica, examinando su evolución y algunas de las principales bases de datos que impulsan el progreso en este campo. Al finalizar este módulo, los participantes tendrán una comprensión sólida de los principios y técnicas que fundamentan la calibración de cámaras, el análisis de movimiento y la visión egocéntrica, preparándolos para aplicar estos conocimientos en el desarrollo de tecnologías de realidad aumentada, realidad mixta y entornos virtuales.

What's included

1 video4 readings1 assignment2 plugins

1 videoTotal 20 minutes

EGO4D y Aria Project20 minutesPreview module

4 readingsTotal 57 minutes

Calibración de la cámara15 minutes
Análisis de movimiento y flujo óptico15 minutes
¿Qué es embodied vision?12 minutes
Metaverso, Realidad aumentada y Realidad Mixta15 minutes

1 assignmentTotal 20 minutes

Evaluación de la semana 20 minutes

2 pluginsTotal 30 minutes

Multi-view stereo & Structure from Motion20 minutes
Aplicaciones de la reconstrucción10 minutes

Este módulo ofrece una introducción a la creciente área de la generación y a los modelos fundacionales en la visión por computador. Exploraremos herramientas de gran utilidad en la generación de imágenes sintéticas, como lo son las redes generativas y los modelos de difusión. Asimismo, los participantes aprenderán a reconocer las limitaciones de estos modelos y el funcionamiento del estado del arte. Exploraremos los elementos esenciales de los modelos fundacionales y cómo éstos permiten combinar datos de distinta naturaleza. Al finalizar, los participantes tendrán el conocimiento necesario para reconocer las piezas clave del desarrollo de herramientas de inteligencia artificial y estarán listos para aplicarlas en tareas de visión por computador.