Visión por Computadora

Computer Vision es un campo de la inteligencia artificial que permite a las computadoras 'ver' e interpretar imágenes y videos, imitando la percepción visual humana. Utiliza algoritmos y técnicas de aprendizaje profundo, como CNNs, para analizar datos visuales para diversas aplicaciones, incluyendo vehículos autónomos,

🌐 Términos en otros idiomas:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

La Visión Artificial (CV) es un campo de la inteligencia artificial (IA) y la informática que tiene como objetivo permitir a las computadoras derivar información significativa de imágenes digitales, videos y otras entradas visuales. Busca automatizar tareas que el sistema visual humano puede hacer. Los sistemas de CV analizan e interpretan datos visuales empleando algoritmos que detectan y reconocen objetos, rastrean el movimiento, reconstruyen escenas y comprenden el contexto. Las técnicas clave incluyen el procesamiento de imágenes (filtrado, detección de bordes, segmentación), la extracción de características (SIFT, SURF), el aprendizaje automático (máquinas de vectores de soporte, árboles de decisión) y el aprendizaje profundo, en particular las Redes Neuronales Convolucionales (CNN). Las CNN han revolucionado la CV al aprender automáticamente representaciones jerárquicas de características visuales directamente de los datos. Las aplicaciones son vastas, abarcando la conducción autónoma (detección de objetos, búsqueda de carriles), el análisis de imágenes médicas (detección de tumores), la vigilancia (reconocimiento facial), la robótica (navegación, manipulación), la realidad aumentada y la recuperación de imágenes basada en contenido.

        graph LR
  Center["Visión por Computadora"]:::main
  Rel_computer_science["computer-science"]:::related -.-> Center
  click Rel_computer_science "/terms/computer-science"
  Rel_multimodal_ai["multimodal-ai"]:::related -.-> Center
  click Rel_multimodal_ai "/terms/multimodal-ai"
  Rel_natural_language_processing["natural-language-processing"]:::related -.-> Center
  click Rel_natural_language_processing "/terms/natural-language-processing"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Prueba de conocimiento

1 / 3

🧒 Explícalo como si tuviera 5 años

Es como enseñarle a una computadora a 'ver' y entender fotos y videos, tal como tú lo haces, para que pueda reconocer cosas o averiguar qué está pasando.

🤓 Expert Deep Dive

La visión artificial moderna depende en gran medida del aprendizaje profundo, especialmente de las CNN, para tareas como clasificación de imágenes, detección de objetos y segmentación semántica. Arquitecturas como ResNet, Inception y Transformers (Vision Transformers - ViT) han impulsado el estado del arte al permitir redes más profundas y capturar dependencias a largo plazo. Las Redes Generativas Antagónicas (GAN) se utilizan para la síntesis de imágenes y la aumentación de datos. Aún quedan desafíos para lograr robustez ante variaciones en iluminación, punto de vista y oclusión, así como en el procesamiento en tiempo real para escenas complejas. Las consideraciones éticas, particularmente en relación con los sesgos en los conjuntos de datos que conducen a resultados discriminatorios (por ejemplo, en el reconocimiento facial), son áreas de investigación críticas. Además, la integración de la CV con otras modalidades de IA, como el procesamiento del lenguaje natural (por ejemplo, subtitulado de imágenes), es una frontera activa.

📚 Fuentes

1. Computer Vision - Wikipedia

2. Computer Vision Market by Component, Application, End-user, and Geography - Global Forecast to 2025

3. OpenCV

4. Papers with Code

5. arXiv.org

6. Google AI Blog

7. ImageNet Classification with Deep Convolutional Neural Networks

8. Computer Vision and Deep Learning

9. Deep Residual Learning for Image Recognition

10. U-Net: Convolutional Networks for Biomedical Image Segmentation

11. Generative Adversarial Nets

12. YOLO: You Only Look Once: Unified, Real-Time Object Detection

13. Very Deep Convolutional Networks for Large-Scale Image Recognition