Computer Vision

Computer Vision ist ein Bereich der künstlichen Intelligenz, der Computern ermöglicht, Bilder und Videos zu 'sehen' und zu interpretieren, wodurch die menschliche visuelle Wahrnehmung nachgeahmt wird. Es verwendet Algorithmen und Deep-Learning-Techniken, wie z.B. CNNs, um visuelle Daten für verschiedene Anwendungen zu analysieren, einschließlich autonomer Fahrzeuge,

🌐 Begriffe in anderen Sprachen:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Computer Vision (CV) ist ein Bereich der künstlichen Intelligenz (KI) und Informatik, der darauf abzielt, Computern die Ableitung aussagekräftiger Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben zu ermöglichen. Ziel ist es, Aufgaben zu automatisieren, die das menschliche visuelle System ausführen kann. CV-Systeme analysieren und interpretieren visuelle Daten durch den Einsatz von Algorithmen, die Objekte erkennen und identifizieren, Bewegungen verfolgen, Szenen rekonstruieren und den Kontext verstehen. Zu den wichtigsten Techniken gehören Bildverarbeitung (Filterung, Kantenerkennung, Segmentierung), Merkmalsextraktion (SIFT, SURF), maschinelles Lernen (Support Vector Machines, Entscheidungsbäume) und Deep Learning, insbesondere Convolutional Neural Networks (CNNs). CNNs haben CV revolutioniert, indem sie hierarchische Darstellungen visueller Merkmale automatisch direkt aus Daten lernen. Die Anwendungen sind vielfältig und reichen von autonomem Fahren (Objekterkennung, Fahrspurerkennung) über medizinische Bildanalyse (Tumorerkennung) und Überwachung (Gesichtserkennung) bis hin zu Robotik (Navigation, Manipulation), erweiterter Realität und inhaltsbasierter Bildsuche.

        graph LR
  Center["Computer Vision"]:::main
  Rel_computer_science["computer-science"]:::related -.-> Center
  click Rel_computer_science "/terms/computer-science"
  Rel_multimodal_ai["multimodal-ai"]:::related -.-> Center
  click Rel_multimodal_ai "/terms/multimodal-ai"
  Rel_natural_language_processing["natural-language-processing"]:::related -.-> Center
  click Rel_natural_language_processing "/terms/natural-language-processing"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Wissenstest

1 / 3

🧒 Erkläre es wie einem 5-Jährigen

Es ist, als würde man einem Computer beibringen, Bilder und Videos zu "sehen" und zu verstehen, genau wie du es tust, damit er Dinge erkennen oder herausfinden kann, was passiert.

🤓 Expert Deep Dive

Modernes Computer Vision stützt sich stark auf Deep Learning, insbesondere auf CNNs, für Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung. Architekturen wie ResNet, Inception und Transformer (Vision Transformers - ViT) haben den Stand der Technik vorangetrieben, indem sie tiefere Netzwerke ermöglichen und Langstreckenabhängigkeiten erfassen. Generative Adversarial Networks (GANs) werden für die Bildsynthese und Datenerweiterung eingesetzt. Herausforderungen bleiben bei der Robustheit gegenüber Variationen in Beleuchtung, Blickwinkel und Verdeckung sowie bei der Echtzeitverarbeitung komplexer Szenen. Ethische Überlegungen, insbesondere im Hinblick auf Verzerrungen in Datensätzen, die zu diskriminierenden Ergebnissen führen (z. B. bei der Gesichtserkennung), sind kritische Forschungsbereiche. Darüber hinaus ist die Integration von CV mit anderen KI-Modalitäten wie der Verarbeitung natürlicher Sprache (z. B. Bildunterschriftenerstellung) eine aktive Grenze.

📚 Quellen

1. Computer Vision - Wikipedia

2. Computer Vision Market by Component, Application, End-user, and Geography - Global Forecast to 2025

3. OpenCV

4. Papers with Code

5. arXiv.org

6. Google AI Blog

7. ImageNet Classification with Deep Convolutional Neural Networks

8. Computer Vision and Deep Learning

9. Deep Residual Learning for Image Recognition

10. U-Net: Convolutional Networks for Biomedical Image Segmentation

11. Generative Adversarial Nets

12. YOLO: You Only Look Once: Unified, Real-Time Object Detection

13. Very Deep Convolutional Networks for Large-Scale Image Recognition