Computer Vision
Computer Vision ist ein Bereich der künstlichen Intelligenz, der Computern ermöglicht, Bilder und Videos zu 'sehen' und zu interpretieren, wodurch die menschliche visuelle Wahrnehmung nachgeahmt wird. Es verwendet Algorithmen und Deep-Learning-Techniken, wie z.B. CNNs, um visuelle Daten für verschiedene Anwendungen zu analysieren, einschließlich autonomer Fahrzeuge,
Computer Vision (CV) ist ein Bereich der künstlichen Intelligenz (KI) und Informatik, der darauf abzielt, Computern die Ableitung aussagekräftiger Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben zu ermöglichen. Ziel ist es, Aufgaben zu automatisieren, die das menschliche visuelle System ausführen kann. CV-Systeme analysieren und interpretieren visuelle Daten durch den Einsatz von Algorithmen, die Objekte erkennen und identifizieren, Bewegungen verfolgen, Szenen rekonstruieren und den Kontext verstehen. Zu den wichtigsten Techniken gehören Bildverarbeitung (Filterung, Kantenerkennung, Segmentierung), Merkmalsextraktion (SIFT, SURF), maschinelles Lernen (Support Vector Machines, Entscheidungsbäume) und Deep Learning, insbesondere Convolutional Neural Networks (CNNs). CNNs haben CV revolutioniert, indem sie hierarchische Darstellungen visueller Merkmale automatisch direkt aus Daten lernen. Die Anwendungen sind vielfältig und reichen von autonomem Fahren (Objekterkennung, Fahrspurerkennung) über medizinische Bildanalyse (Tumorerkennung) und Überwachung (Gesichtserkennung) bis hin zu Robotik (Navigation, Manipulation), erweiterter Realität und inhaltsbasierter Bildsuche.
graph LR
Center["Computer Vision"]:::main
Rel_computer_science["computer-science"]:::related -.-> Center
click Rel_computer_science "/terms/computer-science"
Rel_multimodal_ai["multimodal-ai"]:::related -.-> Center
click Rel_multimodal_ai "/terms/multimodal-ai"
Rel_natural_language_processing["natural-language-processing"]:::related -.-> Center
click Rel_natural_language_processing "/terms/natural-language-processing"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Wissenstest
🧒 Erkläre es wie einem 5-Jährigen
Es ist, als würde man einem Computer beibringen, Bilder und Videos zu "sehen" und zu verstehen, genau wie du es tust, damit er Dinge erkennen oder herausfinden kann, was passiert.
🤓 Expert Deep Dive
Modernes Computer Vision stützt sich stark auf Deep Learning, insbesondere auf CNNs, für Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung. Architekturen wie ResNet, Inception und Transformer (Vision Transformers - ViT) haben den Stand der Technik vorangetrieben, indem sie tiefere Netzwerke ermöglichen und Langstreckenabhängigkeiten erfassen. Generative Adversarial Networks (GANs) werden für die Bildsynthese und Datenerweiterung eingesetzt. Herausforderungen bleiben bei der Robustheit gegenüber Variationen in Beleuchtung, Blickwinkel und Verdeckung sowie bei der Echtzeitverarbeitung komplexer Szenen. Ethische Überlegungen, insbesondere im Hinblick auf Verzerrungen in Datensätzen, die zu diskriminierenden Ergebnissen führen (z. B. bei der Gesichtserkennung), sind kritische Forschungsbereiche. Darüber hinaus ist die Integration von CV mit anderen KI-Modalitäten wie der Verarbeitung natürlicher Sprache (z. B. Bildunterschriftenerstellung) eine aktive Grenze.