Adversarial-атаки (Атаки змагання)

Adversarial-атаки — це методи обману або маніпулювання моделями машинного навчання за допомогою спеціально підготовлених вхідних даних.

Types of attacks include: 1. Evasion: Modifying data at test time (e.g., FGSM). 2. Poisoning: Injecting bad data during training. 3. Model Extraction: Stealing the model's parameters by querying its API. 4. Inversion: Reconstructing sensitive training data from model outputs.

        graph LR
  Center["Adversarial-атаки (Атаки змагання)"]:::main
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простими словами

Це як 'оптична ілюзія' для комп’ютера. Ви показуєте йому фотографію собаки, але додаєте до неї такий специфічний візерунок ('шум'), що комп’ютер впевнено каже: 'Це літак', хоча ви все ще бачите собаку.

🤓 Expert Deep Dive

Атаки зазвичай поділяються на методи 'білого ящика' (коли архітектура моделі відома) та 'чорного ящика'. Найвідомішим методом є FGSM (Fast Gradient Sign Method), який використовує градієнт функції втрат для знаходження оптимального шуму. Захист від таких атак потребує 'змагального навчання' (Adversarial Training) та методів сертифікованої стійкості.

📚 Джерела