Озеро даних (Data Lake)

Сховище для сирих та неструктурованих даних.

🌐 Терміни іншими мовами:

Озеро даних (Data Lake) — це централізований репозиторій, який дозволяє зберігати величезні обсяги сирих даних у їхньому первозданному форматі. Це можуть бути структуровані дані з БД, напівструктуровані (JSON, XML) або зовсім неструктуровані (логі, зображення, відео). Це фундамент для сучасних систем машинного навчання та Big Data аналітики.

        graph LR
  Center["Озеро даних (Data Lake)"]:::main
  Pre_big_data["big-data"]:::pre --> Center
  click Pre_big_data "/terms/big-data"
  Pre_distributed_computing["distributed-computing"]:::pre --> Center
  click Pre_distributed_computing "/terms/distributed-computing"
  Rel_data_warehouse["data-warehouse"]:::related -.-> Center
  click Rel_data_warehouse "/terms/data-warehouse"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_oracle_network["oracle-network"]:::related -.-> Center
  click Rel_oracle_network "/terms/oracle-network"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простими словами

🌊 Якщо Сховище (Warehouse) — це впорядкована бібліотека, то Озеро (Lake) — це гігантський магічний склад, куди можна просто скидати все: фото, записи, сигнали датчиків — саме такими, якими вони є. Ви не структуруєте дані, поки вони вам не знадобляться.

🤓 Expert Deep Dive

Озера даних базуються на Об'єктних сховищах (S3, HDFS) та підході Schema-on-Read. На відміну від DWH, тут використовується ELT (Extract, Load, Transform). Сучасний тренд — архітектура Lakehouse (наприклад, Delta Lake), яка додає підтримку ACID-транзакцій до звичайних файлів у озері. Головний ризик — перетворення озера на 'Болото даних' (Data Swamp) через відсутність метаданих.

🔗 Пов'язані терміни

Попередні знання:

📚 Джерела