Озеро данных (Data Lake)

Хранилище для сырых и неструктурированных данных.

🌐 Термины на других языках:

Озеро данных (Data Lake) — это централизованный репозиторий, позволяющий хранить огромные объемы сырых данных в их первозданном формате. Это могут быть структурированные данные из БД, полуструктурированные (JSON, XML) или совсем неструктурированные (логи, изображения, видео). Это фундамент для современных систем машинного обучения и Big Data аналитики.

        graph LR
  Center["Озеро данных (Data Lake)"]:::main
  Pre_big_data["big-data"]:::pre --> Center
  click Pre_big_data "/terms/big-data"
  Pre_distributed_computing["distributed-computing"]:::pre --> Center
  click Pre_distributed_computing "/terms/distributed-computing"
  Rel_data_warehouse["data-warehouse"]:::related -.-> Center
  click Rel_data_warehouse "/terms/data-warehouse"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_oracle_network["oracle-network"]:::related -.-> Center
  click Rel_oracle_network "/terms/oracle-network"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простыми словами

🌊 Если Хранилище (Warehouse) — это упорядоченная библиотека, то Озеро (Lake) — это гигантский магический склад, куда можно просто сбрасывать всё: фото, записи, сигналы датчиков — именно такими, какими они есть. Вы не структурируете данные, пока они вам не понадобятся.

🤓 Expert Deep Dive

## Avoiding the Data Swamp
Without proper Metadata Management, a Data Lake quickly becomes a 'Data Swamp.' To prevent this, data engineering teams must implement:
1. Data Discovery: Automated crawlers that scan and tag new files.
2. Access Control: Strict IAM roles at the bucket/prefix level.
3. Quality Checks: Automated validation as data moves from Bronze (raw) to Silver (cleaned) zones.

🔗 Связанные термины

Предварительные знания:

📚 Источники