Озеро даних (Data Lake)
Озеро даних — це централізоване сховище, яке дозволяє зберігати будь-які дані у їхньому первозданному вигляді.
Key Characteristics: 1. Native format storage. 2. Support for all data types. 3. High scalability. 4. Low cost per TB. Components: Storage layer (HDFS, S3), Processing layer (Hadoop, Spark), Metadata layer (Hive Metastore). Comparison: Lake (Raw/Flexible) vs Warehouse (Curated/Structured).
graph LR
Center["Озеро даних (Data Lake)"]:::main
Rel_evm_analysis["evm-analysis"]:::related -.-> Center
click Rel_evm_analysis "/terms/evm-analysis"
Rel_evm_specification["evm-specification"]:::related -.-> Center
click Rel_evm_specification "/terms/evm-specification"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 Простими словами
Уявіть великий ящик для іграшок. Ви просто кидаєте туди все: кубики, машинки, пазли. Ви не розкладаєте їх по поличках одразу. Це і є Озеро даних. Коли вам захочеться пограти, ви витягаєте потрібні деталі і вже тоді вирішуєте, що з них скласти. Це зручно, бо ви можете зберегти все, не витрачаючи час на сортування заздалегідь.
🤓 Expert Deep Dive
Головна технічна проблема Data Lake — перетворення його на 'Болото даних' (Data Swamp), коли через відсутність описів (метаданих) ніхто не знає, що саме там лежить. Сучасні інженерні практики вимагають використання інструментів на кшталт 'Apache Atlas' для відстеження походження даних (Data Lineage) та прав доступу. Сьогодні індустрія переходить до концепції 'Lakehouse', яка поєднує гнучкість озера та надійність класичних сховищ.