Процес ETL
Триетапний процес збору, очищення та завантаження даних.
🌐 Терміни іншими мовами:
ETL is a process used in data warehousing to pull data from various source systems, change its format to fit operational needs, and finally insert it into a target database or data warehouse. E=Extract (getting raw data), T=Transform (cleaning and reformatting), L=Load (storing in the final destination).
graph LR
Center["Процес ETL"]:::main
Rel_indexing_search["indexing-search"]:::related -.-> Center
click Rel_indexing_search "/terms/indexing-search"
Rel_consensus_mechanism["consensus-mechanism"]:::related -.-> Center
click Rel_consensus_mechanism "/terms/consensus-mechanism"
Rel_edge_computing["edge-computing"]:::related -.-> Center
click Rel_edge_computing "/terms/edge-computing"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Перевірка знань
1 / 1
🧒 Простими словами
ETL — це як завод з переробки сміття. Спочатку вантажівки привозять 'сире' сміття (Extract). Потім машини сортують пластик і папір, миють їх (Transform). Нарешті, чистий матеріал везуть на склад для нового використання (Load).
🤓 Expert Deep Dive
Важливою частиною є забезпечення якості даних (Data Quality) та обробка помилок під час трансформації. Найвідоміші інструменти: Apache Airflow, dbt, Spark.