Процес ETL

Триетапний процес збору, очищення та завантаження даних.

🌐 Терміни іншими мовами:

ETL is a process used in data warehousing to pull data from various source systems, change its format to fit operational needs, and finally insert it into a target database or data warehouse. E=Extract (getting raw data), T=Transform (cleaning and reformatting), L=Load (storing in the final destination).

        graph LR
  Center["Процес ETL"]:::main
  Rel_indexing_search["indexing-search"]:::related -.-> Center
  click Rel_indexing_search "/terms/indexing-search"
  Rel_consensus_mechanism["consensus-mechanism"]:::related -.-> Center
  click Rel_consensus_mechanism "/terms/consensus-mechanism"
  Rel_edge_computing["edge-computing"]:::related -.-> Center
  click Rel_edge_computing "/terms/edge-computing"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Перевірка знань

1 / 1

🧒 Простими словами

ETL — це як завод з переробки сміття. Спочатку вантажівки привозять 'сире' сміття (Extract). Потім машини сортують пластик і папір, миють їх (Transform). Нарешті, чистий матеріал везуть на склад для нового використання (Load).

🤓 Expert Deep Dive

Важливою частиною є забезпечення якості даних (Data Quality) та обробка помилок під час трансформації. Найвідоміші інструменти: Apache Airflow, dbt, Spark.

📚 Джерела