Трансформація даних (Data Transformation)

Трансформація даних — це перетворення даних із джерельного формату в цільовий для аналізу чи зберігання.

Techniques: 1. Scrubbing. 2. Deduplication. 3. Format conversion. 4. Summarization. 5. Integration. Tools: Apache Spark, dbt, Talend, Informatica, SQL.

        graph LR
  Center["Трансформація даних (Data Transformation)"]:::main
  Rel_data_validation["data-validation"]:::related -.-> Center
  click Rel_data_validation "/terms/data-validation"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простими словами

Це як переклад з іноземної мови. Якщо у вас є інструкція китайською, ви не можете її зрозуміти. Трансформація — це перекладач, який переписує інструкцію вашою мовою, виправляє помилки і робить її зрозумілою для вас. Тепер ви знаєте, що робити!

🤓 Expert Deep Dive

На технічному рівні ми часто говоримо про 'Схему при записі' (Schema-on-write) проти 'Схеми при читанні' (Schema-on-read). Трансформація під час запису (ETL) робить дані дуже швидкими для пошуку, але менш гнучкими. Трансформація під час читання (ELT) дозволяє зберігати будь-що в 'Озері даних' (Data Lake) і вирішувати, як їх змінити, лише тоді, коли вони знадобляться. Це сучасний підхід, який використовують Google та Netflix для обробки мільярдів подій щосекунди.

📚 Джерела