Трансформація даних (Data Transformation)
Трансформація даних — це перетворення даних із джерельного формату в цільовий для аналізу чи зберігання.
Techniques: 1. Scrubbing. 2. Deduplication. 3. Format conversion. 4. Summarization. 5. Integration. Tools: Apache Spark, dbt, Talend, Informatica, SQL.
graph LR
Center["Трансформація даних (Data Transformation)"]:::main
Rel_data_validation["data-validation"]:::related -.-> Center
click Rel_data_validation "/terms/data-validation"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 Простими словами
Це як переклад з іноземної мови. Якщо у вас є інструкція китайською, ви не можете її зрозуміти. Трансформація — це перекладач, який переписує інструкцію вашою мовою, виправляє помилки і робить її зрозумілою для вас. Тепер ви знаєте, що робити!
🤓 Expert Deep Dive
На технічному рівні ми часто говоримо про 'Схему при записі' (Schema-on-write) проти 'Схеми при читанні' (Schema-on-read). Трансформація під час запису (ETL) робить дані дуже швидкими для пошуку, але менш гнучкими. Трансформація під час читання (ELT) дозволяє зберігати будь-що в 'Озері даних' (Data Lake) і вирішувати, як їх змінити, лише тоді, коли вони знадобляться. Це сучасний підхід, який використовують Google та Netflix для обробки мільярдів подій щосекунди.