Трансформация данных (Data Transformation)

Трансформация данных — это процесс изменения структуры, формата или содержания данных для их дальнейшего использования.

Techniques: 1. Scrubbing. 2. Deduplication. 3. Format conversion. 4. Summarization. 5. Integration. Tools: Apache Spark, dbt, Talend, Informatica, SQL.

        graph LR
  Center["Трансформация данных (Data Transformation)"]:::main
  Rel_data_validation["data-validation"]:::related -.-> Center
  click Rel_data_validation "/terms/data-validation"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простыми словами

Представь, что ты собираешь пазл, но некоторые кусочки облеплены пластилином или пылью. Трансформация — это когда ты аккуратно чистишь каждый кусочек и проверяешь, чтобы он точно подходил к другим. После этого ты можешь легко собрать всю картину. Трансформация готовит данные к тому, чтобы из них получилась целая картина бизнеса.

🤓 Expert Deep Dive

Ключевым понятием здесь является 'Data Lineage' (происхождение данных). Важно знать не только то, как изменились данные, но и почему. Современные инструменты трансформации, такие как dbt, автоматически строят 'Граф зависимостей', показывая, какая таблица была источником для какой. Это позволяет легко находить ошибки: если в итоговом отчете 'поплыли' цифры, вы можете отследить трансформацию назад до самого начала и найти, на каком этапе формула сработала неверно. Также в трансформацию часто встроены 'Модульные тесты' (Data Tests), которые проверяют качество данных на каждом шаге.

📚 Источники