Хранилище данных (Data Warehouse)

Хранилище данных — это централизованная система хранения информации, оптимизированная для выполнения аналитических запросов.

Components: 1. Source systems. 2. Staging area. 3. Presentation layer (Reporting). 4. Metadata. 5. ETL tools. Types: Enterprise Data Warehouse (EDW), Operational Data Store (ODS), and Data Mart.

        graph LR
  Center["Хранилище данных (Data Warehouse)"]:::main
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 Простыми словами

Представь, что у тебя есть копилка, в которую ты кидаешь монетки каждый день — это обычная база данных. А хранилище данных — это банковский сейф, в котором лежат все твои выписки, чеки и история накоплений за всю жизнь. Когда тебе нужно понять, стал ли ты богаче за последние 5 лет, ты идешь не к копилке, а к сейфу. Хранилище дает тебе полную картину твоих финансов.

🤓 Expert Deep Dive

Архитектура хранилища часто строится по принципам Ральфа Кимбола или Билла Инмона. Кимбол настаивает на 'Снизу вверх' подходе с использованием витрин данных (Data Marts), а Инмон — на 'Сверху вниз' через единую корпоративную модель. Важным понятием является 'Slowly Changing Dimensions' (SCD) — механизм, позволяющий отслеживать историю изменений (например, когда клиент сменил фамилию или адрес, мы должны знать, к какому адресу относились его старые покупки). Сегодня хранилища данных всё чаще интегрируются с инструментами 'Reverse ETL', которые возвращают проанализированную информацию обратно в бизнес-приложения (например, в CRM) для автоматизации маркетинга.

📚 Источники