Большие данные (Big Data)
Массивные и высокоскоростные данные.
Большие данные (Big Data) — это наборы информации, объем которых настолько велик, а структура настолько сложна, что их невозможно обработать традиционными методами. Это область, использующая распределенные вычисления для сбора, хранения и анализа данных в масштабах петабайтов и зеттабайтов. Большие данные критически важны для обучения современного ИИ и прогнозной аналитики.
graph LR
Center["Большие данные (Big Data)"]:::main
Pre_distributed_computing["distributed-computing"]:::pre --> Center
click Pre_distributed_computing "/terms/distributed-computing"
Center --> Child_data_mining["data-mining"]:::child
click Child_data_mining "/terms/data-mining"
Center --> Child_nosql["nosql"]:::child
click Child_nosql "/terms/nosql"
Center --> Child_data_lake["data-lake"]:::child
click Child_data_lake "/terms/data-lake"
Rel_data_warehouse["data-warehouse"]:::related -.-> Center
click Rel_data_warehouse "/terms/data-warehouse"
Rel_machine_learning["machine-learning"]:::related -.-> Center
click Rel_machine_learning "/terms/machine-learning"
Rel_vector_database["vector-database"]:::related -.-> Center
click Rel_vector_database "/terms/vector-database"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 Простыми словами
🐘 Это как гигантская библиотека, в которую каждый час добавляется миллион новых книг. Ни один человек не смог бы их прочитать, поэтому мы создаем команды 'роботов' (компьютерных сетей), которые читают все страницы одновременно, чтобы мгновенно найти нужную информацию.
🤓 Expert Deep Dive
Концепция '5V' (Volume, Velocity, Variety, Veracity, Value) описывает сложность больших данных. Ключевой прорыв произошел с переходом к распределенным файловым системам (HDFS, S3) и обработке в памяти (Apache Spark). В отличие от классических БД, мы используем подход 'Schema-on-Read', позволяющий хранить сырые данные в 'Озерах данных' (Data Lakes) и структурировать их только в момент анализа.