03067 г. Киев
бульвар Вацлава Гавела, 4
+38 (044) 333 65 51
+38 (067) 333 65 51
[email protected]
[email protected]

Hadoop и Apache Spark — два фреймворка для Big Data

Все больше специалистов считают, что Hadoop и Apache Spark стоит использовать вместе, хотя иногда их считают конкурирующими решениями в сфере Big Data.

Hadoop являет собой распределенную инфраструктуру, где данные хранятся на большом количестве нод в кластере серверов. Эти данные также отслеживаются и производится их индексация. Это упрощает аналитику, обработку и повышает эффективность. Apache Spark функционирует на этом наборе распределенных данных, но при этом не создает распределенных хранилищ.

Hadoop — это не только компонент, который позволяет хранить данные (HDFS), а также и распределенный компонент для обработки данных — YARN Map Reduce. При этом Spark не нужен и, к тому же, не имеет собственного файлового менеджера.

Для обычных статичных задач Map Reduce может быть достаточно, но если есть необходимость в обработке данных на лету (при этом анализируя их), может понадобиться Spark. В пакетной обработке Spark раз в 10 быстрее, чем Map Reduce. В 100 раз быстрее по аналитике данных, находящихся в памяти. Обычными задачами для Spark являются маркетинговые кампании в режиме реального времени, аналитика кибербезопасности, мониторинг логов, рекомендации по продуктам при покупке онлайн.

По сути, Hadoop является более устойчивым к сбоям, так как записывает данные на диск сразу после каждой операции. В то же время у Spark есть своя особенность — объекты данных могут храниться на дисках или в памяти.

Share

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *