Обзор распределенной платформы обработки данных Apache Flink
by admin
Apache Flink создан как обработчик данных для использования их в больших приложениях; является платформой для пакетной обработки данных и распределенного потока.
Flink принимает исходные данные, обрабатывает их с помощью программ и далее выводит в реальном времени. На сегодняшний день это один из самых быстрых способов обработки больших объемов информации.
Платформа имеет ряд следующих особенностей:
- Отказоустойчивость;
- Потоковая модель передачи является непрерывной;
- Управление памятью;
- Поддерживаются временные и неисправные события;
- Приложения для потоковой передачи данных DataStream API и пакетной обработки данных DataSet API;
- Наличие библиотеки для машинного обучения и реляционной обработки данных.
Анализ больших данных является одной из самых гибких опций Apache Flink и в этом случае также имеется ряд своих достоинств:
Возможность выполнять анализ данных в двух режимах: потоковом и пакетном;
- Низкое время ожидания и высокая производительность;
- Наличие системы управления собственной памятью;
- Совместимость с HDFS, YARN, потоками данных от Kafka, Apache HBase, Google Cloud Platform;
- Способность выполнять программный код Hadoop.
Recommended Posts
Топ-10 прогнозов для ЦОД
27.12.2017