Новая версия опенсорсного коннектора от ITSumma стала быстрее в 20 раз

ITSumma

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

По сравнению с предыдущей версией решения производительность выросла в 10-20 раз — с 1 до 10…20 Мбит/с. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.

«Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность» — комментирует Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

На основе коннектора можно строить ETL-решения и анализировать качество данных. Он отличается большой гибкостью в настройке и обладает всем необходимым для интеграции в платформы больших данных функционалом.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Источник: www.it-world.ru

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии