sqoop - Самое интересное в блогах

rss_habr

Как реализовать магию Sqoop для загрузки данных через Spark

Пятница, 29 Июля 2022 г. 16:19 (ссылка)

Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных.

Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop.

Первичное сравнение технологий

В нашем примере будем рассматривать загрузку данных из таблиц OracleDB.

Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive.

https://habr.com/ru/post/679876/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679876

Комментарии (0)Комментировать В цитатник или сообщество

sqoop - Самое интересное в блогах

Как реализовать магию Sqoop для загрузки данных через Spark

<sqoop - Самое интересное в блогах