Как реализовать магию Sqoop для загрузки данных через Spark

Пятница, 29 Июля 2022 г. 16:19 + в цитатник

Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных.

Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop.

Первичное сравнение технологий

В нашем примере будем рассматривать загрузку данных из таблиц OracleDB.

Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive.

https://habr.com/ru/post/679876/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679876

<a href="https://www.liveinternet.ru/users/rss_habr/post494015715/">РљР°Рє СЂРµР°Р»РёР·РѕРІР°С‚СЊ РјР°РіРёСЋ Sqoop РґР»СЏ Р·Р°РіСЂСѓР·РєРё РґР°РЅРЅС‹С… С‡РµСЂРµР· Spark</a><br/>РћС‡РµРЅСЊ С‡Р°СЃС‚Рѕ РїСЂРёС…РѕРґРёС‚СЃСЏ СЃР»С‹С€Р°С‚СЊ, С‡С‚Рѕ Sqoop вЂ” СЌС‚Рѕ СЃРµСЂРµР±СЂСЏРЅР°СЏ РїСѓР»СЏ РґР»СЏ Р·Р°РіСЂСѓР·РєРё РґР°РЅРЅС‹С… Р±РѕР»СЊС€РѕРіРѕ РѕР±СЉС‘РјР° СЃ СЂРµР»СЏС†РёРѕРЅРЅС‹С… Р‘Р” РІ Hadoop, РѕСЃРѕР±РµРЅРЅРѕ СЃ Oracle, Рё Spark-РѕРј РЅРµРІРѕР·РјРѕР¶РЅРѕ РґРѕСЃС‚РёРіРЅСѓС‚СЊ С‚Р°РєРѕР№ РїСЂРѕРёР·РІРѕРґРёС‚РµР»СЊРЅРѕСЃС‚Рё. РџСЂРё СЌС‚РѕРј РїСЂРёРІРѕРґСЏС‚ Р°СЂРіСѓРјРµРЅС‚С‹, С‡С‚Рѕ sqoop вЂ” СЌС‚Рѕ РёРЅСЃС‚СЂСѓРјРµРЅС‚, Р·Р°С‚РѕС‡РµРЅРЅС‹Р№ РїРѕРґ Р·Р°РіСЂСѓР·РєСѓ, Р° Spark РїСЂРµРґРЅР°Р·РЅР°С‡РµРЅ РґР»СЏ РѕР±СЂР°Р±РѕС‚РєРё РґР°РЅРЅС‹С….РњРµРЅСЏ Р·РѕРІСѓС‚ РњР°РєСЃРёРј РџРµС‚СЂРѕРІ, СЏ СЂСѓРєРѕРІРѕРґРёС‚РµР»СЊ РґРµРїР°СЂС‚Р°РјРµРЅС‚Р° "Р§Р°РїС‚РµСЂ РёРЅР¶РµРЅРµСЂРѕРІ РґР°РЅРЅС‹С… Рё СЂР°Р·СЂР°Р±РѕС‚С‡РёРєРѕРІ", Рё СЏ СЂРµС€РёР» РЅР°РїРёСЃР°С‚СЊ РёРЅСЃС‚СЂСѓРєС†РёСЋ Рѕ С‚РѕРј, РєР°Рє РїСЂР°РІРёР»СЊРЅРѕ Рё Р±С‹СЃС‚СЂРѕ Р·Р°РіСЂСѓР¶Р°С‚СЊ РґР°РЅРЅС‹Рµ Spark, РѕСЃРЅРѕРІС‹РІР°СЏСЃСЊ РЅР° РїСЂРёРЅС†РёРїР°С… Р·Р°РіСЂСѓР·РєРё Sqoop.РџРµСЂРІРёС‡РЅРѕРµ СЃСЂР°РІРЅРµРЅРёРµ С‚РµС…РЅРѕР»РѕРіРёР№Р’ РЅР°С€РµРј РїСЂРёРјРµСЂРµ Р±СѓРґРµ... <a href="https://www.liveinternet.ru/users/rss_habr/post494015715/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

Как реализовать магию Sqoop для загрузки данных через Spark