Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Пятница, 02 Сентября 2022 г. 18:17 + в цитатник

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.

https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142

<a href="https://www.liveinternet.ru/users/rss_habr/post494723722/">РљРѕР»РёС‡РµСЃС‚РІРѕ РїР°СЂС‚РёС†РёР№ РІ Spark РїСЂРё РёРЅРёС†РёР°Р»РёР·Р°С†РёРё Data API: DataFrame, RDD, DataSet</a><br/>Р›СЋР±РѕРµ Spark Data API: DataFrame, RDD, DataSet СЃРѕСЃС‚РѕРёС‚ РёР· РїР°СЂС‚РёС†РёР№. РџР°СЂС‚РёС†РёСЏ вЂ” СЌС‚Рѕ С‡Р°СЃС‚СЊ РґР°РЅРЅС‹С…, Р°Р»Р»РѕС†РёСЂРѕРІР°РЅРЅС‹С… РІ РѕРїРµСЂР°С‚РёРІРЅРѕР№ РїР°РјСЏС‚Рё РІРѕСЂРєРµСЂРѕРІ (Р¶РµСЃС‚РєРѕРј РґРёСЃРєРµ РїСЂРё РєСЌС€РёСЂРѕРІР°РЅРёРё) РґР»СЏ РїР°СЂР°Р»Р»РµР»СЊРЅС‹С… РїСЂРµРѕР±СЂР°Р·РѕРІР°РЅРёР№. РќР°РїСЂРёРјРµСЂ, РјРѕР¶РЅРѕ РѕРґРЅРѕРІСЂРµРјРµРЅРЅРѕ РїСЂРёР±Р°РІРёС‚СЊ РєР°РєРѕРµ-С‚Рѕ С‡РёСЃР»Рѕ Рє РєР°Р¶РґРѕРјСѓ СЌР»РµРјРµРЅС‚Сѓ РёР· РїР°СЂС‚РёС†РёРё. Р Р°СЃРїСЂРµРґРµР»РµРЅРёРµ СЌР»РµРјРµРЅС‚РѕРІ РїРѕ РїР°СЂС‚РёС†РёСЏРј Рё РёС… РєРѕР»РёС‡РµСЃС‚РІРѕ РјРѕР¶РµС‚ РїСЂРѕРёСЃС…РѕРґРёС‚СЊ РїРѕ РїСЂРёРЅС†РёРїСѓ round-robin Р»РёР±Рѕ РїРѕ С…СЌС€Сѓ РѕС‚ РєР°РєРѕР№-С‚Рѕ РєРѕР»РѕРЅРєРё РІ СЂРµР·СѓР»СЊС‚Р°С‚Рµ СЂР°Р·Р»РёС‡РЅС‹С… РѕРїРµСЂР°С†РёР№ Рё Р·Р°РІРёСЃРёС‚ РѕС‚ С‚РёРїР° РѕРїРµСЂР°С†РёРё. Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ  https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142... <a href="https://www.liveinternet.ru/users/rss_habr/post494723722/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet