Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet |
Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.
Читать далееhttps://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |