|
rss_habr
Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSetПятница, 02 Сентября 2022 г. 18:17 (ссылка)
Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции. Читать далееhttps://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142
rss_habr
[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затратСреда, 08 Июня 2022 г. 11:46 (ссылка)
Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark. Читать далееhttps://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |