Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 12 сообщений
Cообщения с меткой

дата инженер - Самое интересное в блогах

Следующие 30  »
rss_habr

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Пятница, 02 Сентября 2022 г. 18:17 (ссылка)

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.

Читать далее

https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затрат

Среда, 08 Июня 2022 г. 11:46 (ссылка)

Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark.

Читать далее

https://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<дата инженер - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda