Что здесь есть? Вход / Регистрация / Напомнить пароль

дата инженер - Самое интересное в блогах

Следующие 30 »

rss_habr

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Пятница, 02 Сентября 2022 г. 18:17 (ссылка)

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.

Читать далее

https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142

Метки: Блог компании OTUS API spark data api Дата инженер партиции

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Выполнение заданий потоковой обработки раз в день для 10-кратного снижения затрат

Среда, 08 Июня 2022 г. 11:46 (ссылка)

Это шестой пост из серии статей о том, как выполнять сложную аналитику потоковой передачи с помощью Apache Spark.

Читать далее

https://habr.com/ru/post/670266/?utm_source=habrahabr&utm_medium=rss&utm_campaign=670266

Метки: Блог компании OTUS Data Engineering дата инженер spark потоковая обработка данных Apache Spark

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<дата инженер - Самое интересное в блогах

Страницы: [1] 2 3 .... 10

LiveInternet.Ru

Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda