Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 29 сообщений
Cообщения с меткой

pyspark - Самое интересное в блогах

Следующие 30  »
rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Pyspark. Анализ больших данных, когда Pandas не достаточно

Четверг, 29 Декабря 2022 г. 15:27 (ссылка)

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

https://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Генерация конвейеров обработки данных в Dataflow

Пятница, 23 Декабря 2022 г. 16:00 (ссылка)



Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.



О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем. Читать дальше →

https://habr.com/ru/post/707006/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707006

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Понедельник, 04 Июля 2022 г. 16:03 (ссылка)

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

При помощи PySpark Structured Streaming можно быстро разрабатывать масштабируемые сервисы обработки данных в реальном времени. Такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные.

Читать далее

https://habr.com/ru/post/674944/?utm_source=habrahabr&utm_medium=rss&utm_campaign=674944

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<pyspark - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda