pyspark - Самое интересное в блогах

Следующие 30 »

rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки: Python Big Data Hadoop Data Engineering fugue spark pyspark bigdata pandas

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Pyspark. Анализ больших данных, когда Pandas не достаточно

Четверг, 29 Декабря 2022 г. 15:27 (ссылка)

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

https://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468

Метки: Python Big Data hadoop pandas pyspark bigdata spark нехватка памяти apache spark

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Генерация конвейеров обработки данных в Dataflow

Пятница, 23 Декабря 2022 г. 16:00 (ссылка)

Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.

О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем. Читать дальше →

https://habr.com/ru/post/707006/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707006

Метки: Блог компании RUVDS.com Администрирование баз данных Big Data ruvds_ перевод dataflow рабочие потоки конвейеры данных пайплайны pyspark scala netflix

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Понедельник, 04 Июля 2022 г. 16:03 (ссылка)

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

При помощи PySpark Structured Streaming можно быстро разрабатывать масштабируемые сервисы обработки данных в реальном времени. Такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные.

https://habr.com/ru/post/674944/?utm_source=habrahabr&utm_medium=rss&utm_campaign=674944

Метки: Блог компании Neoflex python Big Data neoflex spark pyspark kafka streaming structured streaming json avro

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<pyspark - Самое интересное в блогах

Страницы: [1] 2 3 .... 10