dataframe - Самое интересное в блогах

rss_habr

Лучший формат данных, для хранения pandas.DataFrame

Понедельник, 16 Января 2023 г. 12:01 (ссылка)

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

https://habr.com/ru/post/710798/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710798

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Среда, 07 Декабря 2022 г. 13:03 (ссылка)

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database.

https://habr.com/ru/post/704010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704010

Метки: Блог компании OTUS Data Engineering spark dataframe dataset relational Kubernetes

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Параллельная обработка и преобразование json-фалов в pandas

Пятница, 22 Июля 2022 г. 15:49 (ссылка)

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

https://habr.com/ru/post/678384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678384

Метки: Python Программирование json pandas dataframe

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<dataframe - Самое интересное в блогах

Страницы: [1] 2 3 .... 10