data engineering - Самое интересное в блогах

rss_habr

[Перевод] Обучите YOLOv8 на пользовательском наборе данных

Среда, 01 Февраля 2023 г. 16:30 (ссылка)

Ultralytics недавно выпустила семейство моделей обнаружения объектов YOLOv8. Эти модели превосходят предыдущие версии моделей YOLO как по скорости, так и по точности в наборе данных COCO. Но как насчет производительности на пользовательских наборах данных? Чтобы ответить на этот вопрос, мы будем обучать модели YOLOv8 на пользовательском наборе данных. В частности, мы будем обучать его на крупномасштабном наборе данных для обнаружения выбоин.

https://habr.com/ru/post/714232/?utm_source=habrahabr&utm_medium=rss&utm_campaign=714232

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как жили наши предки 400 лет назад? Создание базы данных населения XVII века по южным уездам России

Понедельник, 30 Января 2023 г. 18:07 (ссылка)

Можно ли найти конкретного человека, жившего в XVII веке? Выражаясь современным языком «пробить по базам». Оказывается, архивные документы хранят массу информации об обычных людях того периода. Однако существует ряд сложностей, не позволяющих обычному исследователю добраться до этой информации. Во-первых, нужно пройти определённую процедуру по получению доступа в архив. Во-вторых, не всегда можно выйти на нужный документ, используя так называемый научно-справочный аппарат – различные описи и реестры документов, имеющиеся в архиве. Наконец, не имея навыков чтения документов XVII века, которые написаны скорописью, почти нереально ознакомиться с его содержанием.

Данные проблемы предполагается решить с помощью создания базы данных служилых людей XVII века. Об этом небольшая история.

Как всё начиналось.

Привет! Меня зовут Дмитрий и вот уже более 10 лет я изучаю историю южных уездов России XVII века. Территориально – это современные Белгородская, а также соседние Воронежская, Курская, Липецкая и другие области. Населены они были тогда так называемыми служилыми людьми – они получали здесь в качестве служебного жалования земельные наделы, которые сами и обрабатывали. В XVIII веке их потомки стали однодворцами, а затем государственными крестьянами. Большая часть населения Курской, Воронежской и соседних губерний XIX века происходят из тех самых служилых людей XVI–XVII веков.

Продолжим?

https://habr.com/ru/post/713736/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713736

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Введение в диффузионные модели для генерации изображений – полное руководство

Четверг, 26 Января 2023 г. 17:14 (ссылка)

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

https://habr.com/ru/post/713076/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713076

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Выбираем формат хранения данных в экосистеме Hadoop

Понедельник, 23 Января 2023 г. 14:31 (ссылка)

Привет, %username%! Меня зовут Кирилл Фурзанов, я Data Scientist в Сбере, участник профессионального сообщества NTA. При формировании витрин данных и датасетов в экосистеме Hadoop одним из важных вопросов является выбор оптимального способа хранения данных в hdfs. Рассмотрим один из важных вопросов при создании витрины – выбор соответствующего формата файла для хранения.

https://habr.com/ru/post/712246/?utm_source=habrahabr&utm_medium=rss&utm_campaign=712246

Метки: Программирование Apache Hadoop Data Engineering parquet apache orc json

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как я участвовал в создании информационных систем для медицины

Четверг, 19 Января 2023 г. 20:56 (ссылка)

В 1987-м году я окончил с красным дипломом приборостроительный факультет челябинского политехнического института по специальности "Автоматика и телемеханика", хотя планировал стать физиком-теоретиком и школу заканчивал в специализированной школе-интернате №18 при МГУ. По распределению попал в специализированное конструкторское бюро и до 1991-го года разрабатывал электронные блоки для бронетанковой техники. До сих пор считаю что полученная при этом инженерная школа является чем-то недостижимым в современных реалиях. В частности, мы с коллегами создали комбинированный аналого-цифровой программируемый комплекс, который в реальном времени проводил расчеты по математической модели объекта, описываемой системой дифференциальных уравнений 4-го порядка с 14-ью нелинейными элементами и принимал решения более 10 тысяч раз в секунду. На современных вычислителях это наверное и можно было бы сделать, но в то время мы решали задачу имея в распоряжении только набор интегральных микросхем, самой крутой из которых была ПЗУ на 2 килобайта и всё наше творчество должно было уместиться в 9 литров объёма и работать в диапазоне температур от -40 до +85.

После того как в 1991-м году страна развалилась я выбрал стезю программирования и с тех пор так или иначе связан с разработкой ПО и построением крупных информационных систем. Начинал с создания комплексного ПО и "умной кассы" для торгового центра, потом была информационная система учёта аренды муниципального имущества. Потом я вернулся в конструкторское бюро на считавшийся безнадёжным проект по созданию комплекса диагностических стендов для автоматизированного поиска неисправностей в электронных блоках в интересах иностранного заказчика. После окончания разработки я возглавлял группу разработчиков, которая сдавала эти стенды заказчику, и мы с этой задачей справились.

https://habr.com/ru/post/711682/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711682

Метки: Java xml Проектирование и рефакторинг Хранение данных Data Engineering xpath documentdb document-oriented databases openehr

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Краткое руководство по работе с данными с помощью Miller

Среда, 18 Января 2023 г. 17:01 (ссылка)

Привет, друзья!

Представляю вашему вниманию перевод этой замечательной статьи, в которой рассказывается о Miller — автономном, легковесном и мощном интерфейсе командной строки (Command Line Interface, CLI) для работы с данными в форматах CSV, JSON и некоторых других.

Интересно? Тогда прошу под кат.

Читать дальше →

https://habr.com/ru/post/711246/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711246

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Лучший формат данных, для хранения pandas.DataFrame

Понедельник, 16 Января 2023 г. 12:01 (ссылка)

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

https://habr.com/ru/post/710798/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710798

Метки: Блог компании Страховой Дом ВСК Python Хранение данных Data Engineering Pandas feather parquet hdf pickle csv msgpack dataframe бенчмарк

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки: Python Big Data Hadoop Data Engineering fugue spark pyspark bigdata pandas

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Polars: библиотека для работы с данными, написанная на RUST

Четверг, 12 Января 2023 г. 11:26 (ссылка)

Настоящий хреновый программист всегда находится на гребне волны новых технологий. Зачем ему это? Чтобы при случае можно было повыделоваться багажом своих знаний, и заработать немного очков уважения в окружении своих менее осведомлённых коллег. Stay toxic, brothers. Я с вами.

Когда-то давно мне нужно было обработать чуть больше тысячи жирнейших excel-таблиц и сделать это нужно было быстро. Буквально за час я вкатился в Python и Pandas, а за второй час выполнил все необходимые манипуляции. Так я и познакомился с этими двумя. С тех самых пор приходилось выполнять самые разные задачи по анализу данных и всё бы ничего, но хотелось бы, чтобы Pandas работал побыстрее. Оказывается хотелось не одному мне, а целой команде разработчиков, на Rust.

Как и полагается, всё что на Rust то Blazingly-Fast, и Polars не стала исключением. За счёт чего Polars быстрее Pandas? Что это за библиотека и стоит ли на неё переходить? Давайте попробуем разобраться в этой статье.

https://habr.com/ru/post/710240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710240

Метки: python Data Engineering datascience pandas polars rust хреновый программист

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Web3: пишем небольшой фреймворк для работы со смарт-контрактами на Python

Среда, 11 Января 2023 г. 14:59 (ссылка)

Привет, Хабр! В данной статье изначально планировалось поделиться процессом написания выпускной работы, но что-то пошло не так и, в итоге, по чистой случайности получился фреймворк. Здесь я постараюсь описать основные принципы его работы, поделюсь предпосылками создания и приведу парочку примеров применения.

https://habr.com/ru/post/710084/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710084

Метки: Децентрализованные сети python ооп Криптовалюты data engineering web3 defi

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Web3: пишем небольшой фреймворк для работы со смарт-контрактами на Python

Среда, 11 Января 2023 г. 14:59 (ссылка)

https://habr.com/ru/post/710084/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710084

Метки: Децентрализованные сети python ооп Криптовалюты data engineering web3 defi

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Ultralytics YOLOv8

Среда, 11 Января 2023 г. 10:47 (ссылка)

YOLOv8 - это новейшее семейство моделей обнаружения объектов на базе YOLO от Ultralytics, обеспечивающих самые современные характеристики.

https://habr.com/ru/post/710016/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710016

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

ETL и коннекторы к источникам данных: российские реалии

Среда, 11 Января 2023 г. 09:09 (ссылка)

За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.

Зачем?

Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.

Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.

Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.

https://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996

Метки: Big Data визуализация данных Data Engineering dwh etl extract transform load КХД хранилище данных olap business intelligence

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Почему компании продолжают звонить и писать отказавшимся от коммуникаций клиентам

Вторник, 10 Января 2023 г. 12:22 (ссылка)

HFLabs знают как компанию, которая помогает управляться с клиентскими данными — чистить, организовывать и находить неочевидные связи. Работаем в энтерпрайзе 18 лет. Десять из них — строим клиентский MDM для компаний с базами из сотен миллионов записей.

Заказчики все чаще спрашивают нас, как работать с клиентскими согласиями так, чтобы блюсти законы и не злить клиентов. «Красный флаг» для компании — клиенту продолжают писать и звонить, когда тот просил прекратить.

Чтобы ответить точнее, сначала мы расспросили компании, что болит:
как хотят, где не получается. Затем разобрались, почему не выходит и нашли, как починить.
Ответ разделили на два текста. В один не поместился — уж очень объемный.

В этой статье рассказываем, из-за каких ошибок со сбором, обработкой и хранением согласий происходят факапы. И чем рискует бизнес — а то, может, и нет смысла наводить порядок.

В следующем тексте опубликуем удачные организационные и технические практики работы с согласиями для маленьких, средних и больших компаний.

Поехали

https://habr.com/ru/post/709812/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709812

Метки: Блог компании HFLabs Data Engineering Анализ и проектирование систем Спам и антиспам Хранение данных data privacy персональные данные согласие 152-фз требования 152-фз

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Качество данных, или как заставить аналитика красить траву в зелёный цвет

Пятница, 30 Декабря 2022 г. 14:53 (ссылка)

Данные и информация — это и ценность, и риск одновременно. На основе данных принимаются разного рода управленческие решения, и если данных мало, они недостоверные или в них множество ошибок, то возникает вопрос: какой вектор развития будет лежать на основе анализа таких данных?

Эксперт-аналитик направления сервисов для работы с большими данными Группы «Иннотех» Владимир Ловцов поделился своим мнением о том, как организовать корректную работу с данными.

https://habr.com/ru/post/708684/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708684