Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 1299 сообщений
Cообщения с меткой

data engineering - Самое интересное в блогах

«  Предыдущие 30 Следующие 30  »
rss_habr

К вопросу о внедрении процессов разработки в международные распределённые команды

Среда, 14 Декабря 2022 г. 18:26 (ссылка)

На текущем проекте я столкнулся с необходимостью внедрения единого процесса разработки и деплоймента для нескольких команд дата-инженеров. “Несколько команд” - это 5 команд дата-инженеров из разных стран (Америка, Индия, СНГ) плюс команда, которая отвечает за DataOps, назовём их админами. Разные часовые пояса, немного разная культура работы, немного разный уровень дисциплины и менеджмента. Мысль о том, что нужно менять процессы работы сразу в 5 командах для 40+ человек, приводила в небольшой трепет. Как разрабатывать и внедрять SDLC (software development lifecycle) для команд разработчиков я знал, но тут и люди другие, и специфика проекта другая. В общем, я ждал сложностей. И они были.

Что там за сложности? Как их преодолели?

https://habr.com/ru/post/705446/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705446

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Что ждёт дата-инжиниринг в 2023 году? Семь прогнозов

Среда, 14 Декабря 2022 г. 16:00 (ссылка)

Количество поисковых запросов по профессиям



Что таит в себе будущее дата-инжиниринга? В этой статье я поделюсь своими прогнозами на 2023 и последующие годы.



Статьи с прогнозами на следующий год — это банально, но у них есть своя цель. Они помогают нам подняться над повседневной рутиной и подумать над тем, что принесёт выгоду в долгосрочной перспективе.



Кроме того, они обычно бывают упражнениями в смирении: мы пытаемся нарисовать целостную «общую картину» отрасли, стремительно эволюционирующей во множестве направлений. Попробуйте-ка найти отрасль, в которой людям сильнее нужно поддерживать актуальность своих знаний!



Эти возможные направления развития становятся ещё более важными, когда занимающиеся данными организации начинают оценивать и переоценивать свои приоритеты в свете экономической рецессии и когда от инвестиций в дата-инжиниринг зависит способность компании оставаться гибкой, инновационной и конкурентоспособной.
Читать дальше →

https://habr.com/ru/post/705000/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705000

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Что ждёт дата-инжиниринг в 2023 году? Семь прогнозов

Среда, 14 Декабря 2022 г. 16:00 (ссылка)

Количество поисковых запросов по профессиям



Что таит в себе будущее дата-инжиниринга? В этой статье я поделюсь своими прогнозами на 2023 и последующие годы.



Статьи с прогнозами на следующий год — это банально, но у них есть своя цель. Они помогают нам подняться над повседневной рутиной и подумать над тем, что принесёт выгоду в долгосрочной перспективе.



Кроме того, они обычно бывают упражнениями в смирении: мы пытаемся нарисовать целостную «общую картину» отрасли, стремительно эволюционирующей во множестве направлений. Попробуйте-ка найти отрасль, в которой людям сильнее нужно поддерживать актуальность своих знаний!



Эти возможные направления развития становятся ещё более важными, когда занимающиеся данными организации начинают оценивать и переоценивать свои приоритеты в свете экономической рецессии и когда от инвестиций в дата-инжиниринг зависит способность компании оставаться гибкой, инновационной и конкурентоспособной.
Читать дальше →

https://habr.com/ru/post/705000/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705000

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Создаем интерпретатор Python на основе ChatGPT

Среда, 14 Декабря 2022 г. 15:20 (ссылка)

Вдохновившись постом Building A Virtual Machine inside ChatGPT , я решил попробовать что-то подобное, но на этот раз вместо инструмента командной строки Linux давайте попробуем превратить ChatGPT в интерпретатор Python!

Читать далее

https://habr.com/ru/post/705252/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705252

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Среда, 07 Декабря 2022 г. 13:03 (ссылка)

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database.

Читать далее

https://habr.com/ru/post/704010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704010

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Актуальные подходы к формированию технологических карт в 2023 году

Среда, 07 Декабря 2022 г. 11:39 (ссылка)

По данным «Коммерсанта», под влиянием западных санкций промышленное производство в России снизилось почти на 4% — предприятия столкнулись с дефицитом импортных компонентов, нарушились привычные партнерские связи и логистические цепочки. Если верить прогнозам инвестгруппы «Финам», отрицательная тенденция в российской промышленности в ближайшее время сохранится. Рост цен на комплектующие, увеличение затрат на транспортировку, дефицит квалифицированных кадров — «долгоиграющие» факторы. Если вашему предприятию эти трудности знакомы не понаслышке, самый верный путь — заняться оптимизацией расходов на техобслуживание и ремонт оборудования. Сегодня мы хотим поговорить о правильном формировании технологических карт, от которых напрямую зависят затраты на ТОиР.

Читать далее

https://habr.com/ru/post/703984/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703984

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Обновить данные в ClickHouse без UPDATE: кейс IBS

Вторник, 06 Декабря 2022 г. 11:41 (ссылка)

Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.

Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.

Интересно? Переходите под кат.

https://habr.com/ru/post/703124/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703124

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[recovery mode] Генерирование и наблюдение характерных особенностей нормального распределения вероятностей в программе STATISTICA

Понедельник, 05 Декабря 2022 г. 17:53 (ссылка)

Всем привет, хочу с вами поделиться небольшим туториалом по работе в программе STATISTICA 10.0. Если кто из вас хочет познакомиться с теорией вероятностей или с математической статистикой, то эта программа одна из лучших в своей сфере. В этой статье я не буду приводить сложные (и не очень) формулы, которые нам расписывали на лекциях в институте, а попытаюсь пошагово показать как работать с данными и как проводить их анализ и визуализацию на примере.

Читать далее

https://habr.com/ru/post/703640/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703640

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Превью профессии «говорящий с нейросетями»

Воскресенье, 04 Декабря 2022 г. 17:26 (ссылка)

Все уже слышали, что openAI выпустили в свет свою новую нейросеть-ассистента, так что я решил попробовать на что она способна и описать свой опыт взаимодействия с этим.. Этой... Сущностью.

Разговор будет вестись как с человеком в вежливой форме, так как оказалось, что нейросеть очень хорошо запоминает = )

Начнём с чего-то простого, попросим сгенерировать на языке CMake простую программу

Читать далее

https://habr.com/ru/post/703380/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703380

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] 2003–2023: Краткая история Big Data

Воскресенье, 04 Декабря 2022 г. 13:00 (ссылка)

Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?



Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.



Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.



Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…



Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.

Читать дальше →

https://habr.com/ru/post/702932/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702932

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Работа с поверхностными и глубокими копиями в Python

Пятница, 02 Декабря 2022 г. 16:00 (ссылка)



В этой статье объясняется, как делать копии списков Python, массивов NumPy и датафреймов Pandas при помощи операций получения срезов, списочного индексирования (fancy indexing) и логического (boolean indexing). Эти операции очень часто используются при анализе данных и должны рассматриваться всерьёз, поскольку ошибочные предположения могут привести к падению быстродействия или неожиданным результатам.



Python кажется простым, но всякий раз, возвращаясь к его азам, ты находишь новые для освоения вещи. Здесь на ум приходит известное изречение Эйнштейна:



«Чем больше я узнаю, тем больше понимаю, как много я ещё не знаю».
Читать дальше →

https://habr.com/ru/post/702486/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702486

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Воскресенье, 27 Ноября 2022 г. 13:30 (ссылка)

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?

Читать далее

https://habr.com/ru/post/701794/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701794

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Инженерия данных != инженерия ПО

Воскресенье, 27 Ноября 2022 г. 13:00 (ссылка)



В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.



Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход. Читать дальше →

https://habr.com/ru/post/701366/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701366

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Инженерия данных != инженерия ПО

Воскресенье, 27 Ноября 2022 г. 13:00 (ссылка)



В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.



Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход. Читать дальше →

https://habr.com/ru/post/701366/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701366

Комментарии (0)КомментироватьВ цитатник или сообщество

«  Предыдущие 30 Следующие 30  »

<data engineering - Самое интересное в блогах

Страницы: 1 2 [3] 4 5 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda