|
AveAdmin
🌵🤠 Арендаторы в Filament Laravel - жуткие ю-звери! 🐒🌴Воскресенье, 05 Ноября 2023 г. 14:58 (ссылка)
Пытаясь разобраться с тем, как лучше спроектировать то, что я в итоге собираюсь явить Свету 🕯 (и Тьме 🕳 заодно), перевёл инструкцию по многопользовательскому режиму, реализованному в Filament Laravel Настройка мультипользовательского режима в Filament. Документация с примерами на русском языкеНо... 🙀 В процессе перевода выяснилось, что: 👻 1. Это не про организацию многопользовательсктго режима... вернее, не совсем про это. Скорее, это про то, как создавать сервисы с доступом по подписке к определённым разделам сайта. 🤑 Заманчиво, но мне нужно не это... И всё там отталкивается от понятия Арендатор. 2. Что для работы с этим режимом есть готовое решение, но... оно платное (99$ на 1 проект и 199$ на неограниченное количество проектов), Laravel Spark называется, если кому нужно. Штука с виду полезная и навороченная. Она для того, чтобы деньги собирать и считать (если кратко, биллинг). 🤣 Тоже заманчиво, но, я ещё подумаю, покупать ли лицензию... ибо... реально штука полезная! 😺👍 с красивым дизайном! 😻😆 Так что, с этой шнягой, - пока откладываем... и занимаемся дальше тем, что изучаем Laravel Продолжение преследует! ✌😸🏴☠
rss_habr
[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySparkЧетверг, 12 Января 2023 г. 22:27 (ссылка)
Автор оригинальной статьи: Kevin Kho Повышение производительности разработчиков и снижение затрат на проекты Big Data Читать далееhttps://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338
rss_habr
Pyspark. Анализ больших данных, когда Pandas не достаточноЧетверг, 29 Декабря 2022 г. 15:27 (ссылка)
Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных. Ну что же, приступим... Читать далееhttps://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468
rss_habr
Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base tableСреда, 07 Декабря 2022 г. 13:03 (ссылка)
В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database. Читать далееhttps://habr.com/ru/post/704010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704010
rss_habr
[Перевод] 2003–2023: Краткая история Big DataВоскресенье, 04 Декабря 2022 г. 13:00 (ссылка)
Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind? Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались. Читать дальше → https://habr.com/ru/post/702932/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702932
rss_habr
[Перевод] Совместный доступ к Spark-датасетам из разных приложений — Redis нам в помощьПятница, 02 Декабря 2022 г. 14:25 (ссылка)
Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д. Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis. Читать далееhttps://habr.com/ru/post/703136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703136
rss_habr
Автоматический подбор параметров для Spark-приложений на примере spark.executor.memoryЧетверг, 24 Ноября 2022 г. 11:41 (ссылка)
Привет! Я – Валерия Дымбицкая, технический руководитель команды дата-инженеров в OneFactor. Это вторая часть статьи о том, как автоматически подбирать параметры для Spark-приложений на примере spark.executor.memory. В первой части мы разбирали, как читать логи событий Spark и как достать из них три показателя того, насколько можно уменьшить память экзекьюторам (а также зачем это делать). Здесь я расскажу о том, как превратить это всё в работающую систему на продуктиве, используя довольно простые средства. Читать далееhttps://habr.com/ru/post/701136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701136
rss_habr
Автоматический подбор параметров для Spark-приложенийЧетверг, 27 Октября 2022 г. 11:12 (ссылка)
Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов. Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода. В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили. Зачем нам вообще понадобился автоматический тюнинг? Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось. Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из Читать далееhttps://habr.com/ru/post/695562/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695562
rss_habr
Realtime-матчинг: находим матчи за считанные минуты вместо 24 часовПятница, 14 Октября 2022 г. 12:08 (ссылка)
Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle. Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач: 1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения. 2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров. 3. Понимать, насколько пользователям выгодно покупать на Ozon, и выстраивать ценообразование на основе этой информации. Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму. Читать далееhttps://habr.com/ru/post/692860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692860
rss_habr
Подводные камни Spark: что делать с перезаписью и дополнением в таблицахСреда, 12 Октября 2022 г. 11:05 (ссылка)
https://habr.com/ru/post/692552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692552
rss_habr
Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSetПятница, 02 Сентября 2022 г. 18:17 (ссылка)
Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции. Читать далееhttps://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142
rss_habr
Что должен знать дата-инженер. Роадмап для джуниораВторник, 30 Августа 2022 г. 11:02 (ссылка)
Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером. На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга. Читать далееhttps://habr.com/ru/post/684658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684658
rss_habr
Как организовать потоковую обработку данных. Часть 1Четверг, 25 Августа 2022 г. 14:00 (ссылка)
Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат! Читать далееhttps://habr.com/ru/post/684476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684476
rss_habr
Параллельные вычисления в Apache SparkВторник, 23 Августа 2022 г. 12:42 (ссылка)
Всем привет! Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в одном из продуктов X5 Tech, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark. Читать далееhttps://habr.com/ru/post/684024/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684024
rss_habr
[Перевод] Пять советов по исправлению перекошенных соединений в Apache SparkСреда, 03 Августа 2022 г. 11:00 (ссылка)
Соединения (Joins) являются одними из наиболее фундаментальных преобразований в типичной процедуре обработки данных. Оператор Join позволяет коррелировать, обогащать и фильтровать два входных набора (пакета / блока) данных (Datasets).Обычно два входных набора данных классифицируются как левый и правый на основе их расположения по отношению к пункту/оператору По сути, соединение работает на основе условного оператора, который включает логическое выражение, основанное на сравнении между левым ключом, полученным из записи левого блока данных, и правым ключом, полученным из записи правого комплекса данных. Левый и правый ключи обычно называются соединительными ключами (Join Keys). Логическое выражение оценивается для каждой пары записей из двух входных наборов данных. На основе логического вывода, полученного в результате оценки выражения, условный оператор включает условие выбора — для отбора либо одной из записей (из пары), либо комбинированной записи (из записей, образующих пару).Читать дальше → https://habr.com/ru/post/678826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678826
rss_habr
Как реализовать магию Sqoop для загрузки данных через SparkПятница, 29 Июля 2022 г. 16:19 (ссылка)
Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных. Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop. Первичное сравнение технологий В нашем примере будем рассматривать загрузку данных из таблиц OracleDB. Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive. Читать далееhttps://habr.com/ru/post/679876/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679876
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |