Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 354 сообщений
Cообщения с меткой

парсинг - Самое интересное в блогах

Следующие 30  »
rss_habr

HabraTab — девайс для хаброзависимых

Четверг, 02 Февраля 2023 г. 12:40 (ссылка)

Что-то часто стал заглядывать в профиль после каждой новой публикации. Так вот я и решил сделать табло, которое стояло бы на столе, и показывало место в рейтинге, карму, ну и само значение очков рейтинга.

Что же получилось?

https://habr.com/ru/post/712114/?utm_source=habrahabr&utm_medium=rss&utm_campaign=712114

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Kodi перестал обновлять информацию о фильмах, потому что TMDB заблокировал доступ пользователям из России

Воскресенье, 30 Января 2023 г. 03:31 (ссылка)

Kodi - это мультимедийный центр со свободным кодом, который в том числе позволяет представить все локальные файлы с фильмами в виде своего собственного собственного домашнего кинотеатра с описанием и постерами. Kodi стал для меня аналогом ТВ-приставки любого оператора связи, только без ежемесячной оплаты и с возможностью работы без интернета.

The Movie Database (TMDB) - это популярная редактируемая пользователями база данных фильмов и сериалов, которая содержит описания большинства фильмов и обложки на русском языке.

При помощи своего парсера Kodi может идентифицировать фильм по названию файла, а затем скачать описание, обложку, актёров и многое другое с TMDB.

Блокировка доступа пользователям из России к TMDB произошла примерно в апреле 2022 года, но я разбираюсь с этим сейчас, потому что актуальным для меня стало только теперь, а конкретного решения проблемы коди не скачивает обложки, не работает скрепер я не нашёл.

Kodi c The Movie Database (TMDB) без VPN

https://habr.com/ru/post/712180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=712180

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Парсим сайты с защитой от ботов

Понедельник, 16 Января 2023 г. 20:12 (ссылка)

В этой статье мы разберемся, как работает типичная защита от роботов, рассмотрим подходы к автоматическому парсингу сайтов с такой защитой, и разработаем свое решение для её обхода. В конце статьи будет ссылка на гитхаб.

Речь не идет о каком-либо виде "взлома" или о создании повышенной нагрузки на сайт. Мы будем автоматизировать то, что и так можно сделать вручную.

Читать далее

https://habr.com/ru/post/710982/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710982

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как собрать базу организаций за час

Воскресенье, 08 Января 2023 г. 17:09 (ссылка)

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

Читать далее

https://habr.com/ru/post/709510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709510

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Парсили сайты, парсим и будем парсить. И не нужно этому мешать

Суббота, 07 Января 2023 г. 16:35 (ссылка)

Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. На днях мы вернули 16 000 руб. клиенту, так как не смогли парсить весь iherb.com с нужной клиенту скоростью (а там очень много товаров). Проверил и оказалось, что это единичный случай за весь год и родилась эта, чуть-чуть философская статья.

Одна из наших прошлых статей (самостоятельный парсинг сайтов) спровоцировала острые дискуссии среди читателей. И в комментариях к статье, и в нашем телеграм-канале (пишем, в том числе, про заработок на парсинге) обсуждение дилеммы «человек против роботов» (здравствуй, Будущее!) перевело взгляд в философскую плоскость. Все технические разговоры про парсинг неизменно сводятся к рассмотрению средств противодействия ботам и способам это противодействие нейтрализовать.

Читать далее

https://habr.com/ru/post/709386/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709386

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Взламывают сайты после выхода статей. Пишем подробно, как защитить ваш сайт на WordPress

Вторник, 20 Декабря 2022 г. 11:38 (ссылка)

Меня зовут Максим Кульгин, и моя компания clickfraud занимается защитой от скликивания рекламы в «Яндекс.Директ». Каждый раз, когда мы публикуем статью, и если она вдруг становится более-менее популярной, начинается атаки на наши сайты. Атаки не профессиональные, бессмысленные, но неприятные и мы, на основе опыта, подготовили очень большое руководство для самостоятельно защиты.

upd. от 17.12 - наши сайты снова мучают. Сотня тысяч заявок на сброс пароля WordPress, которые забивают почтовые ящики и почтовый сервер. И где у нас нет рекапчи - сотня тысяч заявок из формы обратной связи.... Автор этого дерьма - скажи, зачем? У нас не банк, не крипта - ЗАЧЕМ? Ты недавно стал половозрелым и хвастаешься соседям по парте в школе? В чем сакральный смысл действий? Если мы платили за тариф по пакету писем, понесли бы финансовый ущерб (у нас свой hmailserver).

Читать далее

https://habr.com/ru/post/706520/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706520

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как мы затащили MoscowCityHack2022

Понедельник, 19 Декабря 2022 г. 15:59 (ссылка)

10-13 июня 2022 года прошел MoscowCityHack2022. Наша команда NorthShine заняла на нем первое место в первом кейсе. Задача была написать "сервис проверки поддельных новостей (fake news) в сфере технологий и инноваций".

Мы провели небольшой ресерч и определились с тем, как в принципе будем писать сервис по определению фейковых новостей. Сначала нам надо было решить какую новость считать правдивой, а какую - нет...

Читать далее

https://habr.com/ru/post/706374/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706374

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Самостоятельный парсинг ваших конкурентов. Топ 10 расширений для Chrome, которые не требуют программирования

Пятница, 09 Декабря 2022 г. 14:22 (ссылка)

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Подготовили для вас подробный обзор расширений для Chrome, с помощью которых вы можете сами заниматься парсингом без привлечения таких компаний, как наша. Сервисы зарубежные, часть бесплатные — бери и делай, это не сложно!

Иногда в сети можно услышать негодования по поводу того, что описываемые подходы к парсингу слишком сложные для обычного пользователя. И хорошо бы «взять всё и упростить», чтобы можно было справиться самостоятельно.

Что ж, вашему вниманию предлагается экспресс-обзор решений из серии «проще некуда»: рассматриваемые инструменты даже не надо устанавливать на компьютер — они настраиваются простыми движениями мыши. При этом такие инструменты нельзя назвать примитивными. Хотя некоторые — да, идут по пути минимализма возможностей, но зато другие являются по сути «тонким клиентом», за которым спряталась мощь облачного сервиса, богатство огромного пула прокси-серверов и хитрость искусственного интеллекта.

Невозможно представить современный бизнес без аналитики информации, собранной в интернете. Очевидно, что добывать данные вручную долго не получится: не хватит ни времени, чтобы просматривать страницы, ни внимания, чтобы не допускать ошибок при нескончаемых операциях копирования и вставки. URL-адреса, страницы, таблицы, картинки и скрытые от глаза данные — это лишь небольшой перечень того, что надо «прочитать» на веб-страницах, сохранить и систематизировать.

И единственным выходом в таких случаях становится автоматизация. А когда мы говорим об автоматизации сбора данных, представленных где-то в сети, то мы говорим о парсинге.

Читать далее

https://habr.com/ru/post/704522/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704522

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Парсинг XML в Golang

Четверг, 01 Декабря 2022 г. 17:39 (ссылка)

Актуальность XML в 2022 году была бы под вопросом, но все еще остается много legacy систем, которые могут предоставлять данные в этом формате, поэтому нам приходится с ним работать. XML популярен в travel индустрии. Например, GDS (международные системы бронирования, более подробно можно почитать в википедии) или информационная система Darwin ассоциации железнодорожных транспортных компаний Великобритании активно используют его. Поэтому, я надеюсь, что эта статья будет кому-то полезна. В ней рассмотрена пара подходов к парсингу xml в Golang: обычный и потоковый, пользовательский парсинг поля и работа с различными кодировками. Мы будем использовать пакет encoding/xml из стандартной библиотеки. Если вы уже работали c encoding/json, то будет много похожего, но некоторые различия все же есть.

Читать далее

https://habr.com/ru/post/702918/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702918

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как Америка любила и бодалась с Huawei — и при чем тут казанский Иннополис

Вторник, 29 Ноября 2022 г. 12:38 (ссылка)

10 лет назад в Санта-Клара, Калифорния, неподалеку от Интела и NVidia, стоял кампус Huawei. В нем работали не только китайцы, но и вообще обычная публика Silicon Valley - индусы, американцы, даже русские попадались. Бизнесмены калифорнийских электронных компаний говорили "Huawei - это дверь в Китай" и заключали с ними крупные сделки.

И вот правительство начало Huawei жучить - и от Андроида отлучило, и от других критических технологий. Но на всяких хитрецов найдется гайка с левой резьбой. И вот что Huawei стал делать по этому поводу.

Но американское правительство Huawei невзлюбило. Можно обсусоливать те или иные поводы, но коренная причина понятна - американскому правительству хочется, чтобы Америка сохраняла технологическое преимущество. Ибо если технология коммодифицируется и айфон не будет ничем особенным, то кто будет читать брошурки про продвижение демократии, распостраняемые американскими посольствами в других странах? Над ними будут просто смеяться.

Читать далее

https://habr.com/ru/post/702186/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702186

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[recovery mode] История одного Telegram бота

Воскресенье, 30 Октября 2022 г. 16:24 (ссылка)

Рассказываю, как я создавал своего бота и зачем это мне было нужно.

И как у меня появилась девушка :)

Читать далее

https://habr.com/ru/post/696332/?utm_source=habrahabr&utm_medium=rss&utm_campaign=696332

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как сделать карту цен в Excel без макросов и VBA

Вторник, 18 Октября 2022 г. 07:43 (ссылка)

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

Читать далее

https://habr.com/ru/post/693974/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693974

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

20 млн рублей в год на парсинге сайтов

Среда, 07 Сентября 2022 г. 11:12 (ссылка)

Меня зовут Максим Кульгин, моя компания (xmldatafeed) занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом с вами. Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 43) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы.

1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные. В 2022 году надеемся, что результат будет чуть лучше.

Читать далее

https://habr.com/ru/post/686852/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686852

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Telegramm-habr-бот. Долгий путь к совершенству

Пятница, 03 Сентября 2022 г. 00:59 (ссылка)

Каждый день мы просматриваем habr. Каждый день заходим на главную ленту и просматриваем её. Что, если автоматизировать этот просмотр?

В статье я расскажу, как я писал telegram-бота на python3, который вытаскивает заголовки статей с habr и пишет их в telegram.

И т. Д.

Читать далее

https://habr.com/ru/post/686174/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686174

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Бот или не бот — вот в чем вопрос

Пятница, 02 Сентября 2022 г. 11:46 (ссылка)

Идентификация пользователей интернета по "веб-отпечатку" (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии защиты от ботов. Почему защита от ботов деанонимизировала людей, как это уже ударило по коммерции и как совсем скоро изменит общество в целом - популярно под катом.

Читать далее

https://habr.com/ru/post/686038/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686038

Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<парсинг - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda