A-parser - продвинутый парсер ПС, Pr, Wordstat, всего более 35 парсеров!, Google, Yandex, Bing, Suggest, PR, Whois, AOL, Alexa, MajesticSEO... |
|
|
|
8.2.2020, 0:33
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник рецептов #38: парсер Яндекс.Кью, парсер сайтов из Яндекс.Радар и определение типов сайтов38-й сборник рецептов. В нем опубликованы: парсер сервиса вопросов-ответов Яндекс.Кью, парсер для сбора сайтов из Яндекс.Радара, а также парсер для определения типа сайта. Парсер Яндекс КьюЯндекс.Кью - это сервис вопросов-ответов, запущенный в конце 2019 года. Он объединил в себе несколько других сервисов, поэтому уже на момент запуска обладал большой базой информации. Мы не могли оставить это просто так и публикуем парсер для сбора данных из этого сервиса. (IMG: https://files.a-parser.com/img/bvd7vsvdbs848sj.png) Парсинг сайтов из Яндекс.РадарЯндекс.Радар - это сравнительно новый сервис Яндекса, который в отчасти заменил ранее популярный Яндекс.Каталог. Это большой каталог популярных в рунете сайтов с данными о их посещаемости и некоторой информацией о посетителях. Мы подготовили парсер, с помощью которого можно собрать список сайтов с необходимыми фильтрами. (IMG: https://files.a-parser.com/img/6j5q6_200204160703.png) Определение типа сайта по Яндекс РадаруИ еще один парсер для Яндекс.Радар от нашего пользователя. С его помощью можно определять типы сайтов, если они есть в базе Яндекс.Радара. (IMG: https://files.a-parser.com/img/925f798dbf.jpg) Еще больше различных рецептов в нашем Каталоге!Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов(IMG:https://files.a-parser.com/img/button_a-parser_small_1200.png)
|
|
|
|
|
19.2.2020, 13:49
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник статей #11: анализ содержимого картинок, добавление ссылок в индекс Google и поиск RSS лент11-й сборник статей, в котором рассказано, как в А-Парсере анализировать содержимое картинок, добавлять страницы своих сайтов в индекс Google и искать RSS ленты необходимой тематики. Фильтрация картинок по их содержимомуВ этой статье на примере поиска картинок с определенным содержимым, показана работа с Google Vision. С помощью "компьютерного зрения" для каждого изображения присваивается набор меток, который описывает содержимое. (IMG: https://files.a-parser.com/img/bvh74g37fa.png) Инструкция по использованию Google Indexing APIВ данной статье рассмотрена работа с Google Indexing API, который позволяет владельцам сайтов напрямую уведомлять Google о добавлении или удалении страниц. Таким образом ваш сайт будет быстрее просканирован Google, что способствует повышению качества трафика. (IMG: https://files.a-parser.com/img/3p4a3_200214180729.png) Поиск и сбор rss лентВ этой статье рассмотрен простой пример поиска ссылок на rss ленты по заданной тематике. Решение состоит из 3-х пресетов, каждый из которых отвечает за определенный этап работы. (IMG: https://files.a-parser.com/img/cbyuefeteg.png) Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки (IMG: http://4seo.biz/style_emoticons/default/smile.gif) ) - отписывайтесь здесь. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники статей(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
17.4.2020, 9:43
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
1.2.852 - новый парсер для Google Keyword Planner, Native NodeJS, множество исправлений и улучшений(IMG: https://files.a-parser.com/img/1.2.852.png) Улучшения- Добавлен парсер (IMG:https://a-parser.com/img/parsers/se-google-keywordplanner.png) SE::Google::KeywordPlanner
- собираются списки подсказок и варианты ключевых слов
- для каждого варианта парсится среднее кол-во запросов в месяц, конкуренция, объемы поиска, а также минимальная и максимальная ставки
- присутствует возможность указывать несколько ключевых слов в запросе
- В (IMG:https://a-parser.com/img/parsers/se-yandex-byimage.png) SE::Yandex::ByImage добавлена функция Get full links to page, которая позволяет получать реальные ссылки на страницы
- В (IMG:https://a-parser.com/img/parsers/se-yandex-sqi.png) SE::Yandex::SQI добавлены переменные сбор количества отзывов и оценок, а также рейтинга
- Улучшена проверка правильности разгадывания каптчи в парсерах Яндекса
- Автоматическое увеличение лимитов на ОС Linux
- Улучшена работа с регулярными выражениями
- При бане прокси в лог задания теперь выводится более детальная информация
- Native NodeJS переведена из стадии альфы в бету, проведено множество оптимизаций, за счет чего в большинстве сценариев это дает повышение максимальной скорости в 1.5-2 раза, а также уменьшение потребление памяти в 2-4 раза
- Начиная с 1.2.822 все бета версии имеют включенный Native NodeJS, стабильные версии выходят с включенным oldnode
- Native NodeJS: добавлена экспериментальная поддержка HTTP/2
- Native NodeJS: обновление Node.js до актуальной версии
- JS парсеры: добавлена опция allow_dangerous_node_modules, подробнее тут
Исправления в связи с изменениями в выдаче- Исправлено скачивание каптчи в (IMG:https://a-parser.com/img/parsers/se-yandex.png) SE::Yandex
- Исправлен (IMG:https://a-parser.com/img/parsers/rank-ahrefs.png) Rank::Ahrefs: в $anchors переменная $bl заменена на $domains
- В (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google исправлены:
- парсинг mobile news
- баг с дублированием ссылок в выдаче
- парсинг анкоров в рекламе, связанных ключевых слов, а также первый результат в выдаче не всегда попадал в serp
- В (IMG:https://a-parser.com/img/parsers/se-google-images.png) SE::Google::Images исправлен парсинг gif
- Исправлен (IMG:https://a-parser.com/img/parsers/se-yandex-byimage.png) SE::Yandex::ByImage, убраны flat переменные $height и $width
- SE::Yandex, SE::Google::ByImage, SE::DuckDuckGo, Social::Instagram::Post, Rank::Ahrefs, Rank::Bukvarix::Domain, SE::MailRu, SE::Yandex::Suggest
Исправления- Исправлена работа Net::Whois с доменами 3го уровня, а также улучшена проверка получаемого ответа
- Исправлена работа Extra query string в SE::Bing
- Исправлена работа Rank::SEMrush и Rank::SerpStat::Keyword при получении ответа без данных
- Исправлен баг с типами переменных
- Исправлена ошибка, при которой запросы ошибочно считались неудачными при постановке задания на паузу
- Исправлена работа Bypass Cloudflare
- Исправлен динамический лимит потоков
- Исправлена ошибка при использовании Request delay
- Исправлено предупреждение о превышении лимита в Поле запросов
- Исправлена работа $tools.task.id в имени файла результата
- JS парсеры: исправлены получение сессий и работа http2 (баг появился в одной из предыдущих версий)
- JS парсеры: исправлено определение кодировки страницы
- Native NodeJS: исправлено поведение при некоторых ошибках
- Native NodeJS: исправлена проблема при обновлении A-Parser на OS Windows
- Native NodeJS: исправлена работа save_to_file, а также еще ряд ошибок
- Native NodeJS: исправлена работа SOCKS5 с авторизацией
- Native NodeJS: исправлена подстановка данных после Конструктора запросов
(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
27.4.2020, 11:38
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник рецептов #40: посещаемость организаций, SSL сертификаты, ikea и анализ доменовПредставляем вашему вниманию 40-й сборник рецептов, в который вошли: - парсер данных о посещаемости организаций
- парсер данных о SSL сертификатах
- парсер товаров на ikea.com
- комплексный пресет для анализа доменов по ряду характеристик
- способ извлечения доменов из ссылок без фактического захода на страницу
Посещаемость в Google MapsВ поисковой выдаче Google для определенных запросов отображается расширенный сниппет с информацией об организации из Google карт. В частности, обычно отображается информация о посещаемости в разрезе дней недели. Представляем парсер, который собирает данные о посещаемости. (IMG: https://files.a-parser.com/img/hxbk8_200427145217.png) Данные по SSL сертификатуДанный парсер собирает информацию о SSL сертификате сайта. В качестве источника данных используется сторонний ресурс. (IMG: https://files.a-parser.com/img/dnr3e_200427125510.png) Парсер ikea.comПарсер данных из ikea.com, который позволяет собирать различную информацию о товарах. Согласно данным из Википедии, ikea - это одна из крупнейших в мире торговых сетей по продаже мебели и товаров для дома. (IMG: https://files.a-parser.com/img/fwrq2_200427130816.png) Кроме этого:Еще больше различных рецептов в нашем Каталоге!Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов(IMG:https://files.a-parser.com/img/button_a-parser_small_1500.png)
|
|
|
|
|
18.5.2020, 8:49
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteerПредставляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser. - Работа с Google таблицами
- Отправка писем из А-Парсера
- Авторизация с помощью puppeteer
Сохранение результатов в Google SpreadSheetsОдин из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность. (IMG: https://files.a-parser.com/img/bsdf64354bhd734vfdatf54.png) Отправка почтовых писемЕще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера. (IMG: https://files.a-parser.com/img/swlv0_200518110130.png) Авторизация на GitHub с использованием puppeteerЕще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию. (IMG: https://files.a-parser.com/img/dasdt56567asd56s.png) Еще больше различных рецептов в нашем Каталоге!Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов(IMG:https://files.a-parser.com/img/button_a-parser_small_1500.png)
|
|
|
|
|
13.6.2020, 4:35
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах(IMG: https://files.a-parser.com/img/1.2.912.png) Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser'е Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster. Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер (IMG: https://a-parser.com/img/parsers/rank-cms.png) Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил. УлучшенияИсправления в связи с изменениями в выдачеИсправления- Исправлен баг, из-за которого игнорировался выбранный проксичекер
- Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов
- Исправлена проблема с определением кодировки
- Исправлена ошибка использования $tools.query
- Исправлен баг в Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов
- Исправлена работа http2
- Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
- Исправлено разгадывание каптч в SE::Yandex::Register и Check::RosKomNadzor
- Исправлена разница в запросах, отправляемых через Net::HTTP и JS
- Исправлен баг в SE::Yahoo
- Исправлены ошибки в Rank::CMS при выборе приложения без категории
- [NodeJS] Исправлен подсчет времени исполнения кода парсера
- [JS парсеры] При пустом body не передавался заголовок content-length при post запросе
- [JS парсеры] Исправлена работа CloudFlare bypass
- [JS парсеры] Исправлена работа с сессиями
- [JS парсеры] Исправлена работа с overrides для this.parser.request
- [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах
(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
24.6.2020, 5:52
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросовПредставляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов. Парсер Ahrefs::BrokenLinkAhrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию. (IMG: https://files.a-parser.com/img/5xjrw_200622121851.png) Парсер builtwith.comЭтот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id. (IMG: https://files.a-parser.com/img/a-parser.com_Historical_Website_Relationship_Profile_-_Google_Chrome_2020-06-22_10.37.34.png) Определение коммерциализации запросаСпособ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи. (IMG: https://files.a-parser.com/img/ZrJ0RK5UMpNLj2.png) Кроме этого:Еще больше различных рецептов в нашем Каталоге!Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
25.8.2020, 14:52
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник статей #12: скорость работы парсеров, debug режим и работа с кукамиВ 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками. Скорость и принцип работы парсеровВ этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга. (IMG: https://files.a-parser.com/img/jvml0_200825184512.png) Использование Debug режимаВ этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные. (IMG: https://files.a-parser.com/img/6k8r6_200825184446.png) Работа с куками и заголовками на примере соглашения с правилами сайта auto.ruА в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer. (IMG: https://files.a-parser.com/img/Fotografii_2020-08-25_12.07.40.png) Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки) - отписывайтесь здесь. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники статей(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
23.10.2020, 22:24
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов. Парсер Cloudflare RadarПарсер для сбора категорий сайтов из Cloudflare Radar (IMG: https://files.a-parser.com/img/g5spg_201021200450.png) Rozetka - получение данных по APIПарсер, собирающий данные о товарах на торговой площадке Rozetka через API. (IMG: https://files.a-parser.com/img/rozetkasd.jpg) Парсинг объявлений kufar.byПарсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов. (IMG: https://files.a-parser.com/img/72dj4_201024022726.png) А также, обновлены следующие ресурсы: Еще больше различных рецептов в нашем Каталоге!Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
|
23.12.2020, 5:48
|

Ветеран
   
Группа: Кандидат
Сообщений: 181
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата

|
1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку(IMG:https://files.a-parser.com/img/1.2.1076.png)
Улучшения- В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
- Основные улучшения от перевода данных парсеров на Node.js:
- увеличение производительности в ~1.5 раза
- унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
- Добавлены новые парсеры:
- В HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
- В SE::Google::Translate добавлены новые переменные:
- $translit_orig - оригинальный текст транслитом
- $translit_translated - переведенный текст транслитом
- $variants.$i.text - список вариантов перевода оригинального текста
- В SE::Bing обновлен список регионов и языков
- В Social::Instagram:: Drofile и Social::Instagram:: Dost добавлена возможность собирать кол-во видеопросмотров
- В SE::Yandex::Translate добавлена возможность отключать использование сессий
- В Net::HTTP добавлена возможность указывать user-agent для Chrome
- В парсере Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
- В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
- В Net::Whois обновлена поддержка всех зон
- Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
- "All" - использует все прокси выбранные для задании
- конкретный проксичекер - использует его, даже если он не выбран в задании
- Добавлена поддержка устаревших версий SSL
- JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
- JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
- JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
Исправления в связи с изменениями в выдаче- Множество различных исправлений в SE::Google и SE::Yandex в связи с изменениями в выдаче
- В SE::Yandex удалена функция автораспознавания каптч в связи с изменением вида каптч
- Исправлена работа SE::Google::Translate
- В HTML::EmailExtractor исправлена ошибка, при которой пропускались большие блоки html
- Исправлена ошибка в Social::Instagram:: Drofile из-за которой не парсилось больше одной страницы
- Исправлена авторизация в SE::Google::KeywordPlanner
- В SE::Google::TrustCheck исправлено определение горизонтальных блоков ссылок
- В SE::Baidu исправлен парсинг related keywords
- В Shop::Amazon исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц
- Исправлен Rank::Linkpad, а также в нем удалена переменная $links_cost, т.к. этого показателя больше нет на источнике
- В Rank::Social::Signal в связи с неактуальностью удалена переменная $googleplus_like
- В Rank::CMS исправлено определение по признакам скриптов для нового apps.json
- Также адаптированы к изменениям в выдаче: SE::Yandex::Translate, SE::MailRu, Rank::MajesticSEO, SE::Yandex:: Direct, SE::Google::ByImage, Rank::Ahrefs, Shop::eBay, SE::Yandex::Register, SE::Seznam, Shop::Yandex::Market, SE:: Dogpile, SE:: Dogpile::Images, SE::Startpage, SE::Baidu, Shop::AliExpress, SE::Youtube, Rank::Social::Signal, SE::Yandex::SQI, SecurityTrails:: Domain
Исправления- В SE::Yandex исправлена работа Extra query string
- Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
- Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
- Maps::Yandex исправлен и переведен на puppeteer
- Исправлена ошибка в приоритетах выбора проксичекера
- JS парсеры: исправлен follow_meta_refresh
- API: исправлена работа параметра rawResults
(IMG:https://files.a-parser.com/img/site/tg_chat_btn.png)
|
|
|
|
11 чел. читают эту тему (гостей: 11, скрытых пользователей: 0)
Пользователей: 0
|
|