IPB

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  « < 5 6 7  
Ответить в данную темуНачать новую тему
 A-parser - продвинутый парсер ПС, Pr, Wordstat, всего более 35 парсеров!, Google, Yandex, Bing, Suggest, PR, Whois, AOL, Alexa, MajesticSEO...
A-Parser Support
сообщение 23.2.2018, 12:52
Сообщение #121


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



1.2.138 - поддержка Node.js модулей, обработка ReCaptcha2 во всех парсерах Google, парсер AliExpress

(IMG:https://files.a-parser.com/img/logo1_2_138_plus_npm.png)

В A-Parser 1.2.138 добавлена эмуляция node версии 8.9.x с поддержкой загрузки модулей и частичной реализацией fs и net модулей. Это дает возможность обращаться из JavaScript парсеров напрямую к файловой системе, а также использовать подключение по TCP из модулей к другим сервисам(например mysql, redis, chrome...).

Все это позволило загружать и использовать node модули из каталога npm, в котором собраны множество полезных библиотек для обработки данных, коннекторы к базам данных и множество других интересных вещей. На данный момент протестированы следующие модули: md5, async-redis, jsdom, puppeter.
Улучшения

Исправления в связи с изменениями в выдаче

Исправления
  • Исправлена работа Конструктора регулярных выражений
  • Исправлена работа с кодировками в парсерах переводчиков и JS парсерах
  • Исправлена работа SE::Google:: Position
  • Исправлен выбор региона в SE::Yandex:: Direct
  • Исправлена работа опции Location в SE::Google::Modern
  • Исправлена работа сессий в SE::Google::Modern при переопределенном домене
  • Исправлена ошибка при совместном использовании опций Перезаписи файла, Начального и Конечного текстов
  • Исправлено отображение вкладок в Тесте задания
  • Исправлено отображение списка пресетов в поле Запустить по завершению
  • Исправлена работа this.proxy.set в JS парсерах
  • Исправлена передача дополнительных параметров в JS парсерах
  • Исправлена ошибка, из-за которой через API нельзя было указать Начальный и Конечный тексты
  • Исправлен экспорт пресетов
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 16.3.2018, 9:18
Сообщение #122


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

21-й сборник рецептов. В нем мы научимся отправлять сообщения в Telegram прямо из A-Parser, изучим работу с модулями Node.js в JS парсерах на примере решения задачи фильтрации по множеству признаков, а также спарсим весь IMDb. Поехали!

Уведомления в Telegram из A-Parser

Telegram является одним из самых популярных мессенджеров благодаря своей простоте, и в то же время большому функционалу. Среди прочего, в Телеграме можно создавать ботов, с помощью которых можно делать чаты более интерактивными. Взаимодействие с ботом на на стороне сервера происходит через Telegram Bot API. Используя эти возможности, можно легко и буквально за несколько минут настроить уведомления себе в Telegram прямо из парсера. О том, как это сделать, а также несколько реальных примеров - по ссылке выше.
(IMG:https://files.a-parser.com/img/oz78y_180315000445.png)

(IMG:https://files.a-parser.com/img/ai5di_180314231615.png)

Фильтрация по множеству признаков

Как известно, для фильтрации в А-Парсере используется встроенный функционал фильтров. Но бывают ситуации, когда список признаков, наличие которых нужно проверять, очень большой и его сложно вписать в строку стандартного фильтра.
Начиная с версии 1.2.127 в A-Parser добавлена поддержка модулей Node.js. Благодаря этому появилась возможность читать список признаков из файла и использовать его для проверки страниц. О том, как это сделать, а также готовый парсер с мультифильтром - по ссылке выше.

(IMG:https://files.a-parser.com/img/3cbbe_180315100634.png)

Парсинг рекомендаций фильмов из IMDb

Пример решения задачи по сбору данных о фильмах и их рекомендаций на IMDb. Данная статья показывает, как можно решать задачи, которые на первый взгляд требуют много времени и ресурсов, буквально за несколько часов. Узнать о том, как спарсить весь IMDb за 1,5 часа, а также посмотреть пресет и забрать готовую базу можно по ссылке выше.

(IMG:https://files.a-parser.com/img/ecaoq_180220140515.png)

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:

Сборники статей:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 27.3.2018, 9:25
Сообщение #123


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



1.2.160 - поддержка SQLite, проверка доменов на клей, Parse all results в SE::Yahoo

Улучшения

Исправления в связи с изменениями в выдаче

Исправления
  • Исправлена работа SE::Google::Modern на IPv6 прокси
  • Исправлена ошибка, из-за которой SE::Google::Modern собирал ссылки с пометкой опасных сайтов в общий массив ссылок
  • Исправлена работа с оператором поиска + в SE::Bing
  • Исправлен парсинг запросов со спецсимволами в SE:: DuckDuckGo
  • Исправлена работа Rank::MajesticSEO
  • Исправлен баг с overrideOpts в JS парсерах
  • Исправлена работа с переменными при их создании в Parse custom results, а также при использовании нижнего подчеркивания в именах в Конструкторе результатов
  • Исправлена работа tools.js, баг появился в одной из предыдущих версий
  • Исправлен баг, из-за которого А-Парсер падал на некоторых ОС, появился в одной из предыдущих версий
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 6.4.2018, 9:15
Сообщение #124


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Видео урок: Создание JS парсеров. Работа с CAPTCHA
Третье видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать JS парсер, в котором будет поддержка антигейта для разгадывания каптч на страницах.

(IMG:https://files.a-parser.com/img/522ad_180405112459.png)

В уроке рассмотрено:
  • Создание JS-парсера для разгадывания капчи
  • Работа с объектом this.captcha внутри JavaScript кода
  • Описание процесса разгадывания каптчи, реализованного в A-Parser


Статья и готовый парсер: https://a-parser.com/resources/257/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 17.4.2018, 9:23
Сообщение #125


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

Получение страниц сайта и проверка индексации в Google и Яндекс

Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.
(IMG:https://files.a-parser.com/img/bo3i2_180416114011.png)

Парсим title и description для TOP10 поисковой выдачи по ключевому слову

Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.
(IMG:https://files.a-parser.com/img/gwzy0_180416114857.png)

Поиск сабдоменов сайта

Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется (IMG:https://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.
(IMG:https://files.a-parser.com/img/vmbxk_171020103911.png)

Кроме этого:

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 27.4.2018, 9:20
Сообщение #126


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник статей #3: пагинация, переменные и БД SQLite

В этом сборнике статей мы рассмотрим все возможные варианты решения задачи прохода по пагинации на сайтах, очень детально изучим работу с переменными в JavaScript парсерах, а также попробуем работать с базами данных SQLite на примере парсера курсов валют. Поехали!

Обзор вариантов прохода по пагинации

В A-Parser существует несколько способов, с помощью которых можно реализовать проход по пагинации. В связи с их разнообразием, становится актуальным вопрос выбора нужного алгоритма, который позволит максимально эффективно переходить по страницам в процессе парсинга. В этой статье мы постараемся разобраться с каждым из способов максимально подробно. Также будут показаны реальные примеры и даны рекомендации по оптимизации многостраничного парсинга. Статья - по ссылке выше.
(IMG:https://files.a-parser.com/img/ic2vg_180425160845.png)

Переменные в парсерах JavaScript

JS парсеры в А-Парсере появились уже около года назад. Благодаря им стало возможным решать очень сложные задачи по парсингу, реализовывая практически любую логику. В этой статье мы максимально подробно изучим работу с разными типами переменных, а также узнаем, как можно оптимизировать работу сложных парсеров. Все это - в статье по ссылке выше.
(IMG:https://files.a-parser.com/img/xfhdsja54jdsbc734bw.png)

Разработка JS парсера с сохранением результата в SQLite

Начиная с версии 1.2.152 в A-Parser появилась возможность работать с БД SQLite.
В данной статье мы рассмотрим разработку JavaScript парсера, который будет парсить курсы валют из сайта finance.i.ua и сохранять их в БД. В результате получится парсер, в котором продемонстрированы основные операции с базами данных. Подробности, а также готовый парсер - по ссылке выше.
(IMG:https://files.a-parser.com/img/n0hvs_180426111509.png)


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки (IMG:http://4seo.biz/style_emoticons/default/smile.gif) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 8.5.2018, 8:57
Сообщение #127


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



1.2.185 - увеличение скорости в SE::Google::Modern, новые возможности Net:: DNS, множество улучшений

(IMG:https://files.a-parser.com/img/1.2.185.png)
Улучшения
  • (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google::Modern - многократно увеличена скорость парсинга
  • Множество улучшений в (IMG:https://a-parser.com/img/parsers/net-dns.png) Net:: DNS:
    • Возможность указать несколько DNS и задать метод выбора
    • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
    • Возможность вывести в результат использованный DNS сервер при удачном запросе
  • В (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google::Modern добавлена опция Use sessions
  • В (IMG:https://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat добавлена настройка пресета антигейта для логина
  • Также в (IMG:https://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat удалены настройки Use logins/Use sessions, теперь они включены всегда
  • Добавлена возможность автоматического удаления задания из Завершенных
  • В макросе подстановок {num} добавлена поддержка обратного отсчета
  • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
  • В JavaScript парсерах добавлена возможность прямого сохранения в файл
  • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
  • В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog

Исправления в связи с изменениями в выдаче

Исправления
  • Количество неудачных больше не обнуляется при постановке на паузу
  • Исправлена проблема с подключением Node.js модулей на Linux
  • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
  • Решена проблема с подключением Node.js модулей lodash, sequelize
  • Исправлена ошибка итератора при равных границах в макросе {num}
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 18.5.2018, 9:15
Сообщение #128


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Видео урок: Создание JS парсеров. Работа с ReCaptcha2


Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.

(IMG:https://files.a-parser.com/img/vr4vi_180517110534.png)


В уроке рассмотрено:


Ссылки:


Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 29.5.2018, 9:17
Сообщение #129


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!

Получение категорий сайтов из Google

Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.
(IMG:https://files.a-parser.com/img/tdhcp_180525110933.png)

Выгрузка товаров в формате YML

YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.
(IMG:https://files.a-parser.com/img/00xer_180528101714.png)

Парсим Google новости с датой и преобразуем ее

В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.
(IMG:https://files.a-parser.com/img/7adjc_180507103637.png)

Кроме этого:

Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 12.6.2018, 8:54
Сообщение #130


Ветеран
****

Группа: Кандидат
Сообщений: 112
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



1.2.216 - улучшения в SE::Google::Modern и JS парсерах, а также множество других

(IMG:https://files.a-parser.com/img/1.2.216.png)

Улучшения
  • Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
  • Добавлен повтор без смены прокси при неудачной отправке рекаптчи в (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google::Modern
  • Добавлен бан прокси при получении 403 кода ответа в (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google::Modern
  • Процент неудачных запросов теперь отображается относительно числа выполненных запросов
  • Добавлена возможность вызвать URL после выполнения задания
  • Улучшен обзор каталогов при выборе файлов запросов
  • Добавлена поддержка setInterval в JavaScript парсерах
  • Уменьшено Wait between get status и улучшено логгирование в (IMG:https://a-parser.com/img/parsers/util-recaptcha2.png) Util::ReCaptcha2
  • Улучшена обработка редиректов
  • Добавлена защита от бесконечного выполнения в JavaScript парсерах
  • Значительно увеличены возможности check_content в JS парсерах
  • В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads

Исправления в связи с изменениями в выдаче

Исправления
  • Исправлено ведение лога при нескольких паузах задания
  • Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в (IMG:https://a-parser.com/img/parsers/se-google.png) SE::Google::Modern
  • Исправлена работа с url, содержащими фрагмент # в Net::HTTP
  • Исправлен парсинг ссылок в HTML::LinkExtractor
  • Исправлена работа опции Pages count в SE::Yandex
  • Исправлен выбор файлов запросов на Windows 10
  • Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
  • Исправлено отображение проксичекера в конфиге потоков
  • Исправлена кодировка некоторых результатов в SE::Google::Suggest
  • Исправлена ситуация, когда не читались настройки из config.txt
Перейти в начало страницы
 
+Цитировать сообщение

7 страниц V  « < 5 6 7
Ответить в данную темуНачать новую тему
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 20.6.2018, 1:13