Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: A-parser - продвинутый парсер ПС, Pr, Wordstat, всего более 35 парсеров!
ЗаКС - Закрытый Клуб Специалистов > Общие разделы > Деловые предложения. Покупка, продажа, работа.
Страницы: 1, 2, 3, 4
Forbidden
Что такое A-Parser?

Это быстрый парсер с уклоном на универсальность, удобность и производительность.
На данный момент умеет парсить:

Поисковые системы

  • Google
  • Bing
  • Yahoo
  • Yandex
  • QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
  • AOL - парсер search.aol.com, этот поисковик использует американскую выдачу Google


Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц

Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу

Для Яндекса есть возможность распознавания каптчи через сервис AntiGate(или любой другой с поддержкой их API)

Парсеры кейвордов

Сервисы поиска ключевых слов

  • Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики. Может сам подставляет найденные ключевые слова в запросы до указанного уровня. Поддерживает распознавание каптчи через АнтиКаптчу.


Подсказки поисковых систем

  • Подсказки и релейтед кеи Google
  • Подсказки и релейтед Bing
  • Подсказки, релейтед и трендовые кеи Yahoo
  • Подсказки и релейтед Yandex


Для подсказок Google и Yandex умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится

Параметры сайтов и доменов

  • Rank::Alexa - парсер Alexa Rank, парсит глобальный рейтинг, топ рейтинг по стране, саму страну и количество бек-линков
  • Rank::MajestiSEO - парсер количества беклинков с сервиса majesticseo.com, парсит количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
  • Rank::SEMrush - проверяет рейтинг SEMrush, количество SE траффика и его стоимость, количество Ads траффика и его стоимость
  • Rank::OpenSiteExplorer - проверяет рейтинг домена\страницы по OpenSiteExplorer, а так же количество беклинков и бекдоменов
  • SE::Google::Position - проверка позиции домена по ключевому слову в Google
  • SE::Yandex::Position - проверка позиции домена по ключевому слову в Yandex
  • SE::QIP::Position - проверка позиции домена по ключевому слову в search.qip.ru
  • SE::Google::PageRank - PR страниц и доменов
  • SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
  • SE::Yandex::TIC - проверка тематического индекса цитирования домена в Яндексе(тИЦ)
  • SE::DMOZ - наличие сайта в каталоге DMOZ
  • SE::Google::TrustCheck - проверка сайта на траст(доверие) гугла(дополнительный блок ссылок в выдаче и т.п.)
  • Net::Whois - определяет зарегистрирован домен или нет, а так же дату окончания регистрации
  • SE::Bing::LangDetect - определение языка сайта через поисковик Bing
  • Net::DNS - парсер резолвит домены в IP адреса
  • Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching
  • Rank::CMS - определение около 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков



Парсеры различных сервисов

  • SE::YouTube - полноценный парсер YouTube, парсит ссылку на ролик, титл, описание, длину ролика, дату добавления, имя пользователя и количество просмотров. Поддерживает все фильтры YouTube
  • SE::Google::Maps - парсер ссылок в результатах выдачи в картах Гугла(Google Maps), позволяет искать сайты привязанные к определенной местности
  • SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
  • SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер
  • SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
  • Util::AntiGate - распознавание каптчи через сервис AntiGate, служит для настройки и тестирования распознавания каптч


Парсинг контента

  • HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного сайта, может ходить по внутренним ссылкам до выбранного уровня.
  • Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.


Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.

Обработка и фильтрация результатов

  • Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
  • Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
  • Парсинг любого результата с использованием регулярных выражений.



Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:


  • Полностью интерактивный мега-юзабильный веб интерфейс
    • Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
    • Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
    • Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
    • Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
    • Поддержка русского и английского языка

  • Огромная скорость работы, подробнее тут: Производительность
  • Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
  • User API - интеграция возможностей парсера в свои скрипты, подробнее тут: User API, взаимодействие с другими программами и скриптами
  • Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
  • Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
  • Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki


Более подробное описание и скриншоты

Wiki - дополнительная информация, инструкции и т.д.

Скриншот интерфейса:


На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременная уникализация по домену всех результатов

Ценовая политика

На данный момент продается версия Pro(все парсеры) и Enterprise(все парсеры + API)
  • Цена лицензии - 200$
  • Первый год обновления бесплатны, после первого года использования абонентская плата за обновления - 15$ за каждые 3 месяца(возможность работы без обновлений сохраняется)
  • Цена лицензии с API: +50$ к стоимости основной лицензии
  • Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$
  • Комплект A-Parser + A-Poster всего за 300$!
  • Специальное предложение - всем покупателям A-Parser'а предоставляются приватные прокси на 20 потоков на 2 недели!


Лицензия позволяет запускать A-Parser на одном сервере\компьютере(напоминаю поддерживается работа на всех версиях Windows и Linux). Переносить можно бесплатно, нельзя запускать на нескольких компьютерах одновременно.

Для покупки парсера зарегистрируйтесь на сайте http://a-parser.com и свяжитесь со мной по любому из следующих контактов:
  • ICQ 777889
  • Jabber/GoogleTalk forbidden2k@gmail.com
  • Skype frb403

Предварительно перед покупкой с удовольствием отвечу на любые ваши вопросы, а также возможно обсуждение реализации недостающего вам функционала.
Chin
Цитата(Forbidden @ 18.2.2013, 15:55) *
собирает всю выдачу

Сомнительно, даже с доп словами для парсинга основной фразы baaa.gif
А вообще - удачи продукту! smile.gif
Forbidden
A-Parser - версия 0.9.383

Добавлен парсер Check::BackLink - проверяет нахождение вашей ссылки(ссылок) по базе ссылок:
  • Проверяет закрыта ли от индексации страница через robots.txt
  • Проверяет meta тег robots на наличие атрибутов noindex и nofollow
  • Проверяет наличие rel=nofollow у найденной ссылки


Парсер Rank::Ahrefs возвращен обратно

Теперь парсер собирает до 1000 результатов с каждого запроса

Так же значительно обновлена Документация, теперь она готова примерно на 70%, а в скором времени будет приятное обновление сайта.

Исправлено:
  • Импортированние пресетов заданий не работало, ошибка появилась в предыдущей версии
  • Исправлен парсер SE::AOL - теперь требуется гораздо меньше попыток на выполнение запроса


Связанные задачи:
Цитата
Ошибка #402: Import preset not work
Ошибка #406: Fix parser crash when start paused task after server restart
Ошибка #418: Дубли имен заданий на закладке "Добавить" в поле "Сохр. задание"
Ошибка #419: Fix {size} result in SE::Google::Images
Ошибка #420: Remove unsupported 'deflate' method from accept-encoding header
Ошибка #421: Fix SE::AOL parser
Улучшение #254: Проверка базы ссылок на наличие обратной ссылки + noindex + nofollow
Улучшение #393: Return Rank::Ahrefs parser
Улучшение #403: Now SE::Yandex can parse up to 1000 links per query


Цитата(Chin @ 23.2.2013, 20:27) *
Цитата(Forbidden @ 18.2.2013, 15:55) *
собирает всю выдачу

Сомнительно, даже с доп словами для парсинга основной фразы baaa.gif
А вообще - удачи продукту! smile.gif


Спасибо, а по поводу выдачи - он автоматически подставляет доп слова(буквы и их комбинации)
+ возможность указать свои подстановки в самых разных вариациях

P.S. уведомление о новых сообщениях в теме не приходят на почту
Chin
Цитата(Forbidden @ 12.3.2013, 14:07) *
P.S. уведомление о новых сообщениях в теме не приходят на почту

Да тут и форум вообще в оффлайне был наверное больше недели sad.gif
Forbidden


Прошёл ровно год с выхода первой бета-версии парсера, за это время A-Parser вырос до стабильной версии и зарекомендовал себя с лучшей стороны среди SEO-гуру, оставив всех конкурентов далеко позади.

Всего за год была проделана огромная работа:
  • Выпущено 39 обновлений
  • Сделано 195 улучшений
  • Закрыта 141 ошибка


Теперь A-Parser содержит в себе 40 полноценных парсеров поисковых систем и различных сервисов.

В честь такого праздника всем новым пользователям, которые приобретут A-Parser в период с 13.03.2013 до 20.03.2013, предоставляется 2 года бесплатных обновлений.
Forbidden
A-Parser - версия 0.9.389

Парсер SE::Google теперь поддерживает распознавание каптчи через сервис АнтиКаптча


В парсере Net::HTTP появилась возможность загружать только заголовки страницы, для увеличения скорости и экономии трафика

Парсер SE::Yandex теперь парсит время индексации страницы, с возможностью фильтрации результатов по этому параметру


Улучшен парсер Check::BackLink:
  • Теперь можно определить был ли редирект на странице нахождения беклинка
  • В результат можно вывести актуальные ссылки страницы беклинка и проверяемой ссылки, а так же анкор проверяемой ссылки
  • Можно вывести весь список найденных ссылок(анкоров и nofollow) подпадающих под проверяемую ссылку


Добавлена кнопка выхода из парсера(повторный запрос пароля)

Исправлен парсер HTML::LinkExtractor - при использовании опции перехода по соседним ссылкам неверно добавлял дополнительные ссылки.

Связанные задачи:
Цитата
Ошибка #427: Fix HTML::LinkExtractor parse to level option(wrong anchors adding to parsing queue)
Улучшение #401: Подключение antigate.com к парсеру Google
Улучшение #414: Сделать парсер http заголовков
Улучшение #416: Яндекс - дата индекса ссылки
Улучшение #422: сделать кнопку логаута
Улучшение #423: Улучшение модуля Check::BackLink
Улучшение #428: Normalize urls for HTML::LinkExtractor and Check::BackLink
Chin
А кстати, ботмастер эти капчи автоматом не научился распознавать еще?
Forbidden
Цитата
А кстати, ботмастер эти капчи автоматом не научился распознавать еще?


да вроде нет в хрефере, да вообще как то апарсер с хрефером сравнивать кхм smile.gif, на самом деле каптчи нужны только тем кто не хочет с прокси парится(прокси все равно нужны, но уже их качество почти не играет роли) - все можно парсить спокойно без каптч
Chin
Да я не сравнивал, мне технический аспект взлома капчи интересен. Еще в свое время, когда тулзы для 4сео на фрилансерских сайтах заказывал (давно уже), видел объявы ботмастера с вполне приличными бюджетами именно на предмет дешифрации капчей.
Forbidden
Расширение функциональной части A-Parser'а подтолкнуло меня на изменение мажорной версии smile.gif Встречайте версию 1.0.0!



Главное нововведение - конструктор запросов:



Конструктор запросов позволяет разделять исходный запрос на части и\или преобразовывать запросы. Основные возможности:

  • Разделение запроса на части с помощью регулярного выражения
  • Замена подстроки в запросе или замена регулярным выражением
  • Выделение домена\главного домена из ссылки
  • Добавление знака ! перед каждым словом в запросе(необходимо для парсера SE::Yandex::WordStat)
  • Приведение запроса к верхнему\нижнему регистру


Более подробно и с примерами можно прочитать на странице документации: Query Builder - конструктор запросов

Забегая вперёд расскажу о ближайших планах расширения функциональности:
  • Конструктор результатов - аналогично с запросами, только применимо к результатам, например будет возможно автоматически вырезать HTML теги из сниппетов
  • Парсинг цепочками - многоэтапная обработка запросов, когда результат от одного парсера будет подаваться на вход другому. Позволит объединить несколько действий в одном задании, например сбор ключевых слов и одновременная проверка частоты и конкурентности


Это приоритетные направления, помимо этого в задачах ещё множество идей которые будут воплощены в жизнь smile.gif

Другие изменения в этой версии:
  • Число результатов в парсере SE::QIP автоматически преобразовывается из строк "миллионов" и "тысяч"
  • Исправлен парсер Rank::Alexa в связи с изменением выдачи
  • Исправлен парсер SE::Yandex - на некоторых запросах мог долго обрабатывать страницу что приводило к зависанию


Связанные задачи:
Цитата
Ошибка #430: Fix Rank::OpenSiteExplorer crash when IP banned
Ошибка #431: не правильный парсинг Алекса Ранк
Ошибка #432: 2 запроса {query}
Ошибка #437: Check::BackLink падает на некоторых ресурсах
Ошибка #438: Fix long SE::Yandex regex
Улучшение #380: Query builder
Улучшение #433: Число страниц определенного сайта в индексе Qip выводить числом
Forbidden
A-Parser - версия 1.0.11

Обновилось API, добавлено 3 метода:
  • addTask - полноценное добавление задания, со всеми настройками
  • getTaskState - получение состояния задания(статистика выполнения, текущий статус)
  • changeTaskStatus - изменение статуса задания(пауза\старт\стоп\удаление)

Подробнее на страницы руководства: User API, взаимодействие с другими программами и скриптами

В конструкторе запросов теперь возможно разделять запрос через произвольный разделитель

Парсер SE::YouTube теперь дополнительно парсит ссылку на превью ролика

Исправлено:
  • Парсер SE::YouTube в связи с изменением верстки
  • Парсер SE::Yandex - исправлено определение даты попадания в индекс


Связанные задачи:
Цитата
Ошибка #412: Can't edit task created from quick task menu
Ошибка #413: In quick task need to set unique queries for Parse to level with suggests
Ошибка #440: Fix {origquery} macros(bug introduced in 1.0.0)
Ошибка #445: Не работает парсер Youtube
Ошибка #449: SE::Yandex: баги с поиском даты
Улучшение #273: в API нету добавления задания
Улучшение #439: Разделение запроса через произвольный разделитель
Улучшение #441: сохранение прокси без указания типа(http://, socks://)
Улучшение #444: Парсер Youtube - ссылка на превью ролика
Улучшение #446: Get task state and change task status with API
Forbidden
A-Parser - версия 1.0.21

Улучшения:
  • Парсер Rank::MajesticSEO теперь также парсит показатели Trust Flow и Citation Flow
  • Возможность выбора языка результатов для парсеров SE::Yahoo и SE::Yahoo::Suggest
  • В парсер SE::Yandex добавлена поддержка домена yandex.kz
  • Теперь возможно вручную указать прокси для любого запроса, для этого необходимо создать результат {proxy} через Query Builder
  • В парсер Net::HTTP добавлена опция Detect charset on content, позволяющая автоматически определять кодировку страницы
  • В парсер Net::HTTP добавлен результат {proxy}, позволяющий отобразить использованный прокси при запросе
  • В API теперь возможно добавлять задания на основе ранее сохранённого пресета из интерфейса


Исправления:
  • SE::AOL в связи с изменениями в выдачи
  • SE::Google - исправлен парсинг Related keywords
  • Исправлено определение кодировки через тег <meta charset=


Цитата
Ошибка #447: AOL parser not work again
Ошибка #452: Fix charset detecting for <meta charset= tag
Ошибка #460: Fix related keywords parsing in SE::Google
Улучшение #450: Добавить в модуль Net::HTTP {proxy}
Улучшение #451: Смена языка во всех парсерах yahoo(SE::Yahoo, SE::Yahoo::Suggest)
Улучшение #453: Добавить в Rank::MajesticSEO парсинг показателей Trust Flow и Citation Flow
Улучшение #454: API addTask брать настройки из Task preset
Улучшение #455: Ability for select save good proxies with type or not
Улучшение #456: Add yandex.kz domain for SE::Yandex
Улучшение #457: Add 'Detect charset on content' for Net::HTTP - automaticaly detect charset of content if meta charset/charset-encoding not specified
Улучшение #458: Now result {proxy} from Query Builder used as proxy for current query
Forbidden
A-Parser - версия 1.0.27

Results Builder - конструктор результатов, позволяет редактировать и создавать новые результаты, поддерживает:

  • Поиск и извлечение данных по регулярному выражению
  • Замена по регулярному выражению
  • Разделение строки по произвольному разделителю
  • Замена подстроки в строке
  • Извлечение домена/главного домена из ссылки
  • Приведение к верхнему\нижнему регистру
  • Удаление HTML-тегов из текста
  • Преобразование HTML-entities(спец-символов начинающихся с амперсанда &) в соответствующий UTF-8 текст


Новый парсер SE::Google::Compromised - проверка наличия надписи This site may be compromised в гугле

Исправлено:
  • Обработка каптчи в парсере SE::Google
  • Парсинг ссылок в SE::Yandex содержащих дополнительную информацию в виде превью к играм, а так же ссылок помеченных как "инфицированные"
Forbidden
A-Parser - полностью обновленный сайт

Несколько важных новостей:

  • У нас полностью новый сайт, с полной интеграции с форумом. Все пользователи, новости и задачи были успешно перенесены
  • Мы подключили мерчант InterKassa, теперь мы принимаем к оплате:


    Подробнее на странице покупки A-Parser'а: Купить A-Parser
  • У нас новый саппорт: Viktoria (контакты)
  • Ко всем существующим видам связи(ICQ, Skype, Jabber, GoogleTalk, E-mail) мы добавили онлайн-чат с оператором на сайте


Подписывайтесь на новости и общайтесь на форуме!
A-Parser Support
A-Parser - версия 1.0.37

Улучшения:
  • При добавлении быстрого задания теперь количество попыток выполнить запрос(Request retries) установлено в 200

Исправления:
  • Исправлен парсер SE::YouTube в связи с изменением в выдачи
  • Исправлено импортирование заданий(ошибка появилась в предыдущей версии)
  • Исправлена обработка каптчи у парсера SE::Google
  • Исправлен подсчет количества результатов(ошибка появилась в предыдущей версии)


Связанные задачи:
Цитата
Ошибка #516: SE::YouTube broken
Ошибка #515: Bug when importing/loading tasks(introduced in 1.0.27)
Ошибка #479: Fix again Google captcha
Ошибка #478: Fix counting results from arrays(bug introduced in 1.0.27)
Улучшение #523: Tasks added from Quick Task now have Request retries = 200
Улучшение #480: Validating parser/preset exists before adding task
Forbidden
A-Parser - версия 1.0.49

Улучшения в парсере гугла:
  • CaptchaKiller - убийца каптчи для парсера SE::Google - теперь можно парсить inurl: даже на паблик проксях!

    В последнее время Google довольно сильно ужесточил парсинг с операторами(inurl:, site: и т.д.), постоянно показывая каптчу(проверочную картинку), что не позволяло спарсить результаты выдачи без использования хороших проксей или сервиса АнтиКаптча. Это улучшение позволяет A-Parser'у автоматически обходить каптчу без использования сервисов



    Сравнение парсинга с CaptchaKiller и без на форуме

  • Теперь дополнительно парсятся рекламные блоки - ссылка, анкор и сниппет, что позволяет собрать список конкурентов в Google AdWords
  • Также парсер SE::Google теперь сохраняет сессии что позволяет парсить еще быстрее, получая меньшее число ошибок

Улучшения в сохранении результатов:
  • Теперь в имени файла результата можно использовать все макросы доступные в Result format, что позволяет в имени файла использовать любую часть результата или запроса(пример: при парсинге Google PR сохранять ссылки в файлы 0.txt - 10.txt, где цифра означает PageRank)
  • Теперь возможно указать папку(с неограниченной вложенностью) для сохранения результата
  • Комплексный пример: {date}_{time}/parser1({pr}).txt - будет создавать новую папку с текущей датой и временем и автоматически сортировать результаты по файлам

Остальные улучшения:
  • В качестве запросов можно использовать файлы из папки с результатами
  • В парсере SE::Yandex появился новый результат {misspell} определяющий посчитал ли Яндекс запрос опечаткой или нет
  • В ProxyChecker изменена проверочная ссылка по умолчанию
  • В API теперь возможно отключить ведение логов
  • В парсерe SE::Yahoo убраны результаты {totalcount} и trending[] в связи с изменением в выдаче
  • В ProxyChecker теперь возможно отключить проверку загруженных проксей - все прокси будут считаться живыми

Исправления парсеров в связи с изменением в выдаче:
  • SE::Bing - не парсились релейтед кейворды
  • SE::Yahoo - не парсилась основная выдача и релейтед кейворды
  • SE::AOL - не парсилась выдача
  • SE::Yandex::Suggest - в некоторых случаях не парсились кейворды
  • SE::Yandex - исправлена логика при показе каптчи
  • SE::Yandex::WordStat - исправлена логика при показе каптчи
  • SE::YouTube - не учитывались параметры фильтров
  • Rank::Alexa - не парсился основной рейтинг
  • Rank::Ahrefs - не парсилось количество беклинков


Полный список изменений тут: 1.0.49
A-Parser Support
A-Parser - версия 1.0.60

Улучшения в CaptchaKiller для парсера SE::Google

Исправлена загрузка каптчи в SE::Yandex::WordStat и работа фильтров в SE::YouTube

Полный список изменений тут: 1.0.60
A-Parser Support
A-Parser - версия 1.0.69

Новый парсер HTML::TextExtractor - парсит текстовые блоки с указанной страницы, можно использовать для парсинга огромного количества текста для наполнения своих сайтов и доров, можно настроить минимальную длину текстового блока для парсинга



В парсере Net::HTTP появилась возможность использовать POST и HEAD запросы, пример парсинга с POST запросом:



Другие улучшения:

  • Теперь в формате результата есть возможность указать исходный запрос - {firstquery}, позволяет при парсинге в глубину сохранять результаты по файлам с именами изначальных запросов
  • В парсер Net::Whois добавлен парсинг NS серверов и статусов доменов
  • В парсере Net::Whois теперь используется единый формат даты регистрации и окончания регистрации - dd.mm.yyyy для всех зон
  • Новые результаты для всех парсеров:
    • {retries} - использованное количество попыток на данный запрос
    • {querynum} - порядковый номер запроса
    • {lvl} - уровень вложенности запроса(при использовании опций Parse all results, Parse to level)
  • Для парсера Net::HTTP добавлен параметр Max redirects count - определяет максимальное количество редиректов
  • Для всех парсеров SE::Google::* добавлен домен www.google.by
  • Теперь есть возможно указать задержку между запросами(актуально только при парсинге в 1 поток)

Исправления:
  • Исправлен парсинг подсказок SE::Bing::Suggest
  • Исправлено сохранение результатов с двоичными данными(изображения, видео и т.п.)

Подробнее тут: 1.0.69
A-Parser Support
A-Parser - версия 1.0.71

Мини-апдейт, исправляет ошибки:
  • В предыдущей версии перестал работать Util::AntiGate, следствием чего перестала работать возможность распознавания каптчи(в парсерах Google, Yandex и т.п.)
  • В конструкторе результатов(Results builder) не работала функция замены по регулярному выражению(Regex Replace)
  • Парсер падал если не мог создать папку с результатами

Подробнее тут: 1.0.71

В данный момент ведется активный перенос парсера на обновленную платформу и сокращение времени выпуска новых версий(на данный момент компиляция всем пользователям занимает около 2ух дней)
A-Parser Support
A-Parser - версия 1.0.81

В этой версии только экстренные исправления в связи с изменением в выдаче:
  • SE::YouTube
  • Rank::Alexa
  • Rank::MajesticSEO

Также исправлена некорректная работа парсера при использовании UTF-8 в регулярных выражениях

Подробнее тут: 1.0.81

Перенос парсера на новую платформу, начатый около 2ух недель назад, подходит к концу и в ближайшее время будет доступна бета-версия.
A-Parser Support
A-Parser - версия 1.0.91

Новый парсер SE::Yandex::WordStat::ByDate - парсит статистику показов ключевых слов Yandex WordStat по месяцам или неделям:


Новый парсер SE::Baidu - парсит поисковую систему baidu.com, популярную в китае и японии:


Теперь парсер гугла SE::Google может парсить по новостям и блогам:


Парсер Яндека SE::Yandex дополнительно парсит рекламные объявления в выдаче:


Другие улучшения:
  • Можно выбрать несколько файлов для обработки - на каждый файл будет создано свое задание:



  • Теперь в апарсере есть новости и подсказки на английском и русском:


  • В парсере Net::HTTP появилась возможность указать Cookies
  • В парсер HTML::TextExtractor добавлена возможность отключить парсинг анкоров у ссылок

Исправления:
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена ошибка при которой парсер мог упасть при большом числе файлов запросов
  • Исправлена работа конструктора результатов Results builder при использовании макроса {query}
  • Отсутствовала прокрутка в тестовом парсинге
  • Иногда число активных заданий могло уменьшаться

Подробнее тут: 1.0.91
Forbidden
A-Parser - версия 1.0.95

Исправление парсера SE::Yandex::WordStat - Яндекс целиком изменил сервис и мы одни из первых исправили парсер smile.gif
Версия с поддержкой каптчи выйдет немного позже.
Также исправлен парсинг ссылок объявлений в парсере SE::Yandex

Подробнее тут: 1.0.95
A-Parser Support
A-Parser - версия 1.0.99

Вновь исправлен SE::Yandex::WordStat в связи с изменением в выдаче, также возвращена поддержка работы с антигейтом и теперь автоматически сохраняются хорошие сессии для экономии прокси и каптч

Улучшения в Extract Top Domain(в Query Builders, Results Builders и в уникализации результатов) - теперь парсер корректно определяет все региональные поддомены вида *.org.ru, *.co.uk и др.

Обновлен список языков для всех парсеров гугла SE::Google::*

Исправления:
  • В парсере HTML::LinkExtractor некорректно обрабатывались ссылки mailto: и java script:, также теперь по умолчанию этот парсер не переходит по редиректам
  • В парсере SE::Bing исправлена ошибка при которой A-Parser мог падать в некоторых случаях
  • Исправлено зависание при парсинге SE::Baidu
  • В интерфейсе иногда могли пропадать настройки парсеров
  • Исправлен SE::YouTube в связи с изменением в выдаче

Подробнее тут: 1.0.99
A-Parser Support
A-Parser - версия 1.0.111

Расширение API:

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate полностью исправлены после последних обновлений Яндекса. Средняя скорость проверки теперь составляет 5000 кейвордов в минуту без использования антигейта.

В парсеры SE::Bing::Suggest и SE::Yahoo::Suggest добавлена опция Parse to level позволяющая автоматически подставлять найденые подсказки опять в запросы, тем самым происходит парсинг вглубь до 10 уровней вложенности

В парсере Rank::MajesticSEO теперь можно проверить количество беклинков у конкретной страницы сайта

Исправлены:
  • SE::DMOZ - в связи с изменение в выдаче
  • Опция Match subdomains(проверка сабдоменов) во всех парсерах позиций сайта(Positions) - ошибка появилась в предыдущей версии

Подробнее тут: 1.0.111
A-Parser Support
A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы SE:: DuckDuckGo

Обновлен список доменов гугла в парсере SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:
  • Иногда ссылка на первый ролик в SE::YouTube парсилась некорректно
  • Исправлено падение в некоторых случаях после постановки задания на паузу
  • Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий
  • При дублировании задания частично пропадали настройки Results Builder

Подробнее тут: 1.0.119
A-Parser Support
A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:
  • Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
  • Улучшен парсинг SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
  • Теперь парсер SE::Bing парсит до 1000 результатов с каждого запроса
  • В парсере SE::Google:: PR если у домена или страницы нету PageRank то в результате выведет -1
  • Парсер SE::DMOZ переименован в Rank::DMOZ

Исправления:
  • Исправлена работа уникализации результатов в тесте A-Parser'а
  • Исправлено автоматическое удаление временных файлов при работе уникализации
  • Rank::Alexa в связи с изменением в выдаче
  • SE::Google::Compromised в связи с изменением в выдаче
  • SE::QIP в связи с изменением в выдаче
  • SE::DuckDuckGo в связи с изменением в выдаче
  • SE::Yandex::WordStat в связи с изменением в выдаче
  • Rank::DMOZ ошибка при проверке домена с www.
  • Rank::Ahrefs в связи с изменением в выдаче

Подробнее тут: 1.0.130
A-Parser Support
A-Parser - версия 1.0.148

Новый парсер SE::Yandex::Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:


На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:
  • Rank::Alexa
  • SE::Google - определение запросов по которым нет результатов

Другие исправления:
  • Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
  • При парсинге SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера
  • При парсинге SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой
  • В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)
  • Парсер SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)
  • Исправлено некорректное сохранение данных в UTF-8 во многих парсерах
  • Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)
A-Parser Support
A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.


На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!



Другие улучшения:
  • Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)
  • Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)
  • В парсер SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)

Исправления:
  • Исправлен парсер подсказок SE::Google::Suggest в связи с изменением в выдаче
  • Исправлен парсер SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу
  • При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы

Подробнее тут: Версия 1.0.154
A-Parser Support
A-Parser - версия 1.0.180

Парсер Яндекса SE::Yandex:
  • Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
  • Теперь яндекс гораздо реже показывает каптчу
  • Исправлена отправка каптчи в связи с изменением в выдачи
  • В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи

Парсер Яндекс Вордстата SE::Yandex::WordStat:
  • Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
  • Нельзя было использовать антигейт совместно с аккаунтами

Другие улучшения:
  • Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
  • Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
  • Небольшие улучшения в скорости работы прокси

Исправления:
  • Исправлен парсер SE::AOL в связи с изменением в выдачи
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер SE::Google::TrustCheck в связи с изменением в выдачи
  • Исправлено разделение логов по запросам

Подробнее тут: Изменения в версии 1.0.180
A-Parser Support
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе

Теперь в настройках Антигейта( Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.

Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:


В дополнении к этому в парсере SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):


Исправления:
  • Исправлен парсинг сниппетов в парсере SE::Google

Подробнее тут: Изменения в версии 1.0.183
A-Parser Support
A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления

Улучшения:
  • Улучшения в работе с сессиями в парсере SE::Google - уменьшено использование каптч
  • Улучшения в работе с сессиями в парсере SE::Yandex::WordStat::ByDate - уменьшено использование каптч
  • Парсер Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)

Исправления:
  • В парсере SE::Google не распознавалась каптча
  • В парсере SE::Yandex не сохранялись сессии
  • HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
  • Макрос результата {firstquery} (первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
  • Исправлено определение количества результатов в выдаче в парсере SE::Google
  • Парсер SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
  • Парсер SE::Google::Compromised в некоторых случаях работал некорректно
  • Исправлен парсер SE::AOL
  • Исправлен парсер Rank::OpenSiteExplorer

Подробнее тут: Версия 1.0.198
A-Parser Support
A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News

Улучшения
  • Полностью переписан парсер картинок SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
  • Парсер SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
  • Парсер HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений

Исправления
  • Исправлен парсер SE::Bing::LangDetect в связи с изменением в выдачи
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
  • Парсер SE::Google некорректно работал с каптчей при использовании регионального домена Google
  • Парсер SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга

Подробнее: Изменения в версии 1.0.201
A-Parser Support
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!

Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!


Интерфейс претерпел множество изменений:
  • Переработано отображение задания в очереди, теперь оно более наглядное и информативное
  • Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
  • Появилась возможность перемещать задание непосредственно в начало или в конец очереди
  • Обновлен перевод всех элементов на русский язык
  • В задании отображается прогресс в виде процента выполненных запросов
  • Иконка теперь корректно отображается во всех браузерах
  • Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
  • Исправлена ошибка в импорте пресетов

Добавлены новые парсеры, общее число парсеров перевалило за 50:
  • Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
  • SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
  • SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
  • SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
  • SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
  • Rank::Alexa::API - быстрый чекер алексы через API

Улучшения:[NOSMILES]
  • В парсер Яндекса SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
  • Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
  • В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
  • Добавлена возможность сохранять неудачные запросы
  • В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
  • Файл с запросами теперь можно выбирать из подпапок
  • В парсер частотности ключевых слов SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
  • В парсер Вордстата SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки

Исправления:
  • Rank::MajesticSEO в связи с изменением в выдаче
  • Rank::Ahrefs в связи с изменением в выдаче
  • SE::AOL в связи с изменением в выдаче
  • Net::Whois - некорректно определял незанятые домены в некоторых зонах
  • Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов

Подробнее: Изменения в версии 1.0.214
A-Parser Support
A-Parser - версия 1.0.218

Улучшения
  • Парсер Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
  • Для парсера SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно

Исправления
  • Парсер картинок SE::Google::Images в связи с изменением в выдаче
  • Парсер SE::AOL в связи с изменением в выдаче
  • При использовании API после некоторого числа запросов оно переставало отвечать
  • Парсер SE::Baidu в связи с изменением в выдаче
  • Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
  • Опция Try in Parser Test работала некорректно
  • Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии


Подробнее: Изменения в версии 1.0.218
A-Parser Support
A-Parser - версия 1.0.223

Новые парсеры:
  • SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
  • Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов

Исправления:
  • Парсер SE::AOL в связи с изменением в выдачи
  • Парсинг связанных кейвордов(related) в парсере SE::Bing в связи с изменением в выдачи
  • В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)


Подробнее: Изменения в версии 1.0.223
A-Parser Support
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое

Поздравляем всех защитников отечества с их профессиональным праздником!

В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
  • Поддержка переменных, условий, циклов, макросов
  • Множество встроенных функций для строк, массивов и хешей
  • Неограниченные возможности по расширению
  • Подробная документация на русском и английском языках

На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
  • Развернутый пост о преимуществах с примерами на следующей неделе
  • Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
  • Выпуск версии с поддержкой нового шаблонизатора по умолчанию
  • Помощь со стороны технической поддержки в адаптации старых проектов

Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
  • Шаблонах форматирования результатов(Result format)
  • Шаблоне имени файла(Result file name)
  • Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
  • Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения

Другие улучшения:
  • Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
  • Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
  • Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется

Исправления:
  • Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
  • Исправлен парсер SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
  • Парсер Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)

Подробнее тут: Версия 1.0.232
A-Parser Support
Новый шаблонизатор в A-Parser

Зачем?
  • Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
  • Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
  • Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
  • Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей

Массив? Переменная? Мне нужно программировать?
  • Однозначно нет smile.gif A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
  • Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
  • Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать

Читать далее
A-Parser Support
A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок

Улучшения:
  • Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
  • Многократно увеличена скорость при обработке регулярных выражений в Parse custom result

Исправления:
  • Исправлена ошибка в SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
  • Исправлен парсер SE::YouTube в связи с изменением в выдаче
  • Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
  • Исправлен регистратор аккаунтов в Яндексе SE::Yandex::Register в связи с изменением в выдаче
  • Исправлен парсер SE::Yahoo в связи с изменением в выдаче

Подробнее тут: Версия 1.0.236
A-Parser Support
Новая документация и текущий статус Бета-версии

В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию

Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:

Обсудить новую документацию можно на форуме

Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
A-Parser Support
Новая версия Lite, автоматическая оплата прокси

  • Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
  • Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
  • Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
  • Новая сетка цен
  • Последние изменения в бета версии
  • Переработано описание парсера

Мы ждем ваших вопросов smile.gif наши контакты
A-Parser Support
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии



Улучшения
  • Новый парсер HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
  • Для парсера SE::Google добавлена возможность указывать локацию поиска - город или регион
  • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
  • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
  • Улучшена работа с битыми кодировками и детектирование кодировки страницы
  • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
  • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
  • Для парсера Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
  • Добавлена возможность выводить результаты в формате JSON
  • Новая опция Not found is error для парсера Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
  • Добавлена возможность удалять неиспользуемые базы данных Keep unique
  • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
  • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
  • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс

Исправления
  • Исправлен парсер SE::Yandex в связи с переходом на новую выдачу
  • Исправлен парсер SE::AOL в связи с изменением в выдачи
  • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
  • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
  • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в SE::Yandex::WordStat
  • Net:: DNS - исправлена работа на ОС Windows
  • SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
  • Исправлено некорректное определение некоторых полей в парсере Net::Whois
  • Исправлена работа переменной $pagenum в парсере Net::HTTP
  • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
  • Задания с пустым файлом запросов не завершались автоматически
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер Rank::Alexa в связи с изменением в выдачи
  • Исправлен парсер Rank::MajesticSEO в связи с изменением в выдачи
  • Исправлена работа с кодировкой windows-1251
  • Исправлен подсчет числа простых результатов
  • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
  • Исправлен парсер Rank::Category в связи с изменением в выдачи

Полный список всех изменений в соответствующем разделе

Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
A-Parser Support
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

Улучшения
  • Полностью переработан парсер Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
  • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
  • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
  • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
  • Улучшен парсер Net:: DNS при работе через прокси
  • В API появилась возможность запрашивать статус сразу нескольких заданий
  • В API появилась возможность скачивать файл результата
  • Парсер SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
  • В парсере Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank

Исправления
  • Исправлен парсер SE::YouTube в связи с изменением в выдачи
  • Исправлен парсинг с блогов в парсере SE::Google в связи с изменением в выдачи
  • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
A-Parser Support
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

Улучшения
  • Новый парсер SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
  • Новый парсер SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
  • Новый парсер SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
  • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера Rank::CMS
  • Для парсера Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
  • Для парсера Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
  • Новая опция Emulate browser headers для парсера Net::HTTP - автоматически эмулирует хедеры современных браузеров
  • Для парсера SE::Yandex::position теперь доступна статистика по использованию каптчи

Исправления
  • Исправлен парсинг рекламных блоков в парсере SE::Google в связи с изменением в выдачи
  • Исправлен парсер SE::Baidu в связи с изменением в выдачи
  • Исправлен парсер проверки языка сайта SE::Bing::LangDetect
A-Parser Support
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

Улучшения
  • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
  • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
  • Парсер SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
  • При парсинге рекламы в SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление

Исправления
  • Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
  • Исправлено определение ТИц в парсере SE::Yandex::TIC
  • Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса SE::Yandex::Register в связи с изменением в выдачи
  • Исправлена работа с заблокированными аккаунтами в парсере SE::Yandex::WordStat
A-Parser Support
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Определяем CMS для 1000000 доменов за 15 часов

В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа



Немного статистики:
  • Скорость парсинга составила 1100 доменов в минуту
  • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
  • Определено 126 различных CMS
  • Топ 10 самых популярных CMS, первое значение определяет количество доменов:

Код
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint


Читать целиком »

Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

Немного статистики:
  • Парсинг 115390 ключевых слов занял всего 40 минут
  • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
  • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
  • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц

Читать целиком »

Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake smile.gif
Пример разделен на 2 части:
  • Сбор ссылок на анкеты из результатов поиска
  • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"

В результате получаем файл с примерно следующим содержимым:
Код
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none


Читать целиком »
A-Parser Support
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

Другие улучшения
  • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
  • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
  • Для парсера SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
  • В парсере Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages

Исправления
  • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
  • Парсер Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
  • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
  • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
A-Parser Support
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

Улучшения парсера HTML::LinkExtractor
  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=

Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в SE::Google теперь дополнительно парсится видимая ссылка на сайт

Исправления
  • Исправлен парсер SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
A-Parser Support
Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для XRumer: 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора



За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту

Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса



  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:

Код
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net



Сбор перелинкованных топиков

Метод описывает как используя возможности парсера HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся


Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
A-Parser Support
A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи

Улучшения
  • Теперь парсер-паук для сбора ссылок HTML::LinkExtractor основывается на парсере Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
  • В парсер SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
  • Добавлена возможность выбора текущего пресета для прокси-чекера через API
  • В парсере SE::Google добавлен обход лишнего редиректа на HTTPS
  • Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер SE::Yandex::WordStat
  • На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
  • В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
  • Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем

Исправления
  • В парсере Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
  • Исправлена проблема с запуском парсера на некоторых версиях Windows
  • В парсере SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
  • В парсере SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
  • Исправлена ошибка в парсере SE::Google при которой парсер мог вылетать если использовалась опция Location
  • Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
  • Парсер SE::Baidu исправлен в связи с изменением в выдачи
  • В парсере SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
  • Неудачные запросы сохранялись в неверной кодировке
  • Исправлена работа опции Raw data results
  • В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
  • В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
  • Исправлена работа с доменами в зоне .be для парсера Net::Whois
  • Парсер SE::Yahoo исправлен в связи с изменением в выдачи
  • В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
  • В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
A-Parser Support
A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%

Улучшения
  • SE::Seznam - парсер чешской поисковой системы seznam.cz
  • SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
  • Уменьшено начальное потребление памяти на 40%
  • В парсере Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
  • Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
  • Добавлена возможность пропускать обновления на определенную версию
  • Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
  • Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов

Исправления
  • Исправлено отображение текущий версии A-Parser для пользователей Lite версии
  • Исправлена работа тестового парсинга с некоторыми ресурсами
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена работа опции Use pages для парсера Net::HTTP при использовании перебора запросов
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Русская версия IP.Board © 2001-2019 IPS, Inc.