IPB

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 > »   
Ответить в данную темуНачать новую тему
 A-parser - продвинутый парсер ПС, Pr, Wordstat, всего более 35 парсеров!, Google, Yandex, Bing, Suggest, PR, Whois, AOL, Alexa, MajesticSEO...
A-Parser Support
сообщение 23.7.2014, 8:37
Сообщение #41


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии

(IMG:http://a-parser.com/img/scr/FaKHz.png)

Улучшения
  • Новый парсер (IMG:http://a-parser.com/img/parsers/html-textextractor-langdetect.png) HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
  • Для парсера (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google добавлена возможность указывать локацию поиска - город или регион
  • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
  • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
  • Улучшена работа с битыми кодировками и детектирование кодировки страницы
  • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
  • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
  • Для парсера (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
  • Добавлена возможность выводить результаты в формате JSON
  • Новая опция Not found is error для парсера (IMG:http://a-parser.com/img/parsers/net-dns.png) Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
  • Добавлена возможность удалять неиспользуемые базы данных Keep unique
  • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
  • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
  • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс

Исправления
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex в связи с переходом на новую выдачу
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/se-aol.png) SE::AOL в связи с изменением в выдачи
  • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
  • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
  • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в (IMG:http://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat
  • (IMG:http://a-parser.com/img/parsers/net-dns.png) Net:: DNS - исправлена работа на ОС Windows
  • (IMG:http://a-parser.com/img/parsers/se-yandex-webmaster-index.png) SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
  • Исправлено некорректное определение некоторых полей в парсере Net::Whois
  • Исправлена работа переменной $pagenum в парсере Net::HTTP
  • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
  • Задания с пустым файлом запросов не завершались автоматически
  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер Rank::Alexa в связи с изменением в выдачи
  • Исправлен парсер Rank::MajesticSEO в связи с изменением в выдачи
  • Исправлена работа с кодировкой windows-1251
  • Исправлен подсчет числа простых результатов
  • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
  • Исправлен парсер Rank::Category в связи с изменением в выдачи

Полный список всех изменений в соответствующем разделе

Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 12.8.2014, 9:07
Сообщение #42


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

Улучшения
  • Полностью переработан парсер (IMG:http://a-parser.com/img/parsers/rank-cms.png) Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
  • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
  • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
  • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
  • Улучшен парсер (IMG:http://a-parser.com/img/parsers/net-dns.png) Net:: DNS при работе через прокси
  • В API появилась возможность запрашивать статус сразу нескольких заданий
  • В API появилась возможность скачивать файл результата
  • Парсер (IMG:http://a-parser.com/img/parsers/se-aol.png) SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
  • В парсере (IMG:http://a-parser.com/img/parsers/rank-ahrefs.png) Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank

Исправления
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/se-youtube.png) SE::YouTube в связи с изменением в выдачи
  • Исправлен парсинг с блогов в парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google в связи с изменением в выдачи
  • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 28.8.2014, 6:21
Сообщение #43


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

Улучшения
  • Новый парсер (IMG:http://a-parser.com/img/parsers/se-mailru.png) SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
  • Новый парсер (IMG:http://a-parser.com/img/parsers/se-mailru-position.png) SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
  • Новый парсер (IMG:http://a-parser.com/img/parsers/se-dogpile.png) SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
  • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера (IMG:http://a-parser.com/img/parsers/rank-cms.png) Rank::CMS
  • Для парсера Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
  • Для парсера (IMG:http://a-parser.com/img/parsers/rank-majesticseo.png) Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
  • Новая опция Emulate browser headers для парсера (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP - автоматически эмулирует хедеры современных браузеров
  • Для парсера (IMG:http://a-parser.com/img/parsers/se-yandex-position.png) SE::Yandex::position теперь доступна статистика по использованию каптчи

Исправления
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 16.9.2014, 8:02
Сообщение #44


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

Улучшения
  • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
  • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
  • Парсер (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
  • При парсинге рекламы в (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление

Исправления
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 29.9.2014, 6:24
Сообщение #45


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Определяем CMS для 1000000 доменов за 15 часов

В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа

(IMG:http://a-parser.com/img/scr/e273J.png)

Немного статистики:
  • Скорость парсинга составила 1100 доменов в минуту
  • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
  • Определено 126 различных CMS
  • Топ 10 самых популярных CMS, первое значение определяет количество доменов:

Код
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint


Читать целиком »

Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер (IMG:http://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

Немного статистики:
  • Парсинг 115390 ключевых слов занял всего 40 минут
  • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
  • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
  • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц

Читать целиком »

Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Пример разделен на 2 части:
  • Сбор ссылок на анкеты из результатов поиска
  • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"

В результате получаем файл с примерно следующим содержимым:
Код
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none


Читать целиком »
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 14.10.2014, 8:25
Сообщение #46


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

Другие улучшения
  • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
  • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
  • Для парсера (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
  • В парсере (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages

Исправления
  • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
  • Парсер (IMG:http://a-parser.com/img/parsers/net-whois.png) Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
  • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
  • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 29.10.2014, 6:49
Сообщение #47


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

Улучшения парсера (IMG:http://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor
  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=

Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google теперь дополнительно парсится видимая ссылка на сайт

Исправления
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере (IMG:http://a-parser.com/img/parsers/net-whois.png) Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер (IMG:http://a-parser.com/img/parsers/rank-opensiteexplorer.png) Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 6.11.2014, 10:23
Сообщение #48


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для XRumer: 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора

(IMG:http://a-parser.com/img/scr/p7pOr.png)

За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту

Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса

(IMG:http://a-parser.com/img/scr/JVdOG.png)

  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:

Код
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net



Сбор перелинкованных топиков

Метод описывает как используя возможности парсера (IMG:http://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся


Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 24.11.2014, 6:42
Сообщение #49


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи

Улучшения
  • Теперь парсер-паук для сбора ссылок (IMG:http://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor основывается на парсере (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
  • В парсер (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
  • Добавлена возможность выбора текущего пресета для прокси-чекера через API
  • В парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google добавлен обход лишнего редиректа на HTTPS
  • Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер (IMG:http://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat
  • На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
  • В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
  • Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем

Исправления
  • В парсере (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
  • Исправлена проблема с запуском парсера на некоторых версиях Windows
  • В парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
  • В парсере (IMG:http://a-parser.com/img/parsers/se-yahoo.png) SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
  • Исправлена ошибка в парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google при которой парсер мог вылетать если использовалась опция Location
  • Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
  • Парсер (IMG:http://a-parser.com/img/parsers/se-baidu.png) SE::Baidu исправлен в связи с изменением в выдачи
  • В парсере SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
  • Неудачные запросы сохранялись в неверной кодировке
  • Исправлена работа опции Raw data results
  • В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
  • В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
  • Исправлена работа с доменами в зоне .be для парсера Net::Whois
  • Парсер SE::Yahoo исправлен в связи с изменением в выдачи
  • В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
  • В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 15.12.2014, 9:05
Сообщение #50


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%

Улучшения
  • (IMG:http://a-parser.com/img/parsers/se-seznam.png) SE::Seznam - парсер чешской поисковой системы seznam.cz
  • (IMG:http://a-parser.com/img/parsers/se-aol-suggest.png) SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
  • Уменьшено начальное потребление памяти на 40%
  • В парсере (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
  • Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
  • Добавлена возможность пропускать обновления на определенную версию
  • Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
  • Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов

Исправления
  • Исправлено отображение текущий версии A-Parser для пользователей Lite версии
  • Исправлена работа тестового парсинга с некоторыми ресурсами
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/rank-ahrefs.png) Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена работа опции Use pages для парсера (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP при использовании перебора запросов
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 13.2.2015, 9:42
Сообщение #51


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений


Улучшения

  • Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
  • Парсер (IMG:http://a-parser.com/img/parsers/google-images.png) SE::Google::Images теперь парсит без https
  • Добавлена возможность ограничить максимальное число соединений на один прокси сервер
  • В API добавлена возможность удалять файл результата
  • Обновлен Perl модуль по работе с API AParser.pm
  • В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
  • Добавлена возможность использовать запрос $query в настройке Extra query string


Исправления

  • В парсере (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
  • Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
  • Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
  • Исправлена кодировка при сохранении неудачных запросов
  • Исправлена ошибка, при которой задания могли не удалятся из очереди
  • Исправлена кодировка в именах файлов результатов
  • В парсере (IMG:http://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
  • При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
  • Исправлен вылет парсера при использовании некоторых регулярных выражений
  • Исправлена обработка относительных путей в парсере (IMG:http://a-parser.com/img/parsers/net-http.png) Net::HTTP при использовании опции Next Page Regex
  • Исправлен парсинг количества результатов в парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google при использовании арабской локализации
  • Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
  • Исправлен парсер (IMG:http://a-parser.com/img/parsers/rank-ahrefs.png) Rank::Ahrefs в связи с изменением в выдачи
  • Исправлена ошибка работы с исходным кодом страницы в парсере (IMG:http://a-parser.com/img/parsers/se-google.png) SE::Google
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 25.3.2015, 11:43
Сообщение #52


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - 1.1.224 - улучшенные возможности по уникализации результатов, множество исправлений

Все возможности новой версии можно протестировать в демо версии A-Parser

Улучшения

  • Добавлена возможность уникализировать результаты созданные с помощью Конструктора результатов
  • Добавлена возможность передавать дополнительные параметры на сервис распознавания каптчи(например специальные настройки для CapMonster)
  • В парсер (IMG:http://a-parser.com/img/parsers/se-bing-images.png) SE::Bing::Images добавлена возможность отключить безопасный поиск
  • В парсер (IMG:http://a-parser.com/img/parsers/se-youtube.png) SE::YouTube добавлен фильтр по 4K видео
  • Добавлена возможность применять Конструктор запросов после подстановок запросов
  • В парсер (IMG:http://a-parser.com/img/parsers/se-bing.png) SE::Bing добавлена возможность парсить связанные кейворды в глубину, автоматически подставляя новые кейворды в запросы(Parse to level)
  • Переработан выбор файлов запросов, теперь вложенные директории отображаются только при клике по ним


Исправления в связи с изменениями в выдачи




Исправления

  • Некорректно работала опция сохранения переноса строк для Windows (CRLF)
  • Иногда задание могло зависнуть в состоянии pausing/stopping
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 5.5.2015, 4:52
Сообщение #53


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - 1.1.247 - новые парсеры поисковиков Ask и Comcast, произвольные шаблоны в конструкторе результатов

Улучшения

  • В конструкторе результатов и фильтрах теперь возможно использовать произвольный шаблон в качестве аргумента для преобразования или фильтрации
  • В парсер (IMG:http://a-parser.com/img/parsers/se-yandex.png) SE::Yandex добавлена возможность выбора домена yandex.com для парсинга
  • Добавлен новый поисковик (IMG:http://a-parser.com/img/parsers/se-ask.png) SE::Ask с американской выдачей Google
  • Добавлен новый поисковик (IMG:http://a-parser.com/img/parsers/se-comcast.png) SE::Comcast с американской выдачей Google
  • Добавлена статистика для завершенных заданий, а также отображение общего времени выполнения задания
  • Добавлен объект $request, который доступен при форматировании результата и позволяет извлечь любую информацию о текущем запросе, а также о всех редиректах выполненных перед конечным запросом

Исправления

  • Парсер мог заблокировать файл результата после завершения задания
  • Исправлена некорректная обработка <base href= в некоторых случаях
  • Парсер вылетал при использовании инструмента генерации произвольного User-Agent tools.ua.random() в тестовом парсинге
  • В быстром задании не работал выбор запросов из файла
  • Некорректно обрабатывался редирект с автоматическим выбором схемы(ссылки вида //domain.com/)


Исправления в связи с изменениями в выдачи

Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 19.5.2015, 9:04
Сообщение #54


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Программа LinkAParser - объединение функционала генератора PandoraBox и парсера A-Parser

С помощью данного софта задействованы основные возможности парсера A-Parser при генерации сайтов программой PandoraBox.

Обсуждение на форуме A-Parser'а и ссылка на сайт генератора

Применяет возможности А-Парсера для:
  • Парсинга релевантного текста
  • Парсинга релевантных картинок
  • Парсинга релевантных видео роликов


Понимает какие ключи уже обработаны и не парсит одно и тоже дважды
С программой идут готовые пресеты, которые достаточно импортировать и можно запускать генерацию
Спаршенные данные программа структурировано раскладывает в файлы и папки
Спаршенный текст программа чистит от мусора по множеству признаков

В комплекте с программой идет набор дополнительных макросов:
  • Макрос вывода релевантного текста с подмешанными ключами
  • Макрос вывода релевантного текста без ключей
  • Макрос вывода релевантной картинки
  • Макрос вывода релевантной картинки как локальной(проксирование скриптом)
  • Макрос вывода релевантного видео ролика

Для работы необходима лицензия парсера A-Parser Enterprise
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 27.5.2015, 10:35
Сообщение #55


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

Проверяем наличие мобильной версии для 1000000 сайтов

Работаем с большими объемами данных и учимся искать совпадения в raw data.
(IMG:http://img.a-parser.com/WHXyV.png)
  • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?


По списку запросов получаем страницы, CMS, PR, e-mail из whois

Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.
(IMG:http://img.a-parser.com/mtDTQ.png)
  • на первом этапе используется 1 парсер, на втором - 3
  • в конструкторе результатов используется регулярное выражения для извлечения необходимой информации
  • результаты выводятся в виде вложенных папок и текстовых файлов по следующей схеме:

Код
PR_1
     \Joomla
           \domain.com
                   contacts.txt
                   cache.txt
      \Drupal
      \WordPress
     \no CMS
PR_2
PR_3


Узнать позиции по кеям, как?

Знакомимся с парсером (IMG:http://a-parser.com/img/parsers/se-google-position.png) SE::Google::Position и проверяем на каком месте в поисковой выдачи находится ключевое слово.
(IMG:http://img.a-parser.com/fKb8T.png)

Детальнее о самом парсере здесь.

Предыдущие сборники:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 2.6.2015, 11:10
Сообщение #56


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Очередной, 4-й выпуск сборника рецептов. Поехали!

Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене

Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.
(IMG:http://a-parser.com/img/scr/dq37k.png)
В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

Парсинг товаров с сайта

Парсим интернет-магазин и формируем свою HTML-страницу с результатами.
(IMG:http://img.a-parser.com/iIqXK.png)
Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

Скачиваем файлы

Сохраняем на жесткий диск различные документы из поисковой выдачи, с определением их типа, а также возможностью формировать уникальное имя файла.
(IMG:http://img.a-parser.com/LQIab.png)
Ну а здесь нам необходимо парсить из выдачи Гугла ссылки на документы формата doc, xls и pdf. Так же необходимо скачивать данные документы, при этом обеспечить уникальность имени файла. Детали - по ссылке выше.

Предыдущие сборники:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 18.6.2015, 12:00
Сообщение #57


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

5-й выпуск сборника рецептов. Здесь мы научимся парсить ссылки из страниц, где их подгружает JS-скрипт, будем собирать паблик прокси и составлять карту сайта.

Подгрузка ссылок через JS
Есть очень много сайтов, где контент загружается специальным скриптом (AJAX). К примеру, это может быть поиск на сайте. И как спарсить с таких сайтов информацию? Ведь если посмотреть код страницы в браузере - то, к примеру, ссылки там есть, а парсер их не видит... Решение есть, и оно довольно не сложное. Как это сделать - по ссылке выше.
(IMG:http://img.a-parser.com/u5aRe.png)

Сборщик паблик прокси: как лучше и насколько это эффективно
Всем известно, что в интернете есть очень много сайтов, где выкладывают публичные прокси (что это на Википедии). Если возникает необходимость в использовании таких прокси - появляется проблема в их сборе, при этом, естественно нужны только живые. Наверное так же известно, что используя А-парсер, можно их собирать. А вот как это делать и насколько это эффективно - читайте по ссылке выше.
(IMG:http://img.a-parser.com/5blGo.jpeg)

Карта сайта с помощью A-parser
Карта сайта простыми словами - это XML-файл, который помогает поисковикам лучше индексировать сайт. Некоторые SEOшники считают ее отсутствие грубейшей ошибкой. Существует очень много сервисов и инструментов для создания таких карт, ну а мы попробуем создать ее с помощью A-parser. Что из этого получится, и как это делать - читайте по ссылке выше.
(IMG:http://img.a-parser.com/Do5Tj.png)

Предыдущие сборники:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 10.7.2015, 9:17
Сообщение #58


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

6-й выпуск сборника рецептов. Здесь мы попробуем собирать скрытые номера мобильных телефонов из доски объявлений и научимся сохранять результаты работы А-парсера в таблицы с возможностью сортировки.

Парсим базу мобильных телефонов
Базы телефонов могут использоваться по-разному, но основной вид их использования - рассылка смс рекламного характера. А если базу еще и возможно отсортировать по городу, интересу или другим характеристикам, т.е. сделать таргетированную рассылку, то эффективность сильно возрастает. Подобные базы собираются разными способами, мы же поговорим о том, как это сделать с помощью А-парсера.
(IMG:http://img.a-parser.com/nS4dz.png)

Вывод результатов в таблицу
Бывает, возникает необходимость в красивом и удобном выводе данных, полученных в результате парсинга. И если обычного текстового вида недостаточно, нужно искать другие способы вывода. Об одном таком способе и пойдет речь в статье по ссылке выше.
(IMG:http://img.a-parser.com/cGb8L.jpeg)


Предыдущие сборники:
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 22.7.2015, 10:37
Сообщение #59


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



A-Parser - версия 1.1.269 - получение списка задач по API, только мобильные для WordStat

Два месяца у нас работает профессиональный саппорт, который помогает составлять задания любой степени сложности. Доработана документация, регулярно появляются интересные решения на нашем форуме, которые теперь собраны в едином Каталоге примеров. Также создан большой FAQ, в котором собраны ответы на часто задаваемые вопросы.

Версия 1.1.269 является одной из последних в ветке 1.1.х, в скором времени будет доступна бета версия 1.2, которая принесет новый виток развития A-Parser, следите за новостями

Улучшения

  • Теперь по API можно получить список активных заданий, а также опционально список завершенных заданий
  • Для парсера (IMG:http://a-parser.com/img/parsers/se-yandex-wordstat.png) SE::Yandex::WordStat добавлена возможность получать статистику только для мобильного трафика
  • В парсере (IMG:http://a-parser.com/img/parsers/html-linkextractor.png) HTML::LinkExtractor теперь обрабатываются только http(s) ссылки
  • При использовании автоопределения языка в парсере (IMG:http://a-parser.com/img/parsers/se-bing-translator.png) SE::Bing::Translator теперь можно вывести в результат язык исходного текста


[B]Исправления в связи с изменениями в выдачи

[/B]


Исправления


  • В парсере SE::Bing::Translator исправлен парсинг арабского языка
  • Парсер Net:: DNS не поддерживал кириллические домены
  • Исправлен парсинг подсказок в парсер SE::Google при использовании подстановок
  • Парсер SE::Yahoo использовал много CPU
Перейти в начало страницы
 
+Цитировать сообщение
A-Parser Support
сообщение 4.8.2015, 10:01
Сообщение #60


Ветеран
****

Группа: Кандидат
Сообщений: 115
Регистрация: 3.6.2013
Пользователь №: 971
Вставить ник
Цитата



Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

7-й выпуск сборника рецептов. Здесь мы рассмотрим вариант парсинга RSS, будем скачивать картинки в зависимости от их характеристик и научимся фильтровать результат по хедерам.

Парсинг RSS
На сегодняшний день RSS остаются довольно популярным вариантом доставки новостей и контента пользователям. В связи с этим его используют почти на всех сайтах, где бывает более-менее периодическое обновление информации. А для нас это возможность быстро спарсить свежие обновления сайта, не анализируя сам сайт. И один из способов, как это сделать описан по ссылке выше.
(IMG:http://img.a-parser.com/PVVNZ.png)

Как фильтровать результат по определенным хедерам?
Как известно, А-парсер предназначен для парсинга, в основном, текстовой информации. Но кроме этого им вполне реально парсить и другие обьекты (файлы, картинки и т.п.). При этом существует возможность фильтровать их по заголовкам ответа сервера. Об этом по ссылке выше.
(IMG:http://img.a-parser.com/v9C3l.png)

Скачивание картинок указанного разрешения и размера
Если выше мы фильтровали результат только по хедерам и рассматривали вариант с документами, то в данной статье мы будем скачивать картинки и фильтровать их по размеру и разрешению. Как это сделать - можно увидеть по ссылке выше.
(IMG:http://img.a-parser.com/n58ds.png)

Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

Перейти в начало страницы
 
+Цитировать сообщение

7 страниц V  < 1 2 3 4 5 > » 
Ответить в данную темуНачать новую тему
5 чел. читают эту тему (гостей: 5, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 20.7.2018, 0:34