IPB

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Ответить в данную темуНачать новую тему
 Kozyol отличный парсер гугла
Dmi
сообщение 27.4.2011, 20:31
Сообщение #1


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Всем привет! С днем рождения, 4seo :-)

Парсер – не бог весть сложная программа, тем не менее этот инструмент незаменим. При создании парсера гугла Kozyol была поставлена задача сделать легкий в управлении, лаконичный, гибкий и стабильный софт. Я думаю, он вам понравится =) перечислю основные моменты:

1. Возможности, ставшие стандартом такого рода софта:

1.1. естественно, многопоточность, причем умная: динамическое распределение работы в ходе процесса парсинга, ни один поток не будет висеть без дела, если даже он выполнил свою часть работы

1.2. конечно прокси, которые при парсинге гугла нужны как воздух, поддержка следующих типов проски: http, socks4, socks5 (чего так не хватало в ауре); просто укажите источник и парсер с ним разберется)

1.3. использование ротаторов – это файлы с подстановками к запросу, например с доменными зонами. Их цель ”вращать выдачу”, чтобы получить больше 1000 результатов, котрые отдает гугл по дефолту

2. Минимум настроек:

(IMG:http://kozyol.com/wp-content/uploads/2011/04/preferences1.png)

3. Удобный менеджер управления заданиями парсинга: все в любой момент можно проследить, остановить, поставить на паузу и пр.

тут еще чуть подробнее со скринами

Технические детали:
- парсер серверный, для работы нужен python (2.5 и новее) и php, и библиотека curl

- идеальным вариантом будет любой юниксовый сервер или вдс

Цена и условия:
- цена на парсер гугла Kozyol 50 долларов
- установка парсера и настройка сервера/вдс (включая установку нужного софта) – пока бесплатно
- принимаю: webmoney, paypal, paxum
- мои контакты: icq 280870084, email: dmii.support@gmail.com

http://kozyol.com/
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 27.4.2011, 21:56
Сообщение #2


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



опа ) поздравляю с запуском
а владельцам ауры есть что-то? (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
swimer42
сообщение 27.4.2011, 23:26
Сообщение #3


Ветеран
****

Группа: Кандидат
Сообщений: 149
Регистрация: 18.7.2007
Пользователь №: 346
Вставить ник
Цитата



тоже хотел про владельцев ауры узнать, хотя это и недорого 50$
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 28.4.2011, 13:42
Сообщение #4


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (dim7 @ 27.4.2011, 18:37) *
опа ) поздравляю с запуском
а владельцам ауры есть что-то? (IMG:http://4seo.biz/style_emoticons/default/smile.gif)

клиентам ауры бесплатная установка и настройка, да, она сейчас всем доступна бесплтано, но клиентам будет всегда)
пока скидок особых нет, так как цена всего 50, но в дальнейшем будут скидки

upd хотя если кто-то из старых клиентов желает принять активное участие в развитие проекта, то можно получить и бесплтную копию)

Сообщение отредактировал Dmi - 28.4.2011, 13:51
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 28.4.2011, 23:09
Сообщение #5


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Цитата(Dmi @ 28.4.2011, 11:23) *
upd хотя если кто-то из старых клиентов желает принять активное участие в развитие проекта, то можно получить и бесплтную копию)


это как,... нужно кодить на питоне?

или сига + топик про парсинг козла ))

Сообщение отредактировал dim7 - 28.4.2011, 23:13
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 29.4.2011, 16:42
Сообщение #6


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Первое обновление от 29.04.2011

Для получения большего снисхождения от гугла парсер, в зависимости от страны айпи-адреса прокси, будет обращаться к локальным доменам. Например, если прокси немецкая, то скрипт пойдет парсить через google.de/?hl=de. Определение нужного домена гугла происходит автоматически во время процесса парсинга.
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 29.4.2011, 17:02
Сообщение #7


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (dim7 @ 28.4.2011, 19:50) *
QUOTE (Dmi @ 28.4.2011, 11:23) *
upd хотя если кто-то из старых клиентов желает принять активное участие в развитие проекта, то можно получить и бесплтную копию)


это как,... нужно кодить на питоне?

или сига + топик про парсинг козла ))

кодить на питоне не надо)) свяжись, если интересно, договоримся
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 3.5.2011, 7:56
Сообщение #8


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Спасибо за поздравление с ДР и поздравляю с запуском продукта (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 25.5.2011, 17:15
Сообщение #9


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Обновление номер два.

1. Парсер гугла оптимизирован для работы с большим количеством запросов, файлы с миллионами запросов – не проблема.

2. Добавлен инсталятор и защита на админку.

3. Были исправлены выявленные недочеты.

Обновление будет доступно через систему клиентов сегодня-завтра.
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 26.5.2011, 17:52
Сообщение #10


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



DMI, а как достучаться до тебя? то что я тестировал особо не парсит. О недочетах писал тебе в аську, но ответа не видел.
что за система клиентов?
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 31.5.2011, 17:09
Сообщение #11


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Дорогие клиенты! Для получения постоянного доступа для скачки скрипта и обновлений обратитесь ко мне (укажите желаемый логин).

Для скачки доступен вновь обновленный скрипт:
- были исправлены выявленные ошибки
- более подрбное логирование действий парсер
- в менеджер добавлен инструмент join, который объединяет файлы с результатами

Буду рад новым пожеланиям к обновлениям.
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 1.6.2011, 18:12
Сообщение #12


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Снова обновлен менеджер:
теперь различаются два инструмента:
unique by domains - удалить дубли по домену
get domains - получить список доменов из результатов
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 2.6.2011, 20:32
Сообщение #13


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Dmi, дык эта, как к тебе лучше обращаться то? По аське, в личку, или еще как? (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 2.6.2011, 20:57
Сообщение #14


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (Chin @ 2.6.2011, 17:13) *
Dmi, дык эта, как к тебе лучше обращаться то? По аське, в личку, или еще как? (IMG:http://4seo.biz/style_emoticons/default/smile.gif)

да как удобнеe: icq (280870084) если не дошли сообщение или еще что, то всегда можно на емайл емайл: dmii.support@gmail.com (он же гуглтолк)
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 18.8.2011, 19:04
Сообщение #15


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Для покупателей парсера Коzyol на дорген DMI 3 Static действует скика 25$
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 19.8.2011, 14:00
Сообщение #16


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Обновление менеджера результатов

1. Добавлен новый инструмент get alive urls, который оставит только живые ресурсы
2. В менеджер добавлены фильтры с условиями (if contains/if does not contain), т.е. результаты можно отфильтровать на наличие или, наоборот, отсутствие подстроки.
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 20.8.2011, 6:11
Сообщение #17


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Цитата(Dmi @ 19.8.2011, 16:11) *
1. Добавлен новый инструмент get alive urls, который оставит только живые ресурсы

А как он живость проверяет, если не секрет? По какому признаку?
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 20.8.2011, 13:59
Сообщение #18


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (Chin @ 20.8.2011, 2:52) *
QUOTE (Dmi @ 19.8.2011, 16:11) *
1. Добавлен новый инструмент get alive urls, который оставит только живые ресурсы

А как он живость проверяет, если не секрет? По какому признаку?

Просто делает запрос и если ресурс отвечает 200 OK, то считается живым.
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 20.8.2011, 14:10
Сообщение #19


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Kozyol Google Images Parser

Добавлен отдельный парсер картинок с гугла (для скачки файл kozyol.images.*.zip). Скрипт полностью аналогичен стандартному парсеру, за исключением того, что сохраняет прямые ссылки на картинки (максимум 1000 картинок на запрос).
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 22.8.2011, 2:08
Сообщение #20


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Dmi, понял. Почему спрашивал - у меня на 4сео тулза есть, которая тоже сайты проверяет. Механизм такой же. Думал, может что интересное у тебя там есть по технологии (IMG:http://4seo.biz/style_emoticons/default/smile.gif) В принципе тема рабочая, но в идеале конечно бы кеш сверять с текущим контентом, а то на 200 может отдаваться что угодно, по идее. Но в данном случае это конечно уже перебор, неоправданные затраты машинного времени.
Перейти в начало страницы
 
+Цитировать сообщение

3 страниц V   1 2 3 >
Ответить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 18.1.2018, 11:56