IPB

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Ответить в данную темуНачать новую тему
 Kozyol отличный парсер гугла
dim7
сообщение 26.8.2011, 11:37
Сообщение #21


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



может сталкивался кто с такой проблемой, что может быть?

парсер останавливается и все.
не тогда когда парсинг закончен, а просто останавливается.

Код
top - 23:11:37 up 1 day, 23:03,  1 user,  load average: 77.72, 77.47, 76.43
Tasks: 152 total,   2 running, 150 sleeping,   0 stopped,   0 zombie
Cpu(s): 45.5%us, 44.2%sy,  0.0%ni,  0.6%id,  0.0%wa,  0.0%hi,  9.7%si,  0.0%st
Mem:   1022596k total,   745916k used,   276680k free,    82888k buffers
Swap:  2106364k total,     9104k used,  2097260k free,   120964k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                            
11177 user      20   0 1787m 136m 2852 S  149 13.7 457:09.19 /usr/local/bin/python2.5 -u core.py 1314137440


процесс как бы идет, но при этом load average: 77.72, 77.47, 76.43
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 27.8.2011, 4:42
Сообщение #22


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Интересно. Памяти судя по top хватать должно (первое, о чем подумал).
Ждем, что DMI скажет (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
swimer42
сообщение 27.8.2011, 11:21
Сообщение #23


Ветеран
****

Группа: Кандидат
Сообщений: 149
Регистрация: 18.7.2007
Пользователь №: 346
Вставить ник
Цитата



load average 77 (изза этого и томозит), странно, что памяти хватает при таком раскладе
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 28.8.2011, 6:12
Сообщение #24


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Цитата(swimer42 @ 27.8.2011, 13:32) *
load average 77 (изза этого и томозит)

Я так понял, что не тормозит, а останавливается. А чисто теоретически глядя на топ - по идее не должен останавливаться.
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 28.8.2011, 9:56
Сообщение #25


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Цитата(Chin @ 28.8.2011, 3:53) *
Цитата(swimer42 @ 27.8.2011, 13:32) *
load average 77 (изза этого и томозит)

Я так понял, что не тормозит, а останавливается. А чисто теоретически глядя на топ - по идее не должен останавливаться.


Чин, ну там непонятно, остановился он или че. по факту, парсинг не продолжается. ЛА = 77
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 29.8.2011, 4:35
Сообщение #26


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



А код открытый или нет?
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 4.9.2011, 13:45
Сообщение #27


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (dim7 @ 26.8.2011, 8:18) *
может сталкивался кто с такой проблемой, что может быть?

парсер останавливается и все.
не тогда когда парсинг закончен, а просто останавливается.

CODE
top - 23:11:37 up 1 day, 23:03,  1 user,  load average: 77.72, 77.47, 76.43
Tasks: 152 total,   2 running, 150 sleeping,   0 stopped,   0 zombie
Cpu(s): 45.5%us, 44.2%sy,  0.0%ni,  0.6%id,  0.0%wa,  0.0%hi,  9.7%si,  0.0%st
Mem:   1022596k total,   745916k used,   276680k free,    82888k buffers
Swap:  2106364k total,     9104k used,  2097260k free,   120964k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                            
11177 user      20   0 1787m 136m 2852 S  149 13.7 457:09.19 /usr/local/bin/python2.5 -u core.py 1314137440


процесс как бы идет, но при этом load average: 77.72, 77.47, 76.43


крон запускается не из под root? попробуй из по него поставить стартер
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 5.9.2011, 22:55
Сообщение #28


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Цитата(Dmi @ 4.9.2011, 11:26) *
Цитата(dim7 @ 26.8.2011, 8:18) *
может сталкивался кто с такой проблемой, что может быть?

парсер останавливается и все.
не тогда когда парсинг закончен, а просто останавливается.

Код
top - 23:11:37 up 1 day, 23:03,  1 user,  load average: 77.72, 77.47, 76.43
Tasks: 152 total,   2 running, 150 sleeping,   0 stopped,   0 zombie
Cpu(s): 45.5%us, 44.2%sy,  0.0%ni,  0.6%id,  0.0%wa,  0.0%hi,  9.7%si,  0.0%st
Mem:   1022596k total,   745916k used,   276680k free,    82888k buffers
Swap:  2106364k total,     9104k used,  2097260k free,   120964k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                            
11177 user      20   0 1787m 136m 2852 S  149 13.7 457:09.19 /usr/local/bin/python2.5 -u core.py 1314137440


процесс как бы идет, но при этом load average: 77.72, 77.47, 76.43


крон запускается не из под root? попробуй из по него поставить стартер

пробовал, нет никакой разницы. парсинг через паблик прокси. от версии питона не зависит. ЛА увеличивается только при парсинге через прокси.
100 потоков load average: 77.72, 77.47, 76.43
40 потоков load average: 4.17, 4.75, 5.12


отмечу также, что парсер картинок при тех же настройках , парсит хорошо и load average: 0.24, 0.95, 2.88

Сообщение отредактировал dim7 - 5.9.2011, 23:33
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 6.9.2011, 1:56
Сообщение #29


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Если бы не замечание про парсинг картинок, я бы на прокси грешил.
Если нету в парсере своего таймаута, один поток на одной проксе стопицот часов может висеть, пока прокся не одуплится.
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 6.9.2011, 12:19
Сообщение #30


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



ну да, как бы проблема возникает при парсинге через прокси, толи в момент определения страны, толи еще где... про картинки мне вообще показалось, что он парсер проигнорировал настройки с прокси и так спарсил картинки, потому как это очень быстро случилось. так на 100% собралось 100к картинок и благополучно завершилось. При этом в настройках стояло 50 потоков а какого-либо бана от гугла не последовало. вот и думаю, то-ли гугл не банит при парсинге картинок, толи парсер картинок такой акуительный. (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 6.9.2011, 19:21
Сообщение #31


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Парсер картинок в плане кода точно такой же, там только изменен конфиг в data/config/google.cfg и там же отключено определение домена по прокси (detect_domain = off). Так что можно попробовать отключить определение домена и в обычной версии.

Сообщение отредактировал Dmi - 6.9.2011, 19:54
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 6.9.2011, 19:27
Сообщение #32


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



опа (IMG:http://4seo.biz/style_emoticons/default/smile.gif) detect_domain = off

load average: 0.15, 0.18, 0.12

по поводу % выполнения. как оно высчитывается?

у меня получается на 40% = 4К результатов. прокси не ахти, но стабильность пропорции наводит на мысль что парсется не все.

2. Refresh interval: min. ← интервал их обновления (в минутах)
а где они обновляются, программно в парсере?
просто судя по крону, прокси дергаются каждый раз, когда срабатывает крон. а крон стоит на каждую минуту.

Сообщение отредактировал dim7 - 6.9.2011, 19:48
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 6.9.2011, 19:53
Сообщение #33


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (dim7 @ 6.9.2011, 16:08) *
опа (IMG:http://4seo.biz/style_emoticons/default/smile.gif) detect_domain = off

load average: 0.15, 0.18, 0.12

по поводу % выполнения. как оно высчитывается?

у меня получается на 40% = 4К результатов. прокси не ахти, но стабильность пропорции наводит на мысль что парсется не все.


процент считается и с неудачными поытками, т.е если где-то будет превышено количество попыток для парсинга (parsing attempts limit) то к статистике это прибавится как обработанная страница выдачи, но результатов она не принесла
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 6.9.2011, 20:00
Сообщение #34


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



да, опция Refresh interval, в последней версии временно не актуальна, так как прокси теперь загружаются независимо от парсера (скриптом starter.py) каждую минуту... вообще не решил еще: оставить или убрать окончательно refresh interval

Сообщение отредактировал Dmi - 6.9.2011, 20:01
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 6.9.2011, 20:08
Сообщение #35


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



конечно оставить. есть листы где выдача прокси из базы идет и 20-40к в листе. передергивать такой список каждую минуту, например, с впс немножко не корректно.
если возможно, то улучши этот момент плз.
например, если гугл выдал капчу , то определять это как-то.
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 6.9.2011, 22:06
Сообщение #36


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Цитата(Dmi @ 6.9.2011, 17:34) *
процент считается и с неудачными поытками, т.е если где-то будет превышено количество попыток для парсинга (parsing attempts limit) то к статистике это прибавится как обработанная страница выдачи, но результатов она не принесла


парсер остановился на 56%, а start task стало активным.

Сообщение отредактировал dim7 - 6.9.2011, 22:49
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 7.9.2011, 13:52
Сообщение #37


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



QUOTE (dim7 @ 6.9.2011, 16:49) *
конечно оставить. есть листы где выдача прокси из базы идет и 20-40к в листе. передергивать такой список каждую минуту, например, с впс немножко не корректно.
если возможно, то улучши этот момент плз.
например, если гугл выдал капчу , то определять это как-то.

ок, оставлю refresh interval
парер определяет бан если гугл посылает 403 или дает капчу
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 8.9.2011, 3:32
Сообщение #38


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Цитата(dim7 @ 6.9.2011, 21:38) *
опа smile.gif detect_domain = off
load average: 0.15, 0.18, 0.12

Ну вот и ответ нашелся (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 8.9.2011, 16:34
Сообщение #39


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



продолжаю гонять козла на публичных прокси )

настройки :
Queries (x rotators) - 1325 (x 1000)
Threads - 100
Status - 0.0107%
Results - 198970

load average: 0.80, 1.36, 1.21

13533 user 20 0 973m 89m 2916 S 6 9.0 10:38.79 /usr/bin/python2.6 -u core.py 1315420930
14089 user 20 0 19540 1572 944 R 4 0.2 0:00.08 top
------------------

С задачей парсинга козел справляется, по результатам не уступая тому же хреферу.
Но нет удаления дублей строк или дублей доменов на лету. Здесь это проигрыш, т.к. место на диске быстро стремится к нулю.

Сообщение отредактировал dim7 - 8.9.2011, 16:35
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 9.9.2011, 11:57
Сообщение #40


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



внезапно во время парсинга.

Код
top - 12:54:05 up 1 day, 14:17,  1 user,  load average: 256.85, 239.48, 238.62
Tasks: 657 total,   1 running, 656 sleeping,   0 stopped,   0 zombie
Cpu(s): 11.0%us, 85.4%sy,  0.0%ni,  2.7%id,  0.0%wa,  0.0%hi,  1.0%si,  0.0%st
Mem:   1022596k total,   994632k used,    27964k free,    13140k buffers
Swap:  2106364k total,   362376k used,  1743988k free,    60496k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                            
13533 user      20   0 5659m 226m 1300 S  181 22.7   1210:22 python2.6                          
25328 user      20   0 19684 1728  916 R    2  0.2   2:17.22 top
Перейти в начало страницы
 
+Цитировать сообщение

3 страниц V  < 1 2 3 >
Ответить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 14.11.2018, 3:58