IPB

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3  
Ответить в данную темуНачать новую тему
 Kozyol отличный парсер гугла
Chin
сообщение 10.9.2011, 5:06
Сообщение #41


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Цитата(dim7 @ 8.9.2011, 18:45) *
Но нет удаления дублей строк или дублей доменов на лету. Здесь это проигрыш, т.к. место на диске быстро стремится к нулю.

Если он в разные файлы результаты парсинга раскидывает, можно по условному событию "end of parsing" запускать программу из нескольких строк, которая средствами линукса будет дубли чистить. Если код открытый.
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 10.9.2011, 9:56
Сообщение #42


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Да, на лету удаления дублей нет, это в менедежере результатов это есть. Могу сделать опцию автоматического отчищения дублей по строке сразу по окончанию парсинга.
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 11.9.2011, 5:44
Сообщение #43


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Сделай конечно, удаление дублей при парсинге - вещь архинужная.
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 13.9.2011, 7:11
Сообщение #44


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Код
top - 08:03:58 up 1 day, 14:55,  1 user,  load average: 265.92, 345.53, 273.11
Tasks: 226 total,   6 running, 219 sleeping,   1 stopped,   0 zombie
Cpu(s):  1.0%us, 88.8%sy,  0.0%ni,  0.8%id,  0.0%wa,  0.0%hi,  9.5%si,  0.0%st
Mem:   1538688k total,  1497680k used,    41008k free,   171068k buffers
Swap:  2106364k total,        0k used,  2106364k free,   699508k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                            
14030 user      20   0 5633m 252m 2852 S  132 16.8   1229:18 python


load average: 265.92, 345.53, 273.11 на ровном месте в разгар парсинга. С чем теперь это связанно не понимаю, т.к. начало и 3% парсинга прошли нормально.

Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 27.9.2011, 9:51
Сообщение #45


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



похоже, проблема была в конфиге вм. запустил парсер в локалхосте(не вм) (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
парсинг в 50 потоков через прокси, дает нагрузку 5-6 мегабит.
Код
top - 10:45:34 up 15:39,  3 users,  load average: 0.18, 0.22, 0.22
Tasks: 206 total,   5 running, 200 sleeping,   0 stopped,   1 zombie
Cpu(s): 32.6%us,  4.8%sy,  0.2%ni, 60.3%id,  0.8%wa,  0.0%hi,  1.3%si,  0.0%st
Mem:   4058980k total,  3994396k used,    64584k free,   564956k buffers
Swap:  1998844k total,    43544k used,  1955300k free,  1102004k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND            
2896 user      20   0  988m 109m 2972 R   35  2.8  63:14.25 python            
7363 libvirt-  20   0 1486m 1.3g 2040 R   31 32.8 223:03.81 kvm


332 (x 1000) 50 0.41%
running
93323
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 28.9.2011, 14:07
Сообщение #46


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Цитата(dim7 @ 27.9.2011, 12:02) *
проблема была в конфиге вм

Виртуальной машины чтоли?
Перейти в начало страницы
 
+Цитировать сообщение
dim7
сообщение 28.9.2011, 16:15
Сообщение #47


Ветеран
****

Группа: Кандидат
Сообщений: 462
Регистрация: 2.5.2007
Пользователь №: 161
Вставить ник
Цитата



Цитата(Chin @ 28.9.2011, 11:48) *
Цитата(dim7 @ 27.9.2011, 12:02) *
проблема была в конфиге вм

Виртуальной машины чтоли?


и не в ней даже, перегруз повторился и на компе (IMG:http://4seo.biz/style_emoticons/default/sad.gif)
как бы узнать что LA нагружает, проц вроде впорядке, память есть, но падает нагрузка на канал при этом почти до нуля.
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 30.9.2011, 1:08
Сообщение #48


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Имхо только метки на подпроцессы в программе ставить и отлаживать.
Перейти в начало страницы
 
+Цитировать сообщение
Dmi
сообщение 4.11.2011, 17:49
Сообщение #49


Активный участник
***

Группа: Представитель
Сообщений: 45
Регистрация: 25.4.2007
Пользователь №: 36
Вставить ник
Цитата



Новыец цены:

На данный момент доступны следующие парсеры Kozyol:

Google Parser
Google Images Parser
Yahoo Parser
Bing Parser

вы можете купить:
за 51$ один любой парсер
за 66$ два любых парсера
за 95$ все парсеры

P.S.
Все кто купили парсер до этого могут использовать все четыре,
P.P.S.
Принимаются индивидуальные заказы на создания новых парсеров или модификацию уже имеющихся.
Перейти в начало страницы
 
+Цитировать сообщение
Chin
сообщение 7.11.2011, 2:55
Сообщение #50


Администратор
****

Группа: root
Сообщений: 7813
Регистрация: 17.3.2007
Пользователь №: 1
Вставить ник
Цитата



Нормуль цены (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
С утечками то в итоге разобрались? (IMG:http://4seo.biz/style_emoticons/default/smile.gif)
Перейти в начало страницы
 
+Цитировать сообщение

3 страниц V  < 1 2 3
Ответить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 25.9.2018, 6:15