Quantcast
Channel: Комментарии: Бенчмарк HTML парсеров
Browsing latest articles
Browse All 13 View Live

Автор: rushter

Не совсем понял чем nodejs лучше python+lxml. По графикам вроде бы разница минимальна, при этом lxml местами быстрей. Можете на пальцах пояснить. Например в чём я выйграю при парсинге 1 млн страниц в...

View Article



Автор: P.S.

По сравнению с python+lxml у NodeJS нет преимуществ ни в памяти ни в CPU. Но по сравнению с парсерами на чистом Python (bsoup/html5lib) NodeJS быстрее. А что подразумевается под «в 100 соединений»?

View Article

Автор: rushter

Ну под 100 соединений я понимал асинхронные коннекты или простое потои. Не знаю как именно вы парсили. Думал попробывать nodejs, но вот не знаю теперь, если ли смысл переписывать парсеры с...

View Article

Автор: rushter

простые потоки*

View Article

Автор: P.S.

Простые потоки не советую использовать, т.к. это сложно да и не слишком эффективно: — Нужно заморачиваться с очередями и блокировками — Больше 100-200 потоков уже будет тормозить — Для сетевых пауков...

View Article


Автор: rushter

А multicurl пробовали? Общался с разработчиком grab, он посоветовал попробовать multicurl (асинхронные запросы), в частности обёртку grab.spider для него. Скорость очень удивила. Бенчмарки я не...

View Article

Автор: P.S.

Multicurl не пробовал, но как то и не возникало желания. Gevent и urllib2 хорошо справлялись. Erlang может поначалу и сложный и простые системы на нем нет смысла писать. Но если нужно написать...

View Article

Автор: rushter

А с чего erlang начинали изучать? Может литературу посоветуйте?

View Article


Автор: P.S.

Сперва тут http://www.rsdn.ru/article/erlang/GettingStartedWithErlang.xml с основами языка ознакомился. Потом прочитал «Erlang and OTP in Action» http://www.manning.com/logan/ — это уже про то как...

View Article


Автор: Денис

Ну не знаю у меня прямо противоположные вещи выходили )) http://stackoverflow.com/questions/12996254/what-are-the-advantages-of-multithreaded-programming-in-python

View Article

Автор: P.S.

Странненько. Но вообще код из StackOverflow весьма специфический - он на localhost выполняется... Логичнее было бы попробовать удалённый сервер просканировать. И ещё ты не замерил потребление памяти. Я...

View Article

Автор: Денис

Да по памяти там вообще ад если сравнивать. Ты на PyConf в Ебург едешь ?

View Article

Автор: P.S.

На PyCon пока не планировал ехать. Но может передумаю.

View Article

Browsing latest articles
Browse All 13 View Live




Latest Images

Pangarap Quotes

Pangarap Quotes

Vimeo 10.7.0 by Vimeo.com, Inc.

Vimeo 10.7.0 by Vimeo.com, Inc.

HANGAD

HANGAD

MAKAKAALAM

MAKAKAALAM

Doodle Jump 3.11.30 by Lima Sky LLC

Doodle Jump 3.11.30 by Lima Sky LLC

Doodle Jump 3.11.30 by Lima Sky LLC

Doodle Jump 3.11.30 by Lima Sky LLC