Автор: rushter
Не совсем понял чем nodejs лучше python+lxml. По графикам вроде бы разница минимальна, при этом lxml местами быстрей. Можете на пальцах пояснить. Например в чём я выйграю при парсинге 1 млн страниц в...
View ArticleАвтор: P.S.
По сравнению с python+lxml у NodeJS нет преимуществ ни в памяти ни в CPU. Но по сравнению с парсерами на чистом Python (bsoup/html5lib) NodeJS быстрее. А что подразумевается под «в 100 соединений»?
View ArticleАвтор: rushter
Ну под 100 соединений я понимал асинхронные коннекты или простое потои. Не знаю как именно вы парсили. Думал попробывать nodejs, но вот не знаю теперь, если ли смысл переписывать парсеры с...
View ArticleАвтор: P.S.
Простые потоки не советую использовать, т.к. это сложно да и не слишком эффективно: — Нужно заморачиваться с очередями и блокировками — Больше 100-200 потоков уже будет тормозить — Для сетевых пауков...
View ArticleАвтор: rushter
А multicurl пробовали? Общался с разработчиком grab, он посоветовал попробовать multicurl (асинхронные запросы), в частности обёртку grab.spider для него. Скорость очень удивила. Бенчмарки я не...
View ArticleАвтор: P.S.
Multicurl не пробовал, но как то и не возникало желания. Gevent и urllib2 хорошо справлялись. Erlang может поначалу и сложный и простые системы на нем нет смысла писать. Но если нужно написать...
View ArticleАвтор: P.S.
Сперва тут http://www.rsdn.ru/article/erlang/GettingStartedWithErlang.xml с основами языка ознакомился. Потом прочитал «Erlang and OTP in Action» http://www.manning.com/logan/ — это уже про то как...
View ArticleАвтор: Денис
Ну не знаю у меня прямо противоположные вещи выходили )) http://stackoverflow.com/questions/12996254/what-are-the-advantages-of-multithreaded-programming-in-python
View ArticleАвтор: P.S.
Странненько. Но вообще код из StackOverflow весьма специфический - он на localhost выполняется... Логичнее было бы попробовать удалённый сервер просканировать. И ещё ты не замерил потребление памяти. Я...
View Article
More Pages to Explore .....