- 1
l.add_xpath('price', '//table[3]/tr/td[2]/table[1]/tr[1]/td[3]/table/tr[3]/td/table/tr[2]/td/text()', lambda x: '.'.join(x))
Нашли или выдавили из себя код, который нельзя назвать нормальным, на который без улыбки не взглянешь? Не торопитесь его удалять или рефакторить, — запостите его на говнокод.ру, посмеёмся вместе!
−102
l.add_xpath('price', '//table[3]/tr/td[2]/table[1]/tr[1]/td[3]/table/tr[3]/td/table/tr[2]/td/text()', lambda x: '.'.join(x))
Зачем?
>text.encode('utf-8')
Зачем?
2. текст в утф нужен был
2. Обычно текст хранят в юникоде и кодируют при надобности.
Да и говна не вижу.
А вот это тогда что? Ну хотя там верстале поди вломы было айдишки давать этим элементам, а тестерам запретили править верстку, вот и выкручиваются :)
>вероятно, он просто выковыривает xpath, который любезно генерит Firefox, и не парится
вероятно, он просто выковыривает xpath, который любезно генерит Firefox, и не парится
Если ломается абсолютный xpath, как правило, был сделан какой-то редизайн и сломается и cssselect. Плюс, не всегда у нужного элемента есть уникальный id или class. Или вообще какой-то.
Ворюга! Пират! У-у-у-у!
http://habrahabr.ru/company/mailru/blog/200394/
соррь за хабр. с HTML5 все еще проще.
Т.е. граббингом чужих страничек?
>Мне еще плагин к броузеру для автоматизации предлагали. Очень актуально для серверов.
?
Не страничек, магазинов аля ебей.
Ну а кроме него есть w3m, Linx... Очень полезные вещи, когда нужно проверить как что-то работает на сервере, на который нет доступ через HTTP.
Ну и Хром писался исторически как бот собирающий информацию из загруженых и выполненых страниц (т.е. со всеми ж.скриптами и КССами, одно время говорят он и с Ихаботом дружил - это автоматизированый Флеш плеер, и со всякими парсерами ПДФ / ППТ и чего там только не было).
У нас например наша сборка Хрома на сервере занимается конвертацией флешевых роликов в видео.
В смысле флешек? Не видео, играющегося в флеш проигрывателях?
Если нужная информация грузится через аякс, все обычно упрощается, т.к. там json. Во вк там, правда, передается html в json :)
У говнокода есть в меру статические страницы.
А вот за избыточную подгрузку по мере надобности надо убивать, это точно.
Это как ?
По опыту скажу в 146% случаев бывает так, все на страницу вываливается в надежде, что нибудь, когда нибудь, кому нибудь пригодится.
Когда делали последний сайт твиттера, явно надеялись, что никто не будет смотреть больше топ-10 записей в блоге. Другим я такую несуразность объяснить не смогу.
Если крутить до бесконечности и дальше, то нельзя ни поставить закладку на том, где остановился, ни нормально обработать хождение вперёд-назад по истории. Ну и ко всему прочему, страница тупо уронит браузер, когда закончится память.