1. Python / Говнокод #2883

    −107.8

    1. 01
    2. 02
    3. 03
    4. 04
    5. 05
    6. 06
    7. 07
    8. 08
    9. 09
    10. 10
    11. 11
    12. 12
    13. 13
    14. 14
    15. 15
    16. 16
    17. 17
    18. 18
    19. 19
    20. 20
    21. 21
    response = conn.getresponse()
    data = response.read()
    s_list = list(data)
    i, j = 0, 0
    while i < len(s_list):
    	if s_list[i] == '<':
    		while s_list[i] != '>':
    			s_list.pop(i)
    		s_list.pop(i)
    	elif s_list[i] == '\n':
    		s_list.pop(i)
    	elif s_list[i] == '\t':
    		s_list.pop(i)
    	else:
    		i = i+1
    
    data = str(s_list).replace('\'','').replace(' ','').replace(',','').\
    replace('&nbsp','').replace('SERegistru','').replace('[','').\
    replace(']','').replace(':','').replace(';','').\
    replace('IDNP','').replace('LastName',' ').\
    replace('FirstName',' ').replace('SecondName',' ').replace('Alive',' ')

    Простой парсер HTML странички.. ^_^

    Запостил: krowler, 28 Марта 2010

    Комментарии (5) RSS

    • Не Молдова ли?
      Ответить
      • Молдова, Молдова)))) SE Registru полностью меня спалил :D Код должен был выдирать из странички пару строк вида:
        <b> строка1... </b>
        <b> строка2... </b>
        ...
        :)
        Ответить
        • а HTMLParser'ом не судьба было воспользоваться? ;)
          Или ты за здоровый и экологичный транспорт?
          Ответить
          • Ну вообще,да))) Поэтому весь код замёнен на этот:
            response = conn.getresponse()
            data = '  '.join(re.findall('<b>(.*)</b>', response.read()))
            Ответить

    Добавить комментарий