Говнокод #16926 — Python — Говнокод.ру

Python / Говнокод #16926

−97
1. 01
2. 02
3. 03
4. 04
5. 05
6. 06
7. 07
8. 08
9. 09
10. 10
11. 11
12. 12
```
def constant_time_compare(val1, val2):
    """
    Returns True if the two strings are equal, False otherwise.

    The time taken is independent of the number of characters that match.
    """
    if len(val1) != len(val2):
        return False
    result = 0
    for x, y in zip(val1, val2):
        result |= ord(x) ^ ord(y)
    return result == 0
```
Django.utils.crypto в Django 1.4

Запостил: american_idiot, 24 Октября 2014

Tweet
Комментарии (36) RSS
- Dummy00001 24.10.2014 12:51 # −1
  
  а ведь и на самом деле смешно.
  Ответить
- roman-kashitsyn 24.10.2014 12:59 # −1
  
  компаратор бабушкина
  Ответить
- Qwertiy 24.10.2014 13:02 # −1
  
  Сравнение длин что ли?
  Ответить
- 3.14159265 24.10.2014 13:05 # −1
  
  >The time taken is independent of the number of characters that match.
  Вообще охуеть. Не совпало в первом символе гигабайтной строки.
  А прочитаешь, на первый взгляд вроде как улучшение: алгоритм не зависит от некоего M.
  Жаль питонистам еще брейки не завезли.
  Ответить
  - Qwertiy 24.10.2014 13:19 # +7
    
    > А прочитаешь, на первый взгляд вроде как улучшение
    utils.crypto же!
    Это функция для сравнения всяких ключей и паролей. Надо сравнивать все символы, чтобы было невозможно использовать время работы функции для определения числа правильных символов при переборе.
    Но косяк в ней всё равно есть. Если длины разные, то значение возвращается сразу.
    Ответить
    - bormand 24.10.2014 13:50 # 0
      
      > Если длины разные, то значение возвращается сразу.
      Да и хер с ним, если честно. Хакер, скорее всего, и без этого знает, что там какой-нибудь sha-256 длиной 256 бит.
      Ответить
  - bormand 24.10.2014 13:47 # −1
    
    Qwertiy и chtulhu правильно пишут, constant time это не O(1), как могло бы показаться, а независимость от количества совпавших/несовпавших символов. Для криптографии это важно. Из-за этого там и логические операции вместо тернарников или ветвлений.
    Ответить
    - wvxvw 24.10.2014 18:34 # 0
      
      Все равно это не константное время. Оно прямо зависит от количества символов в строке. Т.е. линейное. А вообще, тут сама по себе задумка херовая. В эту функцию нужно было передавать третьим параметром количество символов, которые нужно сравнивать, тогда все было бы замечательно, а так нужно принимать решения о том, длину какого из аргументов считать эталоном, и как именно заполнять недостающие / убирать лишние символы.
      Ответить
      
      3.14159265 24.10.2014 18:37 # 0
      
      >Т.е. линейное. А вообще, тут сама по себе задумка херовая.
      Об этом и речь. Надо проверить как можно быстрее, и только если НЕ совпало - поставить sleep/сделать N итераций чтоб получилось фиксированное.
      Тут где-то уже обсуждали на примере линуксов.
      Ответить
      
      guest 31.12.2014 04:05 # +1
      
      >А вообще, тут сама по себе задумка херовая.
      Почему?
      
      >Все равно это не константное время. Оно прямо зависит от количества символов в строке.
      Оно не зависит от позиции первого несовпадающего символа, я хз как это правильно записать.
      Ответить
      
      roman-kashitsyn 31.12.2014 09:56 # 0
      
      > я хз как это правильно записать.
      Θ(n)
      Ответить
- chtulhu 24.10.2014 13:19 # +3
  
  Django.utils.crypto как бы намекает на криптографию.
  Для криптографических задач важно, чтобы данные проверялись одинаковое время и хакер не мог с помощью статистики быстро подобрать токены, пароли итд
  Ответить
  - Lure Of Chaos 24.10.2014 14:46 # 0
    
    заметка про timing attack?
    Ответить
  - 3.14159265 24.10.2014 18:25 # −1
    
    И что? Время зависит от длины строки (пороля).
    Вы или O(N) снимите или crypto наденьте. Константным временем там и пахнет.
    Ответить
    - bormand 24.10.2014 18:39 # +1
      
      > Время зависит от длины строки (пороля).
      Пароли сравнивать - хреновая идея (т.к. подразумевает хранение пароля в открытом или обратимо зашифрованном виде). А сравниваться будут, скорее всего, какие-нибудь хеши или рандомные блоки известной и постоянной (ну ок, зависящей от настроек) длины. Время тут константное в том смысле, что оно зависит только от этой константной длины, но никак не зависит от значений бит в самих строках.
      Ответить
      
      Dummy00001 24.10.2014 21:55 # +1
      
      я плюсанул, потому что описывает что это делает.
      
      но все равно ахинея. время сравнения скажем 256 бит хэшей (== 32 байта), тем более на современном железе, незначительно и сравнимо, например, с временем выполнения пролога/эпилога функции. вкинь один быстрый syscall и о длине совпадающих символом можно только гадать на картах.
      Ответить
      
      wvxvw 24.10.2014 23:50 # −1
      
      Я судить не берусь, т.как деталей не знаю, и искать мне не хочется, но я сильно сомневаюсь, что строки в Питоне не интернированы, и сравниваются посимвольно обычным ==. многие скриптовые языки интернируют строки. Т.е. если уж мы создали две строки с одинаковым содержанием, то мы проверяли их на равенство на этапе создания. Дальнейшие сравнения будут сравнивать ссылки а не содержание. (По крайней мере в ж.скрипте так). Так что я думаю, что ничего хорошего эта функция в Питон не привнесла.
      Ответить
      
      inkanus-gray 25.10.2014 01:00 # −1
      
      Такая схема годится для констант. А если мы изменяли строки?
      Ответить
      
      bormand 25.10.2014 07:23 # −1
      
      Они в питоне иммутабельные.
      Ответить
      
      bormand 25.10.2014 07:20 # −1
      
      > строки в Питоне не интернированы
      Да не должны быть они интернированы... Это же довольно дорогая операция, и память жрёт. Часть строк - запросто может. Но никак не все.
      Ответить
      
      wvxvw 25.10.2014 08:09 # −1
      
      http://guilload.com/python-string-interning/ вобщем, интернируются только литералы, но при желании это можно было бы форсировать.
      Ответить
      
      bormand 25.10.2014 08:24 # 0
      
      > это можно было бы форсировать
      Но не нужно. В чем смысл интернировать всё подряд, включая временные переменные, которые живут пару функций, и никто никогда не будет их сравнивать?
      
      Для литералов это имеет смысл. Для остальных строк - нет.
      Ответить
      
      wvxvw 25.10.2014 08:24 # −1
      
      Ох, нет, вообще от интерпретатора зависит. Ну ладно, странно вобщем. Интернирование не нагружает память, оно ее экономит, так что с этим проблем нет (никто же не запрещает удалять строки на которые больше нет ссылок). Но это отнимает время при создании / реализация становится более сложной. Судя по каким-то тестам на стековерфлоу, не все ж.скрипт реализации интернируют (что примечательно, МСИЕ даже строку с самой собой будет сравнивать посимвольно).
      Ответить
      
      bormand 25.10.2014 08:27 # −1
      
      Нагружает, т.к. weak ссылки на эти строки придется хранить в какой-нибудь структуре данных, пригодной для быстрого поиска/вставки. Вот эта структура запросто сожрет больше памяти, чем наэкономится на интернировании. Имхо, большая часть заинтернированных таким образом строк будут просто бесполезными, т.к. их никто не будет сравнивать.
      
      > отнимает время при создании
      Именно.
      Ответить
      
      wvxvw 25.10.2014 08:32 # −1
      
      А вот сравнение строк за константное время
      
      def const_compare_strings(a, b): hasher = { } hasher[a] = True return hasher.has_key(b)
      Ответить
      
      bormand 25.10.2014 08:35 # −1
      
      А ничего, что has_key по-любому включает в себя то самое обычное сравнение строки (для борьбы с коллизиями), от которого тут пытались избавиться? :)
      Ответить
      
      wvxvw 25.10.2014 08:37 # −1
      
      Но ведь лукап в хеш-таблице это O(1)!!!
      
      Другими словами: нахера такие хеш-таблицы вообще нужны, если из них нельзя получить то, о чем так долго говорили большевики? Деревья будут предпочтительнее всегда.
      Ответить
      
      bormand 25.10.2014 08:39 # −1
      
      > Но ведь лукап в хеш-таблице это O(1)!!!
      O(1) от количества записей в таблице. Но O(M) от длины строк-ключей (расчет хеша, допроверка для борьбы с коллизиями).
      
      > Деревья будут предпочтительнее всегда.
      А у деревьев еще больше сравнений. Так что не всегда.
      
      > нахера такие хеш-таблицы вообще нужны
      Ну хеш-таблицы ведь далеко не везде юзают. К примеру, в реалтаймовых приложениях, вставка в дерево за log(N) может быть предпочительней амортизированного O(1) у хеш табличек. Для огромных дисковых структур, не влезающих в память, деревья тоже предпочительней.
      Ответить
      
      wvxvw 25.10.2014 08:46 # −1
      
      Нет, у дерева не будет в таком случае больше сравнений. Чтобы сгенерировать хеш, нужно прочитать всю строку целиком. Дереву хеш не нужно генерировать, т.е. есть шанс, что всю строку читать не прийдется.
      
      Интернированые строки нужно хранить в структуре с быстрым доступом - а остальные объекты не нужно? Если это делается на уровне языка, а не силами добровольцев, то на памяти это вообще никак не отразится. Примеры: V8 (NodeJS) и Луа. И ничего, живут как-то.
      Ответить
      
      3.14159265 25.10.2014 20:36 # −1
      
      Я не знаю кто минуснул. Всё по делу ведь.
      Ответить
      
      3.14159265 25.10.2014 20:48 # −1
      
      Только несколько небольших уточнений:
      > Чтобы сгенерировать хеш, нужно прочитать всю строку целиком.
      На коротких строках, с которые обычно встречаются на практике в виде ключей это не сильно ощутимо.
      Если же смотреть контексте интернирования, то тут выгоднее повторно использовать ссылки на строки большей длины.
      
      Ну и если строка немутабельная, то посчитать хеш придется всего 1 раз, и таким образом за O(1) проверять отсутствие строки в кеше. А ведь можно сделать и джва хеша, что прилично снизит вероятность полного сопоставления.
      
      Кстати мы не так давно тут с Тарасом обсуждали префиксные деревья.
      Ответить
      
      guest 25.10.2014 21:23 # 0
      
      >мы не так давно тут с Тарасом обсуждали
      
      Орально обсуждали?
      Ответить
      
      anonimb84a2f6fd141 25.10.2014 23:37 # −3
      
      >>Ищу хуястых кавказцев
      >>Очко сильно раздолбано
      
      >>Орально обсуждали
      Не, это не в стиле Тараса. Непохоже на него.
      Ответить
      
      3.14159265 25.10.2014 20:37 # −1
      
      В CHMv8 автор скрестил хешмапу с деревом, заменив связный список в букете на дерево, если число коллизий >6 емнип.
      Ответить
  - Анонимус 06.11.2014 04:26 # +2
    
    def not_a_constant_time_compare(val1, val2):
    """
    Returns True if the two strings are equal, False otherwise.
    
    The time taken is independent of the number of characters that match.
    """
    time.sleep(random(500))
    return val1==val2
    Ответить
- anonimb84a2f6fd141 25.10.2014 23:41 # −3
  
  Въебал всем по "плюсу", чтоб неповадно было c++-ничать. Будь моя воля, я бы отправил в отхожее место все разделы (кроме php разумеется).
  Ответить
Добавить комментарий
Ошибка компиляции комментария:

Гости могут высказаться только во вторник, пятницу или субботу
Семь раз отмерь — один отрежь, guest!

А не использовать ли нам bbcode?

[b]жирный[/b] — жирный

[i]курсив[/i] — курсив

[u]подчеркнутый[/u] — подчеркнутый

[s]перечеркнутый[/s] — перечеркнутый

[blink]мигающий[/blink] — мигающий

[color=red]цвет[/color] — цвет (подробнее)

[size=20]размер[/size] — размер (подробнее)

[code=<language>]some code[/code] (подробнее)

Проверочный код: *

Говнокод: по колено в коде.

Python / Говнокод #16926

Комментарии (36) RSS

Добавить комментарий