Говнокод #25307 — Си — Говнокод.ру

j123123 13.01.2019 15:02 # +1

Ах да, макросня для смерживания и сортировки кусков по 2 элемента

#define SORT2(a, b, a1, b1) \
  do {if (a < b) {a1 = a; b1 = b;} else {a1 = b; b1 = a;};} while (0)

/*
#define SORT2(a, b, a1, b1) \
  do {typeof(a1) temp_var[3] = {a, b, a}; a1 = temp_var[(a > b)]; b1 = temp_var[(a > b)+1];} while (0)
*/

#define MERGE_2_4(a0, a1, a2, a3, as0, as1, as2, as3) \
do \
{ \
  if (a0 > a2) \
  { \
    if (a0 > a3) \
    { \
      as0 = a2; \
      as1 = a3; \
      as2 = a0; \
      as3 = a1; \
    } \
    else \
    { \
      if (a1 > a3) \
      { \
        as0 = a2; \
        as1 = a0; \
        as2 = a3; \
        as3 = a1; \
      } \
      else \
      { \
        as0 = a2; \
        as1 = a0; \
        as2 = a1; \
        as3 = a3; \
      } \
    } \
  } \
  else \
  { \
    if (a2 >= a1) \
    { \
      as0 = a0; \
      as1 = a1; \
      as2 = a2; \
      as3 = a3; \
    } \
    else \
    { \
      if (a3 >= a1) \
      { \
        as0 = a0; \
        as1 = a2; \
        as2 = a1; \
        as3 = a3; \
      } \
      else \
      { \
        as0 = a0; \
        as1 = a2; \
        as2 = a3; \
        as3 = a1; \
      } \
    } \
  } \
} while (0)

Эта херня по итогам уделывает в скорости std::sort, если им сортировать куски по 8 элементов.

Ответить

gpyrou_nemyx 13.01.2019 15:07 # 0

Мне всегда было интересно, зачем оборачивать в do{ ... }while(0)? почему не { ... }?
Ответить
- bormand 13.01.2019 15:12 # +2
  
  Вроде я когда-то тут описывал заповеди макроёбства, поищи.
  Ответить
- j123123 13.01.2019 15:13 # +1
  https://www.reddit.com/r/C_Programming/comments/2xz15h/why_is_this_code_using_a_dowhile0_in_a_macro/cp4ra4w
  Ответить
- guest8 13.01.2019 15:19 # −999
  
  показать все, что скрытоvanished
  Ответить
  - guest8 13.01.2019 15:24 # −999
    
    показать все, что скрытоvanished
    Ответить
  - gpyrou_nemyx 13.01.2019 15:31 # 0
    
    Чушь, нет здесь ошибки. Про пустой апиратор что-нибудь слышал?
    
    А, внутри if'а. Сорре.
    Ответить
    - bormand 13.01.2019 15:33 # 0
      
      Ответить
    - guest8 13.01.2019 15:35 # −999
      
      показать все, что скрытоvanished
      Ответить
guest8 13.01.2019 15:16 # −999

показать все, что скрытоvanished
Ответить

bormand 13.01.2019 15:13 # 0

А чего последний мёрж не заанроллен?

Ответить

j123123 13.01.2019 15:15 # 0

Компилятор такой цикл должен сам анролльнуть на высокой оптимизации
Ответить
j123123 13.01.2019 16:43 # 0

Хотя вообще да, можно было б запилить еще кроме вот того MERGE_2_4 еще MERGE_4_8 и например MERGE_8_16. Только тут уже кодогенерация нужна, я это руками заебусь делать.
Ответить
- miheich 13.01.2019 17:55 # 0
  
  Намазал тебе лицо говном, тебе понравилось.
  Ответить
  - guest8 06.06.2019 22:19 # −999
    
    показать все, что скрытоvanished
    Ответить

j123123 13.01.2019 16:05 # 0

Вот даже бенчмаркалку сделал через /dev/urandom, даже с крестоговном https://paste.debian.net/hidden/4a8b71cf/

Кто-нибудь сможет быстрее сортировку на восемь uint64_t сделать (можно даже попробовать какое-нибудь SSE, если оно чем-то сможет помочь)? std::sort отстает от этого кода на GCC.

Ответить

bormand 13.01.2019 18:34 # +1

> uint64_t
Подстраховался от эсэсёбства? :)
Ответить
bormand 13.01.2019 19:15 # 0
Вот такая хуйня медленнее чем твоя?
```
void sort2(uint64_t a, uint64_t b, uint64_t& oa, uint64_t& ob) {
    if (a < b) {
        oa = a;
        ob = b;
    } else {
        oa = b;
        ob = a;
    }
}

void sort8(uint64_t a[8]) {
    uint64_t b[8], c[8], d[8], e[8], f[8];
    sort2(a[0], a[1], b[0], b[1]); sort2(a[2], a[3], b[2], b[3]); sort2(a[4], a[5], b[4], b[5]); sort2(a[6], a[7], b[6], b[7]);
    sort2(b[0], b[3], c[0], c[3]); sort2(b[1], b[2], c[1], c[2]); sort2(b[4], b[7], c[4], c[7]); sort2(b[5], b[6], c[5], c[6]);
    sort2(c[0], c[1], d[0], d[1]); sort2(c[2], c[3], d[2], d[3]); sort2(c[4], c[5], d[4], d[5]); sort2(c[6], c[7], d[6], d[7]);
    sort2(d[0], d[7], e[0], e[7]); sort2(d[1], d[6], e[1], e[6]); sort2(d[2], d[5], e[2], e[5]); sort2(d[3], d[4], e[3], e[4]);
    sort2(e[0], e[2], f[0], f[2]); sort2(e[1], e[3], f[1], f[3]); sort2(e[4], e[6], f[4], f[6]); sort2(e[5], e[7], f[5], f[7]);
    sort2(f[0], f[1], a[0], a[1]); sort2(f[2], f[3], a[2], a[3]); sort2(f[4], f[5], a[4], a[5]); sort2(f[6], f[7], a[6], a[7]);
}
```
Ответить
- j123123 14.01.2019 00:42 # 0
  Немного быстрее, но там выигрыш идет из-за последней стадии (т.е. последние три строчки с sort2)
  
  // Вот эти вот три говнострочки sort2(a[0], a[1], b[0], b[1]); sort2(a[2], a[3], b[2], b[3]); sort2(a[4], a[5], b[4], b[5]); sort2(a[6], a[7], b[6], b[7]); sort2(b[0], b[3], c[0], c[3]); sort2(b[1], b[2], c[1], c[2]); sort2(b[4], b[7], c[4], c[7]); sort2(b[5], b[6], c[5], c[6]); sort2(c[0], c[1], d[0], d[1]); sort2(c[2], c[3], d[2], d[3]); sort2(c[4], c[5], d[4], d[5]); sort2(c[6], c[7], d[6], d[7]); // по сути просто делают четыре сортированных элемента, и еще четыре сортированных элемента. /// если заменить это на: sort2(a[0], a[1], b[0], b[1]); sort2(a[2], a[3], b[2], b[3]); sort2(a[4], a[5], b[4], b[5]); sort2(a[6], a[7], b[6], b[7]); // эта строка без изменений MERGE_2_4(b[0], b[1], b[2], b[3], d[0], d[1], d[2], d[3]); MERGE_2_4(b[4], b[5], b[6], b[7], d[4], d[5], d[6], d[7]); // то получается чуточку быстрее
  
  Если последнюю стадию улучшить (наанроллить) в моем варианте, можно быстрей перфоманс сделать.
  Ответить
  - j123123 14.01.2019 00:42 # 0
    Вообще, profile guided optimization (PGO) решает:
    
    user@pc:~/prog/sort_shit$ gcc-7 -O3 -march=native -std=gnu++11 rand_benchmark.cpp -lstdc++ user@pc:~/prog/sort_shit$ ./a.out time = 401513026 user@pc:~/prog/sort_shit$ ./a.out time = 405119209 user@pc:~/prog/sort_shit$ ./a.out time = 400842337 user@pc:~/prog/sort_shit$ gcc-7 -O3 -march=native -std=gnu++11 -fprofile-generate rand_benchmark.cpp -lstdc++ user@pc:~/prog/sort_shit$ ./a.out time = 463633839 user@pc:~/prog/sort_shit$ gcc-7 -O3 -march=native -std=gnu++11 -fprofile-use -freorder-blocks-and-partition -fprofile-correction -Wcoverage-mismatch rand_benchmark.cpp -lstdc++ user@pc:~/prog/sort_shit$ ./a.out time = 376823228 user@pc:~/prog/sort_shit$ ./a.out time = 375864788 user@pc:~/prog/sort_shit$ ./a.out time = 377222836
    
    Да, если с PGO оптимизировать обычный std::sort, он оба варианта уделывает по пирфомансу
    
    user@pc:~/prog/sort_shit$ ./a.out time = 140083097 user@pc:~/prog/sort_shit$ ./a.out time = 139075303 user@pc:~/prog/sort_shit$ ./a.out time = 139685936 user@pc:~/prog/sort_shit$ ./a.out time = 139227202 user@pc:~/prog/sort_shit$ ./a.out time = 138889191
    
    https://paste.debian.net/hidden/eadc947e/ - вот код для тестов, если интересно
    Ответить
    - j123123 14.01.2019 04:41 # +1
      
      Поправка - там был баг в заполнении байтиков из /dev/urandom, изза чего там много нулей в массиве было
      
      // было ssize_t result = read(randfd, str, sizeof(str)); if (result < 0) { fprintf(stderr, "read err\n"); exit(-1); } // стало size_t randomDataLen = 0; while (randomDataLen != sizeof(str) ) { ssize_t result = read(randfd, (char *)str + randomDataLen, sizeof(str) - randomDataLen); if (result < 0) { fprintf(stderr, "read err\n"); exit(-1); } randomDataLen += result; }
      
      Теперь std::sort опять проигрывает, даже с PGO. Видимо этот std::sort по дизайну так запилен, чтоб частично сортированнные массивы досортировывать (досортировывать массивы из одних нулей - легко!), а если еще PGO использовать, то тогда вообще супер быстро получается.
      
      https://paste.debian.net/hidden/368b30a7/
      Ответить
- j123123 14.01.2019 07:49 # +1
  Я провел еще дополнительные исследования. Чистая битонная сортировка (без вклиниваний MERGE_2_4) на clang++-6.0 работает существенно быстрее каких-либо других вариантов
  
  https://paste.debian.net/hidden/d6c6cd71/ тестовый код
  
  rm default.profdata default.profraw clang++-6.0 -O3 -fno-stack-protector -D_FORTIFY_SOURCE=0 -march=native -std=gnu++11 -fcoverage-mapping -fprofile-instr-generate rand_benchmark.cpp -lstdc++ ./a.out llvm-profdata-6.0 merge -output=default.profdata default.profraw clang++-6.0 -O3 -march=native -fno-stack-protector -D_FORTIFY_SOURCE=0 -fprofile-instr-use=default.profdata -std=gnu++11 rand_benchmark.cpp -lstdc++ ./a.out; ./a.out; ./a.out; ./a.out
  
  Вывод времени
  
  time = 154968303
  time = 149922928
  time = 151220900
  time = 150623575
  
  Для GCC-8 всё сильно медленней:
  
  gcc-8 -O3 -fno-stack-protector -D_FORTIFY_SOURCE=0 -march=native -std=gnu++11 -fprofile-generate rand_benchmark.cpp -lstdc++ ./a.out gcc-8 -O3 -fno-stack-protector -D_FORTIFY_SOURCE=0 -march=native -std=gnu++11 -fprofile-use -freorder-blocks-and-partition -fprofile-correction -fbranch-target-load-optimize -fbranch-probabilities -Wcoverage-mismatch rand_benchmark.cpp -lstdc++ ./a.out; ./a.out; ./a.out; ./a.out;
  
  time = 381412656
  time = 381636722
  time = 381310683
  time = 379839114
  Ответить
  - j123123 14.01.2019 07:56 # 0
    Чтоб докопаться до причин такой разницы, можно сделать
    
    void __attribute__ ((noinline)) sort8_b(uint64_t a[8])
    
    (тогда можно будет увидеть саму функцию в ненаанролленом виде).
    
    И что же мы видим в случае clang?
    
    _Z7sort8_bPm: # @_Z7sort8_bPm .cfi_startproc # %bb.0: pushq %r15 .cfi_def_cfa_offset 16 pushq %r14 .cfi_def_cfa_offset 24 pushq %rbx .cfi_def_cfa_offset 32 .cfi_offset %rbx, -32 .cfi_offset %r14, -24 .cfi_offset %r15, -16 movq (%rdi), %rax movq 8(%rdi), %rcx cmpq %rcx, %rax movq %rcx, %r9 cmovbq %rax, %r9 cmovbq %rcx, %rax movq 16(%rdi), %rsi movq 24(%rdi), %rcx cmpq %rcx, %rsi movq %rcx, %r8 cmovbq %rsi, %r8 cmovbq %rcx, %rsi movq 32(%rdi), %r10 movq 40(%rdi), %rcx cmpq %rcx, %r10 movq %rcx, %r11 cmovbq %r10, %r11 cmovbq %rcx, %r10 movq 48(%rdi), %rdx movq 56(%rdi), %rbx cmpq %rbx, %rdx movq %rbx, %rcx cmovbq %rdx, %rcx cmovbq %rbx, %rdx cmpq %rsi, %r9 movq %rsi, %rbx cmovbq %r9, %rbx cmovaeq %r9, %rsi cmpq %r8, %rax
    
    куча сравнений и условных мувов.
    
    Что же касается GCC:
    
    _Z7sort8_bPm: .LFB2309: .cfi_startproc movq 8(%rdi), %rsi pushq %rbx .cfi_def_cfa_offset 16 .cfi_offset 3, -16 movq (%rdi), %r11 cmpq %r11, %rsi ja .L83 movq %r11, %rax movq %rsi, %r11 movq %rax, %rsi .L83: movq 24(%rdi), %rcx movq 16(%rdi), %r10 cmpq %r10, %rcx ja .L84 movq %r10, %rdx movq %rcx, %r10 movq %rdx, %rcx .L84: movq 40(%rdi), %rdx movq 32(%rdi), %r9 cmpq %r9, %rdx ja .L85 movq %r9, %rbx movq %rdx, %r9 movq %rbx, %rdx .L85: movq 56(%rdi), %rax movq 48(%rdi), %r8 cmpq %r8, %rax ja .L86 movq %r8, %rbx movq %rax, %r8 movq %rbx, %rax .L86: cmpq %r11, %rcx ja .L87 movq %r11, %rbx movq %rcx, %r11 movq %rbx, %rcx .L87: cmpq %rsi, %r10 ja .L88 movq %rsi, %rbx movq %r10, %rsi movq %rbx, %r10 .L88:
    
    Мы видим кучу меток и условных переходов, тут явно какой-то косяк компилятора. Надо будет в багзиллу GCC ченить накатать по этому поводу.
    Ответить
    - j123123 14.01.2019 08:27 # 0
      
      К вопросу об эффективности cmov в сравнении с условными переходами: https://github.com/xiadz/cmov
      Ответить
      - bormand 14.01.2019 08:35 # 0
        
        Кстати, а у тебя avx-512 есть?
        Ответить
        
        j123123 14.01.2019 09:02 # 0
        
        Нет, у меня вообще тут довольно старый процессор Intel Core2 Quad Q9300 @ 2.50GHz и нет никаких особых причин переходить на что-то более новое (учитывая что всякие там мелтдауны аппаратно так и не пофиксили).
        Ответить
        
        bormand 14.01.2019 09:08 # 0
        
        А какое там SSE?
        Ответить
        
        j123123 14.01.2019 09:11 # 0
        
        flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx lm constant_tsc arch_perfmon pebs bts rep_good nopl cpuid aperfmperf pni dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm sse4_1 lahf_lm pti tpr_shadow vnmi flexpriority dtherm
        Ответить
        
        bormand 14.01.2019 09:45 # 0
        
        4.1 получается? Ну тогда min/max уже должны быть. Но в регистр всего 2 числа входит, сложно будет конкурировать с cmp + cmov.
        Ответить
        
        bormand 14.01.2019 09:45 # +1
        
        > ssse3
        sssssssssse3
        Ответить
        
        j123123 14.01.2019 10:40 # 0
        
        Можешь на своем процессоре эти тесты прогнать со своими сортировками, если у тебя этот avx-512 есть. Можно еще под какой-нибудь андроид скомпилировать и там запустить на ARM. Или на роутере с OpenWRT.
        Ответить
        
        bormand 14.01.2019 13:28 # 0
        
        Под восьмибитный AVR.
        
        Кстати можно на stm'ке с NEONом попробовать.
        Ответить
        
        gpyrou_nemyx 14.01.2019 14:50 # 0
        
        Лучше под GA144.
        
        http://www.greenarraychips.com/home/documents/greg/PB001-100503-GA144-1-10.pdf
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 16:55 # 0
        
        >> This very powerful and versatile chip consists of an 18x8 array of architecturally identical, independent, complete F18A computers
        
        ... можно срать в два унитаза в сорок тысяч раз быстрей.
        Ответить
      - bormand 14.01.2019 08:40 # 0
        
        Надо ещё попробовать векторное расширение gcc. Может быть с ним что-то интересное получится. Там интринсики руками ебашить не надо.
        Ответить
        
        bormand 14.01.2019 11:18 # 0
        
        Прикольно, инструкции для min и max генерить умеет.
        Ответить
        
        guest8 14.01.2019 17:51 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 17:52 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 21:25 # 0
        
        Не, не юзал. Это вроде и было фаерволом, а потом обобщили...
        Ответить
        
        guest8 14.01.2019 21:35 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 21:25 # −1
        
        Блядь, min и max по-отдельности получаются. А стоит в одной функции их оба заюзать - вместо двух няшных инструкций получается какая-то портянка из хуйни.
        Ответить
        
        bormand 15.01.2019 00:05 # 0
        
        В общем, непредсказуемая и неконтролируемая хуйня это векторное расширение, придётся на интринсиках ебашить...
        
        С 256-битными интринсиками получилось вроде красиво (каждый сортирующий слой из cmpgt + blend + blend и между ними небольшие перестановки по 1-2 инструкции), но почему-то на треть медленнее невекторизованной битонки. Неужели AVX такой тормозной?
        Ответить
        
        bormand 15.01.2019 00:22 # 0
        
        И со 128-битными тоже не прокатило :(
        Ответить
        
        bormand 15.01.2019 00:45 # 0
        
        Кажется придумал, как на 128-битных кучу времени отыграть... Но подушка уже зовёт.
        Ответить
    - bormand 14.01.2019 14:38 # 0
      
      А тернарником gcc не получится уломать на cmov?
      
      oa = a < b ? a : b;
      ob = a < b ? b : a;
      Ответить
      - j123123 14.01.2019 15:00 # 0
        
        Получится только для GCC из транка: https://godbolt.org/z/nTiVYq
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:08 # 0
        
        А со всякими -march, -mtune, -O3 и прочими параметрами?
        Ответить
        
        j123123 14.01.2019 15:14 # 0
        
        Это тут не влияет. Можешь сам на godbolt.org перебирать опции, если не лень
        Ответить
        
        guest8 14.01.2019 15:17 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:25 # 0
        
        Потому что он не поддерживался на «Петух MMX».
        
        Серьёзно, производители кококонпеляторов знают про «SSE» и «AVX», но игнорируют «CMOV»?
        Ответить
        
        guest8 14.01.2019 15:29 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gpyrou_nemyx 14.01.2019 15:32 # +2
        
        Ну и хуй с ним, инструкций много, давайте я начну возмущаться что никто не замечает xlat.
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:35 # +1
        
        Давайте! Такая удобная инструкция для перекодирования.
        
        Хотя с другой стороны, в 32- и 64-битном режимах с появлением s-i-b (scale-index-base) она и вправду стала не нужна.
        Ответить
        
        guest8 14.01.2019 15:36 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:39 # +2
        
        Раздражает некокококонсистентность.
        
        То ли дело «PDP-11», у которого любую инструкцию можно было использовать с любым набором регистров (было всего несколько исключений для спецрегистров).
        
        Даже «ARM» кококококонсистентнее, потому что у него предикаты есть у всех инструкций, а не только у «CMOV».
        Ответить
        
        guest8 14.01.2019 15:49 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:52 # 0
        
        Был бы софт попенсорсным, его бы перекокококонпелировали. Именно поэтому я против «closed source».
        Ответить
        
        guest8 14.01.2019 17:10 # −999
        
        показать все, что скрытоvanished
        Ответить
      - guest8 14.01.2019 15:16 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 15:26 # 0
        
        А «ARM» и «Итаниум» с их предикатами он случайно не проклял?
        Ответить
        
        guest8 14.01.2019 15:30 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gpyrou_nemyx 14.01.2019 15:59 # +3
        
        Кунилинус Тролльвальдс много чего проклял. Мне кажецца, что он какой-нибудь колдун.
        Ответить
        
        guest8 14.01.2019 17:11 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 17:14 # 0
        
        Простите, я слушал лекцию не сначала. Что там прогнулось?
        Ответить
        
        guest8 14.01.2019 17:18 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 17:26 # 0
        
        Именно поэтому я за "kgb".
        Ответить
        
        guest8 14.01.2019 17:35 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 17:46 # 0
        
        >> с тех пор как MCH отменили
        
        Погуглил... Я проспал появление «Моста Песочка» и «Ускоренной единицы обработки».
        Ответить
        
        guest8 14.01.2019 17:59 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 18:32 # +1
        
        Я его называл «Кукареку». Мой петушиный мозг не вмещает такое количество терминов.
        Ответить
        
        guest8 14.01.2019 19:11 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gpyrou_nemyx 14.01.2019 19:38 # +2
        
        У людей совсем не стало фантазии, то ли дело раньше процы называли: 4004, 4040, 8008, 8080, 8086, 8088, 80186, 80188, 80286, 80386, 80486, 6800, 68000.
        Ответить
        
        bormand 14.01.2019 19:46 # 0
        
        Нужно найти лишние числа в последовательности?
        
        6800 и 68000.
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 19:47 # 0
        
        Могу добавить ещё лишних: 6502, 6510.
        Ответить
        
        guest8 14.01.2019 19:53 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 19:52 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 19:51 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 20:04 # 0
        
        В СССР были КР580ВМ80А (клон 8080), К1810ВМ86 (клон 8086) и т. п.
        
        Были серии с укороченным названием T34, Т36, Т37 (вместо длинных КР580, К1810).
        
        Были микропроцессоры с буквами ВП, ВЕ, ИК, ХЛ вместо ВМ.
        
        У «Эльбрусов» и сейчас такие наименования: 1891ВМ10Я, 1891ВМ11Я.
        Ответить
        
        guest8 14.01.2019 20:28 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 20:35 # 0
        
        > ебанистические названия
        Да почти у всех чипов ебанистические названия, на самом деле. Тут скорее пекашные процы - исключение.
        Ответить
        
        gpyrou_nemyx 14.01.2019 20:07 # 0
        
        У IBM ещё были мейнфреймы 701, 702, 704, 7090 и пр.
        Ответить
        
        guest8 14.01.2019 20:25 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 20:31 # 0
        
        А ещё DB/2 и PL/1. Очень удобно: видишь такие номера –— сразу понимаешь, кто разработчик.
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 20:36 # +1
        
        Я придумал идею хостинга для сайтов:
        • Операционная система: OS/2.
        • Интерпретатор скриптов: PL/1.
        • Система управления базами данных: DB/2.
        Ответить
        
        guest8 14.01.2019 20:37 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gpyrou_nemyx 14.01.2019 20:39 # +1
        
        > А есть продут [smthng]/0 ?
        PL/0 есть. Вообще у PL/1 много диалектов.
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 20:43 # 0
        
        Были диалекты с буквами вместо цифр после косой черты.
        Ответить
        
        roman-kashitsyn 14.01.2019 20:54 # 0
        
        > PL/0
        
        Programming Language for Division by Zero?
        Ответить
        
        guest8 14.01.2019 21:08 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 15.01.2019 11:37 # 0
        
        При желании можно инструкцию bound использовать для API:
        http://govnokod.ru/24481#comment420978
        
        http://govnokod.xyz/_24481/#comment-376917
        Ответить
        
        guest8 14.01.2019 20:56 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 21:02 # 0
        
        Ну ещё вызов процедур и функций отличается от Паскаля: CALL square;
        
        >> In the third and last edition of his book on compiler construction, Wirth replaced PL/0 with Oberon-0.
        
        Интересно, существовала ли Модула-0 или Ада-0.
        Ответить
        
        guest8 14.01.2019 21:06 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 21:08 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 14.01.2019 21:02 # 0
        
        > educational programming language
        Ох, а то я уж подумал, что на таком настоящие программы писали.
        Современные школьники наверно уже и языки без замыканий считают говном.
        Ответить
        
        guest8 14.01.2019 21:06 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gpyrou_nemyx 14.01.2019 21:08 # 0
        
        На PL/1 целую Multics написали, правда он гораздо сложнее чем PL/0.
        Ответить
        
        guest8 14.01.2019 21:17 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 14.01.2019 21:41 # 0
        
        Там хотя бы аргументы функций есть, в отличие от PL/0.
        Ответить
        
        guest8 14.01.2019 21:45 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 14.01.2019 22:06 # +1
        
        Может, когда-нибудь потом.
        Слишком очевидно, что это одно и то же, названное разными словами. Аргумент - это фактический параметр.
        Тонкости нужны только в лямбда-исчислении и при построении трансляторов.
        Ответить
        
        guest8 14.01.2019 22:31 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 14.01.2019 22:37 # 0
        
        По умолчанию нет, но можно фигурные скобки использовать. Для этого в новых версиях даже синтаксического сахарку отсыпали.
        Ответить
        
        guest8 14.01.2019 23:11 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 15.01.2019 00:26 # +1
        
        Там теперь параметры по умолчанию, раскрытие объектов и массивов при передаче в функцию и при принятии внутри.
        
        function f(a=0, {x=1, y=2} = {}, ...other) { return [1, 2, a + x + y + other.reduce((x,y)=>x+y)]; } var [x, y, z] = f(...[1, {x:10, y:0}, 2], ...[3, 4]); // x == 1 // y == 2 // z == 20
        Ответить
        
        guest8 15.01.2019 00:36 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        gost 15.01.2019 00:45 # +1
        
        Даже в кресты завезли (семнадцатые): https://wandbox.org/permlink/rE38NBBcSXJhFSmp
        Ответить
        
        guest8 15.01.2019 00:48 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 15.01.2019 01:35 # 0
        
        Красота. А вкладывать и обрезать хвосты можно?
        
        var [a, [b, c], ...def] = ["a", "bc", "d", "ef"];
        Ответить
        
        guest8 15.01.2019 01:43 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        1024-- 15.01.2019 01:49 # +1
        
        > причем скобки можно как угодно расставлять
        А это уже сомнительная фича.
        Ну то есть хорошо бы два режима - "скалярный", когда она включена и "векторный", когда выключена, по умолчанию - "векторный"
        
        (Это я исходя из опыта работы с JS, где можно в переменной хранить сначала число, потом - после усложнения логики программы - массив или объект, что вызовет глюки, если "скалярный" режим работает по умолчанию)
        Ответить
        
        gost 15.01.2019 01:53 # +1
        
        Не-а, Комитет не осилил (но ходят слухи, что в следующих Стандартах таки добавят вложенные биндинги… надеюсь, к тому моменту мы ещё живы будем). Зато вот, кстати, биндинг структур подвезли:
        
        struct X { int x = 1; float y = 12.2f; std::string hello = "Hello"; }; X getShit() { return {}; } int main() { auto[a, b, c] = getShit(); std::cout << a << ' ' << b << ' ' << c << std::endl; return EXIT_SUCCESS; }
        
        https://wandbox.org/permlink/IxOATTwP2gBcbNwE
        
        А ещё есть прикольный «std::tie()», но он ебанутый.
        Ответить
        
        gpyrou_nemyx 14.01.2019 21:06 # 0
        
        Потому что Вирьт ;)
        Ответить
        
        bormand 14.01.2019 19:54 # 0
        
        > фантазии
        То ли дело EP4CE22F17C6N.
        Ответить
        
        1024-- 14.01.2019 19:59 # 0
        
        {74246bfc-4c96-11d0-abef-0020af6b0b7a}
        Ответить
        
        guest8 14.01.2019 20:15 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        HoBorogHuu_nemyx 14.01.2019 20:07 # +2
        
        Ты всю начинку циклоняши наизусть помнишь?
        Ответить
        
        bormand 14.01.2019 20:09 # 0
        
        > всю начинку циклоняши
        А что там помнить? LUT'ы, регистры, умножители, память, PLL'ки, I/O блоки. Она по структуре проще многих контроллеров, на самом деле.
        Ответить
        
        guest8 14.01.2019 20:24 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 20:28 # 0
        
        > reservation station
        Это ж не проц... Напишешь - будут (если влезут, конечно).
        Ответить
        
        guest8 14.01.2019 20:45 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 20:52 # 0
        
        EP4CE22F17C6N ака Циклоняшка - не проц.
        Ответить
        
        guest8 14.01.2019 21:07 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        bormand 14.01.2019 20:02 # 0
        
        Из истории 8008: Noyce said it was an intriguing idea, and that Intel could do it, but it would be a dumb move. He said that if you have a computer chip, you can only sell one chip per computer, while with memory, you can sell hundreds of chips per computer.
        Ответить
        
        guest8 14.01.2019 20:16 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 20:18 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        guest8 14.01.2019 20:16 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        roman-kashitsyn 14.01.2019 17:36 # 0
        
        именно поэтому я за «DTrace»
        Ответить
        
        j123123 14.01.2019 17:50 # 0
        
        http://dtrace.org/blogs/about/dtracepony/ у них там тоже пониебство головного мозга. Видать от крестоблядей подхватили https://govnokod.ru/25148
        
        То ли дело SoftICE (RIP)
        Ответить
        
        guest8 14.01.2019 17:59 # −999
        
        показать все, что скрытоvanished
        Ответить
        
        j123123 15.01.2019 05:54 # +1
        
        DTrace это не совсем дебаггер, но кроме профайлера это еще и трассировщик, что уже приближает его по функционалу к отладчикам (тот же gdb тоже трассировать умеет, бектрейсы можно смотреть). Ну и в Soft-ICE тоже всякие бектрейсы можно, трассировать всякую фигню.
        Ответить
        
        j123123 15.01.2019 05:59 # +1
        
        Ну вообще это больше к roman-kashitsyn вопрос, почему он DTrace приплел к kgdb, ведь через DTrace никаких брейкпоинтов например ставить не получится, и пошагово что-то там выполнять
        Ответить
        
        guest8 14.01.2019 17:52 # −999
        
        показать все, что скрытоvanished
        Ответить
      - j123123 14.01.2019 16:14 # +2
        
        Во, такой вариант вроде оптимизируется через movcc в не самых новых транковых версияx GCC https://godbolt.org/z/DinIiH
        
        void sort2_128( unsigned __int128 a, unsigned __int128& oa) { uint64_t a_l = a; uint64_t a_h = a >> (unsigned __int128)64; if (a_l > a_h) { oa = a; } else { a = a_h; oa = (unsigned __int128)a_l << (unsigned __int128)64; oa |= a; } }
        
        sort2_128(unsigned __int128, unsigned __int128&): cmp rdi, rsi mov rax, rsi cmova rax, rdi cmovbe rsi, rdi mov QWORD PTR [rdx], rax mov QWORD PTR [rdx+8], rsi ret
        Ответить
        
        j123123 14.01.2019 16:17 # +2
        
        Еще забавно, что clang (даже из транка) на этот код как раз генерирует джампы:
        
        sort2_128(unsigned __int128, unsigned __int128&): # @sort2_128(unsigned __int128, unsigned __int128&) cmp rdi, rsi ja .LBB2_2 mov rax, rdi mov rdi, rsi mov rsi, rax .LBB2_2: mov qword ptr [rdx], rdi mov qword ptr [rdx + 8], rsi ret
        Ответить
      - j123123 15.02.2019 13:27 # +1
        
        кстати, если переписать на Си (без заедушной крестоговняной передаче по ссылке), и скомпилировать как Си, то cmov-ы генерируются для тернатрой версии и более старыми версиями GCC
        https://godbolt.org/z/yLGWmR - использована опция "-x c" - если ее убрать, cmov-ы пропадут. Поэтому я за Си.
        Ответить

j123123 16.01.2019 05:44 # 0

Вообще, наибыстрейший в среднем алгоритм сортировки, если сортируемые данные это чистый рандом, зависит еще от того, как соотносится время, в среднем затрачиваемое на сравнение с временем, затрачиваемым на перестановку элементов. Ну т.е. если надо сортировать какой-нибудь гипотетический uint1024_t, процедуру сравнения двух таких чисел можно сделать через последовательное сравнение 16-ти 64-битных uint64_t (т.к. 1024/64 = 16)

int cmp_uint1024_t(uint64_t val1024_a[16], uint64_t val1024_b[16])
{
  for (size_t i = 0; i < 16; i++)
  {
    if (val1024_a[i] < val1024_b[i])
    {
      return B_GREATER_THAN_A;
    }
    else if (val1024_a[i] > val1024_b[i])
    {
      return A_GREATER_THAN_B;
    }
  }
  return A_EQUAL_B; // или тут можно B_GREATER_THAN_A вернуть если в этом случае свап не делается
}

на случайных данных будет оччень малая вероятность, что на первом же 64-битном куске оба числа будут одинаковы (если быть точным, вероятность эта равна 1/18446744073709551616 - вероятность случайно угадать 64-битное число)

а процедура обмена двух uint1024_t уже будет достаточно дорогой. Но можно не менять сами uint1024_t, а хранить некий вспомогательный массив индексов

void sort2(uint64_t val1024_arr[][16], uint8_t index_a[1], uint8_t index_b[1])
{
  int cmp = cmp_uint1024_t( arr[ index_a[0] ], arr[ index_b[0] ] )
  if ((cmp == B_GREATER_THAN_A) || (cmp == A_EQUAL_B))
  {
    return;
  }
  else
  {
    // swap this shit;
    uint8_t tmp;
    tmp = a[0];
    a[0] = b[0];
    b[0] = tmp;
  }
}

А потом уже в конце можно пораспихивать все эти массивчики через этот говномассив с перестановками, но если мы сортируем большой массив (а не кусочками по 8 штук) то у нас от прыганья по этим индексам будет промахи кэша, в общем тут много чего можно понапридумывать с этим говном

Ответить

Говнокод: по колено в коде.

Си / Говнокод #25307

Комментарии (137) RSS

Добавить комментарий