- 01
- 02
- 03
- 04
- 05
- 06
- 07
- 08
- 09
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
procedure FirstStep (var Text: string);
// Удаление комментариев <!--...-->, переводов строк, раскрытие тегов <br>, удаление парных пробелов:
var
P: Integer;
State: Integer;
Idx: Integer;
Cnt: Integer;
NL: Boolean;
begin
State := 0;
P := 1;
NL := True;
while P <= Length (Text) do
begin
if Text[P] in [#9,#10,#13] then Text[P] := ' ';
case State of
0: case Text[P] of
'<': State := 1;
' ': begin
Idx := P;
State := 9;
end; { }
else NL := False;
end; {case}
1: case Text[P] of
'!': State := 2;
'b': State := 7;
else
begin
Dec (P);
State := 10;
end; {else}
end; {case}
2: if Text[P] <> '-' then
begin
Dec (P);
State := 10;
end else State := 3;
3: if Text[P] = '-' then
begin
Idx := P - 3;
State := 4;
end else
begin
Dec (P);
State := 10;
end; {if}
4: if Text[P] = '-' then State := 5;
5: if Text[P] = '-' then State := 6 else State := 4;
6: if Text[P] = '>' then
begin
Delete (Text, Idx, P - Idx + 1);
P := Idx - 1;
while (P >= 1) and (Text[P] = ' ') do Dec (P);
State := 0;
end else State := 4;
7: if Text[P] = 'r' then State := 8 else State := 0;
8: begin
if Text[P] = '>' then
begin
Text[P-3] := #13;
Text[P-2] := #10;
Delete (Text, P - 1, 2);
Dec (P, 2);
NL := True;
end; {if}
State := 0;
end; {8}
9: if Text[P] <> ' ' then
begin
Cnt := P - Idx;
if NL then
begin
Delete (Text, Idx, Cnt);
Dec (Idx);
end else if Cnt > 1 then Delete (Text, Idx, Cnt - 1);
P := Idx;
State := 0;
end; {if}
10: if Text[P] = '>' then State := 0;
end; {case}
Inc (P);
end; {while}
end; {proc FirstStep}
Oleg_quadro 16.11.2010 14:12 # −7
Oleg_quadro 16.11.2010 14:14 # −2
Анонимус 16.11.2010 14:27 # 0
Oleg_quadro 16.11.2010 14:36 # −3
Меньше строк было бы, и скорее всего я бы так и сделал.
(правда не захватывал бы больше определенного количества символов).
Этот код отнимает минимальное количество памяти и решает свою задачу.
Так что не соглашусь, что это говно.
Анонимус 16.11.2010 14:40 # −2
Во-вторых если мы пишем универсальный парсер, то откуда там 'b'?
а если мы пишем выцарапывание конкретного тэга -- то вообще проше юзать регулярки.
ни за что не поверю что прирост производительности от стейт-машины так принципиален в таком случае.
Oleg_quadro 16.11.2010 15:37 # 0
Вот тут лажа, надо константы завести.
Быстродействие надо проверить (что будет быстрее: регулярка или это), так что тут промолчу.
Arigato 16.11.2010 15:46 # 0
Oleg_quadro 16.11.2010 15:51 # 0
Анонимус 16.11.2010 23:12 # −1
Ваш КО
Oleg_quadro 16.11.2010 23:46 # −3
Просто код уже написан. Если работает и со скоростью нормально, то можно оставить.
Arigato 17.11.2010 01:10 # −2
Анонимус 17.11.2010 10:31 # −2
bugmenot 17.11.2010 10:47 # 0
Анонимус 17.11.2010 10:52 # −2
Что бы было быстрее? Так тут не будет серьезного прироста.
Если бы этот горе-парсер был универсальным -- ручная реализация автомата имела бы смысл (регуляркой задачу было бы просто не решить), но он умеет только BR и комменты выцеплять. А такая задача регуляркой решается быстрее и проще.
bugmenot 17.11.2010 11:05 # +2
этот говноавтомат можно поправить
а Ваш быдлоспособ - только переписать на PHP
:-P
Анонимус 17.11.2010 11:08 # −1
если вдруг понадобится сделать полноценный парсер HTML, да что б понимал как xml-based там и smgl-based версии?
тогда говноавтомат надо переписывать (почти) с ноля.
этот автомат решает простую-и-тупую задачу сложным путем.
я говорю: простую-и-тупую задачу лучше решить простым-и-тупым путем.
а Вы говорите: "а вдруг задача неимоверно усложнится?"
bugmenot 17.11.2010 11:33 # +1
Анонимус 17.11.2010 11:35 # −1
Я что, похож на PHP разработчика?
bugmenot 17.11.2010 11:42 # +1
TarasB 17.11.2010 12:03 # 0
bugmenot 17.11.2010 13:34 # 0
Lure Of Chaos 17.11.2010 12:58 # +1
позволю себе вмешаться и уточнить: напомнить, что регулярки описывают только класс регулярных языков. А для парсеров лучше годятся (лево-)контекстные грамматики
Анонимус 17.11.2010 13:04 # −1
известные мне ___имплементации___ регулярных выражений построены на конечных автоматах, обычно недетерменированных.
так лучше?)
Lure Of Chaos 17.11.2010 15:15 # 0
Анонимус 17.11.2010 15:27 # −1
это заменитель одной строчки на другую
bugmenot 17.11.2010 06:32 # 0
Oleg_quadro 16.11.2010 14:40 # −2
Анонимус 16.11.2010 14:54 # 0
TarasB 16.11.2010 15:53 # −2
Анонимус 17.11.2010 11:03 # −1
TarasB 17.11.2010 12:04 # 0
Lure Of Chaos 17.11.2010 12:59 # −1
но гляжу в дополнение ко всему тут пубертанты балуются, минусуя вообще всем подряд
istem 18.11.2010 02:07 # +1
TarasB 16.11.2010 14:33 # +2
Заменить метки case на константы типа stateNo, stateBracket, stateBold (заведя перечислимый тип для начала).
Ааа, вот говно: Delete (Text, Idx, P - Idx + 1);
Из-за него разбор будет делаться за квадратное время.
Arigato 16.11.2010 15:32 # 0
TarasB 16.11.2010 15:52 # 0
ctm 16.11.2010 22:24 # 0
про Delete
а над этим обычно задумываются, когда кто-то подсовывает огромменый скрипт, и потом все смотрят, а что же тормозит?!
тоже +1.
labutinpa 26.11.2010 12:17 # −1