Регулярные выраженя
Недавно столкнулся с проблемой конвертации большого *.doc файла в *.html. Пробовал сначала в Dreamweaver почистить с помощью Clean Up Word HTML, в ответ на что Dreamweaver "умер". тогда решил исправить это дело с помощью регулярных выражений.
После анализа фронта работ, стало ясно, что нужно:
1. Почистить свойста у некоторых групп тегов;
2. Удалить некоторые группы тегов;
3. Удалить двойные пробелы.
Решение:
В Dreamweaver открываем Edit -> Find and Replace или просто жмем Ctrl+F, ставим галочку Use regular expressions. Далее по пунктам.
1. Найти:"(<)(b|i|table)\s([^>]*)", Заменить: "$1$2" — данное выражение находит все перечисленные теги (в данном случае - это <b>, <i> и <table>) и удаляет у них все свойства, стили, классы и пр.
2. Найти: "</{0,1}(span|st1)[^>]*>", Заменить: " " — данное выражение находит все перечисленные теги (в данном случае - это <span>, </span>, <st1> и </st1>) и заменяет их на пробел.
3. Найти: " ", Заменить: " " — два пробела заменяются на один. (нужно произвести данную манипуляцию несколько раз).
После анализа фронта работ, стало ясно, что нужно:
1. Почистить свойста у некоторых групп тегов;
2. Удалить некоторые группы тегов;
3. Удалить двойные пробелы.
Решение:
В Dreamweaver открываем Edit -> Find and Replace или просто жмем Ctrl+F, ставим галочку Use regular expressions. Далее по пунктам.
1. Найти:"(<)(b|i|table)\s([^>]*)", Заменить: "$1$2" — данное выражение находит все перечисленные теги (в данном случае - это <b>, <i> и <table>) и удаляет у них все свойства, стили, классы и пр.
2. Найти: "</{0,1}(span|st1)[^>]*>", Заменить: " " — данное выражение находит все перечисленные теги (в данном случае - это <span>, </span>, <st1> и </st1>) и заменяет их на пробел.
3. Найти: " ", Заменить: " " — два пробела заменяются на один. (нужно произвести данную манипуляцию несколько раз).

Comments