15 сентября 2007

определяем уникальную строку для regexp (BlackSEO)

когда я начал писать свой первый дорген мне потребовалось быстро искать уникальный текст перед нужным местом. например в google поиске надо выдернуть третий блок (заголовок). конечно задача простая но я решил написать как правильнее всего реализовать ее на автомате.
1. ищем указанную фразу в тексте
2. берем первый символ перед ней
3. ищем его до этой фразы, если нашли то добавляем еще один символ и гоуту 2
как правило этого хватает, особенно для поисковых. бывает что в тэги начинают пихать,
бывает что в тэги начинают пихать контрольные суммы, отчего они становтся уникальными, эти вещщи надобы находить и удалять но в случае с поисКовиКАМИ НИчеГо не надо. хочецца похвастать что дорген успешно искал блоки а затем на найденным ссылкам скачивал страницы и из них выдирал ОСНОВНОЙ ТЕКСТ на странице, чтобы поймать 90% правильного ОСНОВНОГО ТЕКСТА не надо много усилий. ВПРОЧЕМ и заголовок текста тоже особого интеллекта найти не нужно. правильно удалить тэги и не оставить мусора в виде дат, оавторов, рекламы, навигаци и т.п. но теперь я белый и а задача автоматизации поиска шаблонов - все равно есть 8)

Видеочат рулетка