|
Как парсить выдачу Google?
Софт / (23-10-2010, 22:30)
![]() Все никак руки не доходили восстановить пост, сделать заново скриншоты, найти все нужные файлы. Нашел несколько копий на других блогах, но картинки тянулись с моего, поэтому тоже были недоступны. И так для начала нам нужно определиться что мы хотим парсить. Гесты, форумы, определнные CMSки, борды и пр. У всех у них есть определенные отличительные признаки, по которым с помощью операторов Гугла можно найти их в индексе. Сегодня хочу показать вам пример парсинга сайтов на DLE. Нам понадобиться: - Пасрес Байрона (Hkey free C++ Google parser) - Список доменных зон в .txt файле - Программа Befouler (строкоизвращатель) Думаю ни для кого не секрет, что независимо от того стоит-ли на сайте ЧПУ или нет, DLE можно найти в 99% случаев по форме регистрации. index.php?do=register На данный момент гугл мне выдает, что результатов 344 000. Неплохо. Но вся проблема в том, что он показывает только первые 200 результатов. Для того, чтобы спарсить максимальное количество сайтов нужно будет немного подумать и применить некоторые операторы Гугла: inurl: Это значит, что будут найдены сайты, вернее страницы, в адресе которых находится указанные нами символы. site: Ищет ключевое слово исключительно на страницах указанного сайта или доменной зоны. intitle: Ищет страницы, в теге Title которых используется ключевое слово или фраза Для этого берем наш строкоизвращатель и делаем следующее: (все картинки кликабельны) Сначала загружаем наш .txt файла с зонами, затем выбираем пункт "вставить в начало каждой строки" и затем в "исходной подстроке" пишем inurl:"index.php?do=register" site:. Нажимаем старт и в правом окошке у нас получается исходный код. Копируем его и сохраняем где нам удобно. Теперь с помощью данных запросов мы сможем увидеть все DLE сайты в каждой указанной нами доменной зоне. Тем самым мы сможем спарсить большее количество сайтов, но их все-равно окажеться мало. Опять-же только в зоне .ru гугл выдает 104 000 сайтов. Для этого нам поможет очередной оператор, это intitle - позволяет искать сайты, с указанным словом в заголовке страницы. Как нам подобрать эти слова? Можем например воспользоваться списком Пастухова: ТОП 1000 самых популярных ключевых слов в Яндексе или-же самому написать нужнее слова. ТОП 1000 в .txt формате, почищен от п0рн0 Далее берем наш строкоизвращатель и делаем следующее для зоны .ru Берем наш файл с ТОП 1000, выбираем пункт "вставить в начало каждой строки" и в "исхондной подстроке" пишем: inurl:"index.php?do=register" site:.ru intitle:" В программе, над результатом, смотрим путь, где лежит готовый файл (не сохраняйте из окошка с результатами, они там далеко не полные! ) снова открываем его в строкоизвращателе, выбираем пункт "добавить в кажду строку" и добавляем кавычки (") (естественно без скобок) кавычки добавятся в самый конец, тем самым делая верный запрос для парсинга. Все, у нас получилось почти 1000 поисковых запросов к Гуглу в зоне .ru, которые помогут нам отобрать максимальное количество сайтов на ДЛЕ из выдачи. По каждому запросу в выдаче от 5 до 50 сайтов, а запросов у нас 1000! Далее просто перебираем через блокнот путем замены самые популярные зоны: .com, .info, .biz, .net Лично я больше не стал брать, думаю этого хватит. Теперь открываем наш парсер, загружаем для начала наш файл со словами и начинаем парсить. Обязательно поставьте задержку в 11-13 сек (13000) Это поможет вам избавиться от постоянной капчи, но даже если она у вас появляется, в программке есть минибраузер, где вы сможете ввести код капчи и спокойно продолжить парсинг. После парсинга жмем кнопку "очистить дубли" и вуаля, у нас есть достаточно приличная база сайтов на DLE Не забудьте только отпрарсить другие популярные и просто другие зоны. Способо показан для одного движка, но так можно сделать практически с каждым, главное найти общие признаки у CMS Тут были вопросы, почему берется именно .com.ua гугл? Не знаю, такие вопросы к автору софта, главное что работает, да и разницы вроде как таковой нет. Просмотрено: 12950 раз | Автор - black_dante
Похожие статьи:
Пользуешься сервисами социальных закладок? Понравилась запись? Добавь её!
html-cсылка: BB-cсылка: Прямая ссылка: |
НАВИГАЦИЯ
ЯНДЕКС
ИНТЕРЕСНОЕ ЗА МЕСЯЦ
• RedClick - система качественной тизерной рекламы
• Руцентр обвинен в киберсквотинге в зоне .РФ
• Ураган в Сочи
• АП ТИЦ 22 сентября
• Rambler и Yahoo откажутся от своего поиска
• Работа с 8088 - СМС партнерки не самое большое зло в рунете
• ladyCash - тизерная сеть для женских сайтов
БЛОГИ ДРУЗЕЙ
У black_dante все еще нет друзей :(
Profit Partner
|
МНЕ ИНТЕРЕСНО
КОНТАКТ
ПОСЛЕДНИЕ КОММЕНТАРИИ
КАЛЕНДАРЬ
АРХИВ
ОПРОС ПОСЕТИТЕЛЕЙ
Чего не хватает начинающему дорвейщику?
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright 2010. Для правильного отображения сайта рекомендуем обновить Ваш браузер до последней версии!
Разработка - Блог о ру дорвеях
SXtemplate.com - бесплатные шаблоны
Разработка - Блог о ру дорвеях
SXtemplate.com - бесплатные шаблоны



