Как парсить выдачу Google?
Софт / (23-10-2010, 22:30)
Как парсить выдачу Google?


Все никак руки не доходили восстановить пост, сделать заново скриншоты, найти все нужные файлы. Нашел несколько копий на других блогах, но картинки тянулись с моего, поэтому тоже были недоступны.

И так для начала нам нужно определиться что мы хотим парсить. Гесты, форумы, определнные CMSки, борды и пр. У всех у них есть определенные отличительные признаки, по которым с помощью операторов Гугла можно найти их в индексе. Сегодня хочу показать вам пример парсинга сайтов на DLE.
Нам понадобиться:
- Пасрес Байрона (Hkey free C++ Google parser) parser.exe [800.5 Kb] (cкачиваний: 982)
- Список доменных зон в .txt файле domen_zone.zip [680 b] (cкачиваний: 476)
- Программа Befouler (строкоизвращатель) befouler.zip [30.6 Kb] (cкачиваний: 595)

Думаю ни для кого не секрет, что независимо от того стоит-ли на сайте ЧПУ или нет, DLE можно найти в 99% случаев по форме регистрации.

index.php?do=register


На данный момент гугл мне выдает, что результатов 344 000. Неплохо. Но вся проблема в том, что он показывает только первые 200 результатов. Для того, чтобы спарсить максимальное количество сайтов нужно будет немного подумать и применить некоторые операторы Гугла:

inurl:
Это значит, что будут найдены сайты, вернее страницы, в адресе которых находится указанные нами символы.

site:
Ищет ключевое слово исключительно на страницах указанного сайта или доменной зоны.

intitle:
Ищет страницы, в теге Title которых используется ключевое слово или фраза
Для этого берем наш строкоизвращатель и делаем следующее: (все картинки кликабельны)

Как парсить выдачу Google?


Сначала загружаем наш .txt файла с зонами, затем выбираем пункт "вставить в начало каждой строки" и затем в "исходной подстроке" пишем
inurl:"index.php?do=register" site:.
Нажимаем старт и в правом окошке у нас получается исходный код. Копируем его и сохраняем где нам удобно.
Теперь с помощью данных запросов мы сможем увидеть все DLE сайты в каждой указанной нами доменной зоне. Тем самым мы сможем спарсить большее количество сайтов, но их все-равно окажеться мало. Опять-же только в зоне .ru гугл выдает 104 000 сайтов. Для этого нам поможет очередной оператор, это
intitle
- позволяет искать сайты, с указанным словом в заголовке страницы.

Как нам подобрать эти слова? Можем например воспользоваться списком Пастухова:
ТОП 1000 самых популярных ключевых слов в Яндексе или-же самому написать нужнее слова.

ТОП 1000 в .txt формате, почищен от п0рн0
top-1000.zip [5.16 Kb] (cкачиваний: 194)

Далее берем наш строкоизвращатель и делаем следующее для зоны .ru

Как парсить выдачу Google?


Берем наш файл с ТОП 1000, выбираем пункт "вставить в начало каждой строки" и в "исхондной подстроке" пишем:

inurl:"index.php?do=register" site:.ru intitle:"


В программе, над результатом, смотрим путь, где лежит готовый файл (не сохраняйте из окошка с результатами, они там далеко не полные! ) снова открываем его в строкоизвращателе, выбираем пункт "добавить в кажду строку" и добавляем кавычки (") (естественно без скобок) кавычки добавятся в самый конец, тем самым делая верный запрос для парсинга. Все, у нас получилось почти 1000 поисковых запросов к Гуглу в зоне .ru, которые помогут нам отобрать максимальное количество сайтов на ДЛЕ из выдачи. По каждому запросу в выдаче от 5 до 50 сайтов, а запросов у нас 1000! Далее просто перебираем через блокнот путем замены самые популярные зоны: .com, .info, .biz, .net Лично я больше не стал брать, думаю этого хватит.

Теперь открываем наш парсер, загружаем для начала наш файл со словами и начинаем парсить. Обязательно поставьте задержку в 11-13 сек (13000) Это поможет вам избавиться от постоянной капчи, но даже если она у вас появляется, в программке есть минибраузер, где вы сможете ввести код капчи и спокойно продолжить парсинг.

Как парсить выдачу Google?


После парсинга жмем кнопку "очистить дубли" и вуаля, у нас есть достаточно приличная база сайтов на DLE Не забудьте только отпрарсить другие популярные и просто другие зоны.
Способо показан для одного движка, но так можно сделать практически с каждым, главное найти общие признаки у CMS

Тут были вопросы, почему берется именно .com.ua гугл? Не знаю, такие вопросы к автору софта, главное что работает, да и разницы вроде как таковой нет.
Просмотрено: 12950 раз | Автор - black_dante


Ваша оценка:
оценка поста
4.25/5
голосов: 40
Ваша оценка посту по пятибальной шкале
 
 
   
 

Пользуешься сервисами социальных закладок? Понравилась запись? Добавь её!

html-cсылка:

BB-cсылка:

Прямая ссылка:
Комментарий: #1 | Hаписал: daymos | 9 ноября 2010 09:18 | Всего комментариев: 0
Тут были вопросы, почему берется именно .com.ua гугл? Не знаю, такие вопросы к автору софта, главное что работает, да и разницы вроде как таковой нет. - потому что автор из Одессы

Комментарий: #2 | Hаписал: black_dante | 9 ноября 2010 09:23 | Всего комментариев: 94
Ну да, я отвечал на этот вопрос, спасибо.
Из-за потери хостером данным камменты восстановить не удалось

Комментарий: #3 | Hаписал: Fantom2067 | 27 ноября 2010 21:45 | Всего комментариев: 0
Парсер работает, а вот поле результат остаеться пустым... Подскажите в чем может быть проблема? Всё делаю правильно по вашему уроку.

Комментарий: #4 | Hаписал: black_dante | 27 ноября 2010 21:52 | Всего комментариев: 94
Ну, значит парсер не работает. Возможно капча, возможно нет результатов в выдаче, причин может быть множество. К сожалению я не столь квалифицирован в этом вопросе.

Комментарий: #5 | Hаписал: sanchez | 10 февраля 2011 18:03 | Всего комментариев: 0
та же проблемма результата не выводит делал несколько раз по вашему уроку (

та же самая трабла( результатов не выводит

Комментарий: #6 | Hаписал: private-seo-soft | 5 апреля 2011 15:24 | Всего комментариев: 0
Хороший софт! вот мой парсер google юзайте наздоровье! private-seo-soft.blogspot.com/2011/04/google.html



ЯНДЕКС
Точные апдейты Яндекса


ИНТЕРЕСНОЕ ЗА МЕСЯЦ
• RedClick - система качественной тизерной рекламы
Я обычно не пользуюсь тизерной рекламой, но после прочтения обзора у Дмитрия Шахова решил попробовать все-же эту систему.

RedClick - система качественной тизерной рекламы


Пожалуй первое, что бросается в глаза - простая регистрация и максимально простой интерфейс. На все это уходит не более 5 минут, разобраться в этом не составляет труда. Система работает на движке AdLabs и что самое важное с площадками AdLabs'а + свои собственные. Модерация рекламных кампаний проходит достаточно быстро.

Основное отличие этой системы от других, это работа с крупными новостными порталами. Если Вам нужен развлекательный трафик, то скорее всего придется выбрать другую партнерскую программу, но если Вам нужен коммерческий трафик, то в RedClick Вам самое место...
• Руцентр обвинен в киберсквотинге в зоне .РФ
Ru-Center обвиняют в захвате доменных имен с целью дальнейшей перепродажи. Об этом заявил руководитель коммуникационной группы "Press Hall" Михаил Дворкович.

В своем "Твиттере" он написал следующее: "Регистратор скупил 180000 доменов и выставил на аукцион - это киберсквотинг, запрещенный законом!".

Суть обвинения в следующем: Ru-Center заранее, пользуясь связями, скупил самые "сладкие" доменные имена, после чего выставил их на аукцион, деньги от которого намерен положить в свой карман. Это, по данным Дворковича, по меньшей мере 150 миллионов долларов.


Полный текст новости на vesti.ru

Оно и правда, давно пора было хоть кому-то подать претензию на Ру-центр, ибо это наглость уже. Столько вкусных доменов скуплено, что не сосчитать даже, а простым смертным достаются максимум второсортные. Большинство из тех доменов, которые были перехвачены раньше и о которых я писал раньше, были зарегистрированы именно Ру-центром.

Интересно, те кто купил у них домены через аукцион, останутся при них? или будут не делегированы...
• Ураган в Сочи
Вот тебе и последний день сентября. Жара была +30! весь день, резко налетели черные тучи, очень сильная гроза и ветер. За несколько минут температура опустилась более чем на 10 градусов, улицы наполнились водой и крупными ветками деревьев, на части домов сорвало плохо закрепленные крыши и перекрытия. Все продолжалось не более 10 минут, но успело натворить немало дел, фотки не могут всего передать, да и сложно было в таких условиях сделать что-то более-менее вменяемое, но хоть что-то да есть
Ураган в Сочи
• АП ТИЦ 22 сентября
Вот Яндекс животное-то, мало того что выдачу неслабо подкрутили, так еще и ТИЦ подкрутили тоже неплохо. Было сразу несколько рабочих тем, которые 3-4 апа назад давали 150+ ТИЦ, но за последние 3 апа это стало давать максимум десятку, хотя ничего из этого не светилось на форумах активно, точнее вообще не видел чтобы где-то светилось, раньше Яндекс был куда тормознутее в этом плане, давал хоть немного заработать, пока тема активно не уходила в паблик и только тогда перекрывали.

Еще и почему-то порезал старые сайты, на которых 10-20 держалось уже несколько лет. В общем логика непонятна, но от ксапы по прежнему держит стабильно 20-ку при затратах в 4 бакса в месяц.

В общем везде одни минуса, надоело уже бодаться если честно... надо снова искать новые темы.
• Rambler и Yahoo откажутся от своего поиска
Сегодня стало известно, что Рамблер, после объединения с "Афишей" решил окончательно отказаться от разработки и поддержки своего собственного поиска, вместо этого они решили заключить контракт с лидерами Российского рынка и перейти на технологию "Яндекса" или Google

Директор по связям с общественностью компании Rambler Константин Воронцов отказался от официальных комментариев, сообщает РБК Daily. Как сказал пресс-секретарь «Яндекса» Очир Манджиков: «В последнее время Rambler к нам не обращался. Мы открыты для сотрудничества и готовы предложить свой поисковый движок на условиях брендирования страниц результатов поиска».

И так совпавло, что в среду старший вице-президент Yahoo! Шаши Сет написал в корпоративном блоге: «Поиск веб-страниц, фото и видео контента как на интернет-платформе Yahoo, так и в мобильных приложениях теперь будет осуществляться в США и Канаде на основе системы Microsoft Bing. Позже нововведение коснется и других рынков». Тем самым Bing хочет закрепиться на рынке как "второй поисковик"

Напомним, что Yahoo является первым мировым поисковиком, основаным еще в 1997 году и на данный момент является второй по популярности поисковой системой в мире.
• Работа с 8088 - СМС партнерки не самое большое зло в рунете
Немного не ладится у меня с юридическими и медицинскими консультациями, но все-же немного трафика есть. Сразу хочу привести скриншот (увеличение по клику):
Работа с 8088 - СМС партнерки не самое большое зло в рунете


Однако не очень хорошо. Как видите, процент непринятых заявок составляет 85% Хотя это уже с подключенными городами России, по которым должны быть приняты заявки, но они уходят с пометкой "межгород". Не знаю что и сказать. Мягко говоря слишком большой брак. Почему такой плохой конверт? думаю ответ кроется в этом топике http://forum.ozpp.ru/showthread.php?t=23740&page=183 (форум защиты прав потребителей)
ООО "Барьер" и прочие это 8088, топик о них. Если вы почитаете немного отзывы, то поймете почему люди так не хотят связываться с ними, многие потеряли там и 10, и 20т.р. Резонанс как видите большой, да и популярности у них хватает, мы ведь умеем делиться информацией друг с другом.
Посмотрим на ТОП по юристам:
Работа с 8088 - СМС партнерки не самое большое зло в рунете


Как мы видим, цифры хорошие. Путем не сложного подсчета мы получаем, что только из первых 10 участников каждый день на якобы бесплатную консультацию записываются ~ 355 человек. В месяц это более 10 000 человек! А сколько еще мелких вебмастеров таких как я? А сколько у нас партнерка работает? И сколько людей они за это время успели обмануть? Лично мне теперь понятно почему с каждым днем конверт становится все хуже и хуже... Поэтому 900р. за смски это все мелочи...
Вы еще думаете что смс партнерки самое большое зло в рунете? ;)

P.S. Может у кого-то из читателей есть нормальное количество заявок по юристам? скажем от 50 в сутки? Можно конвертить в другом месте.. (не павлин)
• ladyCash - тизерная сеть для женских сайтов
ladyCash - тизерная сеть для женских сайтов


LadyCash - отличная партнерка специально для женских сайтов. На приличных дорвеях CTR у меня доходил до 50% Крутятся в основном диеты, обычные тизерные блоки с вполне нормальным редактором блоков.

Основные достоинства системы:

* Минимальная стоимость перехода - 1 рубль
* Удобный конструктор рекламных блоков
* Высокий CTR на тизерах рекламной сети
* Выплаты в WMR раз в неделю либо по запросу
* Минимальная сумма для выплаты 16 рублей
* Индивидуальный подход и поддержка вебмастеров



БЛОГИ ДРУЗЕЙ
У black_dante все еще нет друзей :(


Profit Partner




 



ПОСЛЕДНИЕ КОММЕНТАРИИ
» anthrax - Webmoney...
» - Ссылка с сайта gastronom.ru
» - Быдло-мамочки или нахуя ты рож...


ТОП КОММЕНТАТОРОВ


КАЛЕНДАРЬ
«    Май 2012    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 




ОПРОС ПОСЕТИТЕЛЕЙ
Чего не хватает начинающему дорвейщику?
Кеев
Шаблонов
Текста
Доргена
Фрихостов
Мозгов
Сисег





Все о дорвеях
Партнерские программы
Всякая всячина