Парсинг – процесс сбора ресурсов (урлов) где можно оставить ссылки на свои дорвеи. Парсится выдача поисковиков – из нее выдергиваются ссылки с требуемыми гестбуками (гостевыми книгами). Вот пример формы для оставления сообщения на странице гостевой книги. Здесь заполняется имя, емейл, сообщение (вот в него и вставляются ссылки на наши дорвеи), и поле для ввода проверочного слова (капча, captcha). Еще часто встречаются формы где есть поле homepage (домашняя страница) – в нее тоже можно вставить ссылку – правда всего одну. Существует множество различных гостевых книг – соответственно и видов данной формы будет также множество.

Но чтобы напарсить именно гест нужно знать по каким запросам нужно производить парсинг. Запросы показываю на примере Google (под другие поисковики некоторые запросы отличаются). вместо domain.com подставляйте свои данные – домены.
site:domain.com – в выдаче будут все страницы (которые есть в индексе Google) данного домена, включая саб-домены – viagra.domain.com, dor.domain.com ….
site: domain.com – в выдаче будут все упоминания о данном домене (после двоеточия стоит пробел) – т.е. неактивные ссылки – домен прописан как текст (активная ссылка – когда кликнув по ней вы перейдете на данный сайт). По данному запросу можно напарсить ссылок (беков) конкурентов – в данную выдачу сайты попадают из-за ссылки размещенной в гесте с неправильным форматом – ссылка получилась неактивной. Вы можете посмотреть почему данная ссылка неактивна – попробуйте вручную запостить в гесту, чтобы получить активную.
inurl:»guestbook.html» – в выдаче будут страницы сайтов в урле которых есть guestbook.html – запрос подходит для парсинга страниц с формами – нужно знать только признаки данных страниц, guestbook.html – один из самых старых признаков гест – позаходите в выдаче по ссылкам – если видете страницы гест с формами куда можно ввести сообщения – значит вы на правильном пути.
intitle:“buy cialis” – в выдаче будут сайты в тайтле которых есть фраза buy cialis.
“bla-bla” – в выдаче будут сайты на которых встречается фраза bla-bla – в тексте, урле, тайтле…
Для начала будет достаточно этих запросов – учтите что данные запросы можно вводить совместно – т.е. к примеру intitle:“buy cialis” site:domain.com – выберутся все страницы домена domain.com в тайтлах которых есть фраза buy cialis. Подобные совмещения удобны тем, что Google, как правило, не дает распарсить (просмотреть) далее 1000–го урла. А у нас по запросу inurl:»guestbook.html» в выдаче 450.000 (450К) результатов – остается только комбинировать запросы – к примеру inurl:»guestbook.html» intitle:»guestbook» – тут будет меньше результатов – многие будут из первоначального запроса, но будут и новые. Так комбинирую запрос, по которому множество результатов, можно из него “выжать” поболее 1К урлов. Есть еще одна неприятность при парсинге – временный бан – т.е. в поисковик сильно часто вводили запросы и он на время банит ваш айпи – не дает никаких результатов – выходов несколько – или не сильно часто вводить запросы (таймаут вычисляется экспериментально) или использовать прокси (парсинг станет медленным, при этом прокси часто “дохнут” – так что первый вариант предпочтительнее для новичков).

Здесь я привел только один признак гостевой – guestbook.html, но этого мало – данных признаков (основных) – сотни. Самый простой способ для новичков научится их искать – просмотреть куда проШпамились другие дорвейщики. Для этого например по запросу “buy viagra” находим чужой дорвей (явным признаком дорвея будет – если вы из выдачи поисковика по запросу попадете на фид или аптеку – как правило вас туда средиректит). Далее возращаемся в поисковик – копируем в его выдаче урл чужого дорвея (к примеру domain.com/buy-viagra.html), вводим в поисковик запрос site: domain.com/buy-viagra.html (с пробелом после двоеточия) и начинаем просматривать выдачу – в выдаче будут гостевые куда дорвейщик запостил свои ссылки – вам нужно найти нечто повторяюшеяся в урлах, тайтлах данной выдачи. Например пролистав несколько страниц по этому запросу вы заметили что 2–3 раза в урлах встречалось bla-bla.html. Сделайте запрос в поисковике inurl:bla-bla.html и если в выдаче будут встречаться гостевые книги – значит запрос правильный – скопируйте себе его в отдельный файл. Научиться правильно искать признаки гостевых (и не просто гостевых – а именно их страниц с формами) – важный момент.
И так – чем же парсить – вручную то долго будет. Для данной цели существуют Парсеры – программы которые по заданным в них запросам парсят выдачу поисковиков. Парсеры, также как и доргены, делятся на десктопные и серверые. Десктопные медленее – но в основном они бесплатные. Из наиболее известных десктопных:
Aggress parser – простенький парсер – но почему-то у меня не дал распарсить выдачу далее 100–го урла. (кстати на сайте есть и дорген и шпамилка бесплатная – как-то вылетело из головы что они существуют – скачайте – в хозяйстве пригодится)
Globalsquid parser – неплохой парсер – жаль только давно не обновлялся – на его примере и покажу что куда вводить для парсинга.

Идем – Options – Config

Queries List – здесь вводим запросы по которым нужно распарсить поисковик. Add – добавить 1 запрос, Load – загрузить запросы из файла.
HTTP – оставляем без изменений.
Proxy – вводим список проксей (если будете их использовать).
Send to Server – снимите галку с Auto Send Result to Server.
Search Params – параметры поиска – укажите Google, Simple Search. Time delay between request, sec – здесь в секундах выставляете таймаут для запросов – то что я описывал выше – для обхода бана.
Более подробнее о настройках можете почитать в ветке форума откуда вы скачали парсер.
После настроек жмем Ok и на закладке Process – Start. В окне программы начнется отображаться процесс парсинга.

Напарсенные урлы будут в папке Output где вы установили парсер – по каждому запросу отдельный файл и лог (отчет).
. Архив – 8 Мб.
– чем зеленее полоска – тем выше PageRank. Также PageRank сайта можно просмотреть используя различные 

Записи (RSS)