Архив Май 2008

Парсинг – процесс сбора ресурсов (урлов) где можно оставить ссылки на свои дорвеи. Парсится выдача поисковиков – из нее выдергиваются ссылки с требуемыми гестбуками (гостевыми книгами). Вот пример формы для оставления сообщения на странице гостевой книги. Здесь заполняется имя, емейл, сообщение (вот в него и вставляются ссылки на наши дорвеи), и поле для ввода проверочного слова (капча, captcha). Еще часто встречаются формы где есть поле homepage (домашняя страница) – в нее тоже можно вставить ссылку – правда всего одну. Существует множество различных гостевых книг – соответственно и видов данной формы будет также множество.

Пример формы оставления сообщения гестбука

Но чтобы напарсить именно гест нужно знать по каким запросам нужно производить парсинг. Запросы показываю на примере Google (под другие поисковики некоторые запросы отличаются). вместо domain.com подставляйте свои данные – домены.

site:domain.com – в выдаче будут все страницы (которые есть в индексе Google) данного домена, включая саб-домены – viagra.domain.com, dor.domain.com ….

site: domain.com – в выдаче будут все упоминания о данном домене (после двоеточия стоит пробел) – т.е. неактивные ссылки – домен прописан как текст (активная ссылка – когда кликнув по ней вы перейдете на данный сайт). По данному запросу можно напарсить ссылок (беков) конкурентов – в данную выдачу сайты попадают из-за ссылки размещенной в гесте с неправильным форматом – ссылка получилась неактивной. Вы можете посмотреть почему данная ссылка неактивна – попробуйте вручную запостить в гесту, чтобы получить активную.

inurl:»guestbook.html» – в выдаче будут страницы сайтов в урле которых есть guestbook.html – запрос подходит для парсинга страниц с формами – нужно знать только признаки данных страниц, guestbook.html – один из самых старых признаков гест – позаходите в выдаче по ссылкам – если видете страницы гест с формами куда можно ввести сообщения – значит вы на правильном пути.

intitle:“buy cialis” – в выдаче будут сайты в тайтле которых есть фраза buy cialis.

“bla-bla” – в выдаче будут сайты на которых встречается фраза bla-bla – в тексте, урле, тайтле…

Для начала будет достаточно этих запросов – учтите что данные запросы можно вводить совместно – т.е. к примеру intitle:“buy cialis” site:domain.com – выберутся все страницы домена domain.com в тайтлах которых есть фраза buy cialis. Подобные совмещения удобны тем, что Google, как правило, не дает распарсить (просмотреть) далее 1000–го урла. А у нас по запросу inurl:»guestbook.html» в выдаче 450.000 (450К) результатов – остается только комбинировать запросы – к примеру inurl:»guestbook.html» intitle:»guestbook» – тут будет меньше результатов – многие будут из первоначального запроса, но будут и новые. Так комбинирую запрос, по которому множество результатов, можно из него “выжать” поболее 1К урлов. Есть еще одна неприятность при парсинге – временный бан – т.е. в поисковик сильно часто вводили запросы и он на время банит ваш айпи – не дает никаких результатов – выходов несколько – или не сильно часто вводить запросы (таймаут вычисляется экспериментально) или использовать прокси (парсинг станет медленным, при этом прокси часто “дохнут” – так что первый вариант предпочтительнее для новичков).

Окно сообщения Google при парсинге

Здесь я привел только один признак гостевой – guestbook.html, но этого мало – данных признаков (основных) – сотни. Самый простой способ для новичков научится их искать – просмотреть куда проШпамились другие дорвейщики. Для этого например по запросу “buy viagra” находим чужой дорвей (явным признаком дорвея будет – если вы из выдачи поисковика по запросу попадете на фид или аптеку – как правило вас туда средиректит). Далее возращаемся в поисковик – копируем в его выдаче урл чужого дорвея (к примеру domain.com/buy-viagra.html), вводим в поисковик запрос site: domain.com/buy-viagra.html (с пробелом после двоеточия) и начинаем просматривать выдачу – в выдаче будут гостевые куда дорвейщик запостил свои ссылки – вам нужно найти нечто повторяюшеяся в урлах, тайтлах данной выдачи. Например пролистав несколько страниц по этому запросу вы заметили что 2–3 раза в урлах встречалось bla-bla.html. Сделайте запрос в поисковике inurl:bla-bla.html и если в выдаче будут встречаться гостевые книги – значит запрос правильный – скопируйте себе его в отдельный файл. Научиться правильно искать признаки гостевых (и не просто гостевых – а именно их страниц с формами) – важный момент.

И так – чем же парсить – вручную то долго будет. Для данной цели существуют Парсеры – программы которые по заданным в них запросам парсят выдачу поисковиков. Парсеры, также как и доргены, делятся на десктопные и серверые. Десктопные медленее – но в основном они бесплатные. Из наиболее известных десктопных:

Aggress parser – простенький парсер – но почему-то у меня не дал распарсить выдачу далее 100–го урла. (кстати на сайте есть и дорген и шпамилка бесплатная – как-то вылетело из головы что они существуют – скачайте – в хозяйстве пригодится)

Globalsquid parser – неплохой парсер – жаль только давно не обновлялся – на его примере и покажу что куда вводить для парсинга.

Десктопный парсер Globalsquid parser

Идем – Options – Config

Десктопный парсер Globalsquid parser - закладка Settings

Queries List – здесь вводим запросы по которым нужно распарсить поисковик. Add – добавить 1 запрос, Load – загрузить запросы из файла.

HTTP – оставляем без изменений.

Proxy – вводим список проксей (если будете их использовать).

Send to Server – снимите галку с Auto Send Result to Server.

Search Params – параметры поиска – укажите Google, Simple Search. Time delay between request, sec – здесь в секундах выставляете таймаут для запросов – то что я описывал выше – для обхода бана.

Более подробнее о настройках можете почитать в ветке форума откуда вы скачали парсер.

После настроек жмем Ok и на закладке Process – Start. В окне программы начнется отображаться процесс парсинга.

процесс парсинга парсера GlobalSquid

Напарсенные урлы будут в папке Output где вы установили парсер – по каждому запросу отдельный файл и лог (отчет).

Comments 6 комментариев »

Раскопал тут на одном из сайтов (не имеющем никакого отношения к SEO) подборку материалов по продвижению сайтов – бегло просмотрел – многое старо – но для чтения на работе – то что нужно  . Архив – 8 Мб.

Качаем

P.s. В аське спрашивают про серию статей по Black SEO – нет я ее не закончил – тут еще и половины нет – просто времени катастрофически не хватает – ремонт в финальной стадии – так что на днях будет следующая статья.

Comments 3 комментариев »

Есть у меня с десяток сплогов – на движке WordPress – посты постились вручную – в основном фотографии – иногда была и текстовка (переводчица с русского переводит или рерайт оригинальной статьи). Забрасывал их в социалки. На днях, на почтовый ящик упало письмо, чуть не удалил посчитав шпамом, с предложением о рекламе на одном из сплогов (особо и не примечательный сплог – PageRank 3). В ходе переписки сошлись на размещении ссылок за довольно таки круглую сумму – период год. Оплата пошла через PayPal – на обменке потерял порядка 10% – вот тут и обидно – что PayPal все еще считает нас страной третьего мира и ввод денежных средств на наши аккаунты невозможен – мы можем только оплачивать напрямую с кредитной карточки прикрепленной к PayPal-аккаунту. Создавайте сайты для людей – рекламодатели рано или поздно вас найдут.

Comments 4 комментариев »

В предыдущих статьях серии Black SEO я указывал что одним из основных факторов попадания на первые страницы выдачи поисковика являются ссылки -ссылочное ранжирование. И так что же это такое. Как всегда покажу на примере. Купил я домен, сделал на нем сайт о тех же щенках добермана. Проставил на каком-либо блоге или форуме ссылку на свой сайт в таком виде – http://tipatestpodobermanam.ru. Через несколько дней (часов, недель) поисковики найдут эту ссылку и перейдут по ней на ваш сайт и добавят в индекс. Сделайте еще с десяток таких ссылок – будет лучше – но по запросу щенки добермана вы все равно не попадете на первые позиции. Почему? Поисковики же видят ваш сайт, на нем несколько раз упоминаются данные щенки, Title, дескрипшен, кейворды соответствуют, есть ссылки – но нет на первых позициях. Поисковик – это всего лишь машина – она видит, но сомневается (точнее алгоритм построен таким образом – машина не умеет сомневаться) – ей нужно указать в ссылке что на данном сайте говорится о щенках. В html формат данной ссылки таков:

<a href=»http://tipatestpodobermanam.ru«>щенки добермана</a>

в браузере это будет выглядеть так щенки добермана

Т.е. в ссылке идет урл и anchor (анкор) указывающий о чем ведется речь на сайте куда ведет ссылка. Поисковик увидит данный анкор – и поставит немного выше по данному запросу ваш сайт. Увидит на другом форуме такую же ссылку – поставит еще выше, еще на одном – еще выше, …….….. еще на одном – забанит. Почему? Раньше когда алгоритмы поисковиков были слабы – такая схема действительно работала – пока Google не ввел поправку в алгоритм – в основу которой положена ясная причина – множество ссылок с одинаковым анкором – явный признак попытки манипулировать выдачей. Обход данного фильтра также ясен – нужны ссылки с различным анкором – к примеру – доберман, щенки добермана, купить щенков добермана и т.д.

Google PageRank (пиар) – арифметический алгоритм Google для определения “важности страницы” – чем больше ссылок на страницу – тем более она важна. PageRank можно просмотреть на тулбаре Google Тулбар Google – чем зеленее полоска – тем выше PageRank. Также PageRank сайта можно просмотреть используя различные сервисы. Измеряется от 0 до 10, пересчитывается постоянно – но визуально изменения отражаются только после очередного Google Dance – примерно раз в 3 месяца. PageRank считается не только для головной страницы сайта (морды), а для каждой страницы считается отдельно. Часто встречаются ситуации когда отдельная страница сайта имеет пиар больший чем головная страница. Чем выше пиар страницы где вы проставите ссылку на свой сайт – тем лучше – к вам на сайт “перетечет” больше пиара. Т.е. ссылка с сайта с PR=4 даст больший эффект, чем 10 ссылок с сайтов с нулевым пиаром. Также следует учитывать что отдаваемый с сайта пиар делится на все ссылки которые на нем расположены. Примерный калькулятор сколько нужно ссылок (с каким PageRank)  для получения нужного вам пиара на ваш сайт:

Калькулятор PageRank

PR – пиар страниц с которых стоят ссылки на ваш сайт

2–3 колонки – минимальное и максимальное требуемое количество ссылок для получения требуемого пиара

4–я среднее количество требуемых ссылок – исходя из данных 2–3 колонки

5–я колонка – передаваемый пиар – расчитывается по формуле

6–9 колонки – сколько ссылок данного пиара требуется для получения 5–8 PageRank-a на вашем сайте.

Еще раз повторю – калькулятор примерный, следует учитывать что PageRank постоянно пересчитывается, учитывается кол-во ссылок на странице.

Также следует учитывать что ссылки могут быть как полезны так и вредны. Если вы будете проставлять ссылки только с заспамленных гостевых – Googlе пессимизирует ваш сайт – сначала может закинуть на первые позиции выдачи, затем откатить на несколько позиций назад и забанить, или может и без отката забанить. Хорошие ссылки получаются с трастовых сайтов. Трастовость – это сборная нескольких параметров – тут учитывается качество ссылок на этот сайт, возраст домена, уникальность публикуемых материалов (контент)..

Comments 4 комментариев »

Поздравьте ветеранов с Праздником Победы – они совершили великий подвиг победив в той войне. Они гибли за наши жизни – давайте же не будем забывать о них!

C Днем Победы ветераны!

C Днем Победы ветераны!

Tags:

Comments Нет комментариев »

Glavmed как всегда идет на встречу своим адвертам – постоянно расширяется ассортимент – недавно даже добавили мед.препараты для Pets – домашних животных – тема довольно таки не заезженная. Также выложена в общее использование база кейвордов под препараты Glavmed-а. Смотрим в админках.

Tags:

Comments 2 комментариев »