Проверка сайтов в ссылочных биржах

Доброго времени суток, решил поделится некоторыми мыслями о том, как можно проверить тот или иной сайт в ссылочных/баннерных биржах sape, rotapost, rotaban и nolix.

Проверка в nolix

Сайт который добавлен в nolix можно определить просмотрев исходный текст документа главной страницы сайта или любой другой внутренней. Если сайт добавлен в nolix то исходник будет содержать текст

<!-- рекламная строчка Nolix -->

то есть, в голову сразу приходят такая мысль — получать содержимое морды сайта и смотреть там эту строчку, с ноликс в принципе всё просто.

Проверка в rotapost и rotaban

С rotaban и rotapost немного посложней, но определяемость равняется 100%. Надумал два метода, первый заключается в подстановке домена в эту ссылку:
http://www.rotaban.ru/buy/site/default.aspx?gloys.ru
то есть вместо gloys.ru подставляем проверяемый домен и если нас редиректит на страницу rotaban.ru/buy/ то, сайта в биржах нету. В противном случае — сайт находится в бирже. Второй же метод чуть посложней, точнее и заключается в скриншотах 🙂 если перейти на страницу:
http://www.rotaban.ru/img.ashx?url=gloys.ru&width=280&height=210
то на ней будет скриншот главной страницы сайта, если же в качестве домена в урле указать абракадабру то, выдаст левый скриншот с размером в 4,4 KБ (4 445 байт). То есть, качаем по этому адресу скриншот и смотрим размер файла, если он равняется ровно столько, сколько скриншот со страницы с абракадаброй то, соответственно такого сайта нету. В противном случае есть. Вариант конечно извращённый но, вполне себе эффективный 🙂

Проверка в Sape

С sape немного придётся попотеть. Необходимо прочекать страницы на ссылки, делается это так — например на сайте X на главной странице есть 3 внешних ссылки, но если добавить к урлу знак ‘#’ то, если сайт в сапе — пару сапо-ссылок исчезнет. Это наводит на мысль что если прочекать страницы того или иного сайта подобным методом с подставлением в конце урла ‘#’, то можно выявить находится сайт в sape или нет. План действий примерно такой:

  • 1. Получить карту сайта в XML (если такова имеется)
  • 2. Если нету то, идём в яндекс и дёргаем оттуда ссылки на этот сайт, ну скажем с 10 первых страниц.
  • Для того что бы получить все страницы сайта, те, что проиндексированы, необходимо в поиск вбить ‘site:gloys.ru’, вместо gloys.ru проверяемый домен. Ну а дальше все страницы проверяем выше описанным способом. Но как вы догадались подобный метод не особо то и эффективный, так как на страницах которые мы получи могут быть места не куплены т.е. нету сапо-ссылок. То есть мы окажемся обмануты. Такой вариант как чекать все страницы так же не катит, ибо их может быть очень много и это займёт продолжительное время. А если проверять будем несколько сотен сайтов? то-то и оно. В общем, другого метода я не нашёл, только тот что сейчас описал — но ведь это уже что-то 🙂
    Есть второй вариант, такой как залогинится в sape и искать там нашу площадку по тИЦ (который так же необходимо получить в программе) но больно уж это извращённо, похлеще чем с скринами и ротабаном.

    Все новости » Без рубрики » Проверка сайтов в ссылочных биржах

    Редакторы информационного интернет агентства EmmyNews.ru следят за свежими новостями со всего мира, предпочтение отдаётся срочным свежим новостям связанных с Россией, Украиной и Белоруссией. Периодически публикуемые свежие новости сегодняшнего дня, позволяют нашим читателям следить за самыми острыми новостями.

    Любой читатель новостного интернет агентства EmmyNews (EN) может получать свежие новости на главной странице Яндекса через наш виджет, а так же подписавшись на каналы в социальных сетях.

    Проект EmmyNews.ru возник на волне украинского кризиса и в первую очередь трендовые новости публикуемых на нашем сайте, связаны именно с кризисом на Украине и его последствиями. Всем добра! =)

    twitter VK G. Plus