Простейший парсер для мастера Яндекс для владельцев WordPress сайтов для определения страниц сайта не попавших под индексирование (отсутствуют в поиске Яндекс). Скрипт для приложения HumanEmulator
В коде необходимо установить значение следующих полей:
//Название сайта (без http://www.)
$search_site="a.com";
//Ссылка на карту сайта в нашем случае на посты (статьи)
$browser->navigate('http://www.'.$search_site.'/sitemap_post.xml');
//Логин и пароль для вэбмастера для авторизации
$input->set_value_by_name("login","login_value");
$input->set_value_by_name("passwd","password");
Результатом работы скрипта является файл с ссылками на страницы не проиндексированные : res\\ya.».$search_site.».html
Порядок работы:
1) Сходить по ссылке на карту сайта и собрать все страницы нашего сайта
2) Зайти в Вэбмастер и собрать в разделе «Страницы в поиске» проиндексированные страницы
3) Сравнить коллекции ссылок, чтобы собрать массив ссылок (страниц) не входящих в индексацию яндекса
4) Получить названия страниц из поиска Гугл (в моем случае урл сайта)
5) Вывести результат в виде html файла и показать в браузере по умолчанию (кликабельные ссылки)
Скачать: