Архивы за Октябрь 2007

Yahoo

Важная тонкость для людей, которые собираются грабить выдачу Yahoo - в сутки с одного IP нельзя делать больше 10 000 запросов.

В противном случае - бан.

Источник: наблюдения “серых” сеошников :)

Определение Google PR

Очень часто на разнообразных форумах я натыкаюсь на вопросы как на php реализовать скрипт подсчета Google PR (PageRank) сайта.

Работоспособный вариант вы можете скачать отсюда.

Этот код является наиболее простым и быстрым. Его недостатком является то, что он не разрешает определять PR на разных датацентрах компании Google, что может быть полезно в ряде случаев.

Данный метод основан на парсинге выдачи поисковика Google.

UPD. Заплатка для владельцев 64 разрядных машин.

Дополнительные ссылки:

Работа с cookies

Очень часто новички в области грабинга/парсинга сайтов задают один и тот же вопрос:
“Как максимально просто отлавливать и устанавливать cookie?”.

Используя curl работа с кукисами стает вообще максимально простой. Вам стоит всего лишь использовать следующий код:

if(is_writable($CookieFile)) {
curl_setopt($curl_handler, CURLOPT_COOKIEFILE, $CookieFile);
curl_setopt($curl_handler, CURLOPT_COOKIEJAR, $CookieFile);
} else {
die('Файл не является записываемым: '.$CookieFile);
}

Для вас может быть новой такая опция как CURLOPT_COOKIEJAR и это неудивительно. Например, в моей версии официальной документации к PHP она не описана.

Что же делает данный кусок кода?

Поэтапно:

  • Проверяет можно ли писать в указанный в переменной $CookieFile файл
  • Если нельзя - выводит ошибку
  • Если можно - устанавливает кукисы из файла $CookieFile и устанавливает запись кукисов в данный файл

Грубо говоря, при помощи данного кода вы сохраняете все кукисы в файл и потом их используете.

Это может быть полезно когда:

  • на сайте используется сессионная модель взаимодействия с посетителями
  • когда аутентификация основана на информации из кукисов
  • когда в кукисы записываются какие-либо переменные, необходимые для дальнейшей работы на сайте

Дополнительные ссылки:

Пример

Для создания позитивного имиджа услугам парсинга я буду приводить примеры сайтов, где он используется в благих целях.

Компания In.Site.
В своем портфолио они приводят работу для ГринКомБанк:

- Архивация страниц отчетности и возможность просматривать их.
- Парсинг новостей с сайта bankir.ru
- Калькулятор доходности вкладов

Это очень показательный пример. Особенно для сайтов банков. Практически все сайты крупных банков парсят курсы обмена с Центрального Банка своей страны.

Поэтому сейчас для упрощения сбора информации на сайтах Центральных Банков запускают всевозможнейшие веб-сервисы.

Вывод: без парсинга финансовая отрасль была бы неполной и потеряла бы свою динамику, так как всю информацию пришлось вводить руками.

Состояние рынка

Приступая к работе, я решил проанализировать состояние рынка услуг в сфере парсинга и грабинга информации.

Оказалось, что основными потребителями услуг в сфере парсинга (по мнению Гугла) являются оптимизаторы, которые используют данные инструменты в целях парсинга выдач поисковиков.

И соответственно отношение к подобным услугам в интернете сложилось “немного” негативное. Хотя я и не могу понять почему.

Для того, чтобы хоть как-то оправдать парсинг/грабинг приведу базовые концепции построение крупных проектов.

В основе построения крупных проектов могут лежать следующие 3 фундамента:

  • комьюнити: жж, форумы, социальные сети
  • команда: профессиональные журналисты, который постоянно пишут за деньги
  • грабинг/парсинг информации: новостные агрегаторы, порталы…

Очень часто используется смесь 2х или 3х этих инструментов.

Вывод: парсинг - один из высокоэффективных инструментов построения крупных сайтов с динамическим контентом. Если использовать данный инструмент с умом, то он никак не повредит вашей репутации и не повлечет за собой плачевных последствий.

Услуги

Один из потенциальных клиентов задал мне вопрос, “что же я предоставляю”.

Прошу извинить меня, если я где-то нечетко указал, что наша компания предоставляет УСЛУГИ парсинга/грабинга.

Проще говоря - услуги автоматизированного сбора информации под заданные вами параметры и с заданных вами сайтов.

Добро пожаловать

Мы рады приветствовать вас на сайте нашей компании.

Если вы зашли на наш сайт, то вероятнее всего вы нуждаетесь в услугах парсинга/грабинга информации.

Почему мы говорим “парсинг/грабинг”? Потому что в сети нет устоявшегося названия для наших услуг, а мы не хотим потерять клиентов, которые ищут решения по “грабингу”. Хотя мы всё же больше склоняемся к определению “парсинг”.

Кому будут полезны наши услуги:

  • вебмастерам;
  • SEO профессионалам;
  • профессионалам в области статистических исследований;
  • людям, нуждающимся в создании профильных баз данных.

…и множеству множеству других, так как круг задач решаемых нашей компанией практически бесконечный.

На страницах данного сайта вы можете найти описание наших услуг,контактную информацию и прочие полезные сведения, которые должны помочь вам в ваших профессиональных поисках.

Мы рассчитываем на долгосрочное сотрудничество. Поэтому мы готовы выслушать любые ваши вопросы и предложения.

Особенно нас интересуют предложения о создании совместных долгосрочных проектов.

Отличительной чертой нашего сайта является также то, что мы стараемся сделать наши знания открытыми и поэтому реализовали сайт в виде блога, где мы будем регулярно размещать полезную для веб-разработчиков информацию.

Надеемся, что вас заинтересовали наши услуги и вы уже готовы сотрудничать с нами.

Ждем ваших предложений!