Yahoo
Важная тонкость для людей, которые собираются грабить выдачу Yahoo - в сутки с одного IP нельзя делать больше 10 000 запросов.
В противном случае - бан.
Источник: наблюдения “серых” сеошников ![]()
Профессиональный парсинг/граббинг/сбор информации
Архивы за Октябрь 2007
Важная тонкость для людей, которые собираются грабить выдачу Yahoo - в сутки с одного IP нельзя делать больше 10 000 запросов.
В противном случае - бан.
Источник: наблюдения “серых” сеошников ![]()
Очень часто на разнообразных форумах я натыкаюсь на вопросы как на php реализовать скрипт подсчета Google PR (PageRank) сайта.
Работоспособный вариант вы можете скачать отсюда.
Этот код является наиболее простым и быстрым. Его недостатком является то, что он не разрешает определять PR на разных датацентрах компании Google, что может быть полезно в ряде случаев.
Данный метод основан на парсинге выдачи поисковика Google.
UPD. Заплатка для владельцев 64 разрядных машин.
Дополнительные ссылки:
Очень часто новички в области грабинга/парсинга сайтов задают один и тот же вопрос:
“Как максимально просто отлавливать и устанавливать cookie?”.
Используя curl работа с кукисами стает вообще максимально простой. Вам стоит всего лишь использовать следующий код:
if(is_writable($CookieFile)) {
curl_setopt($curl_handler, CURLOPT_COOKIEFILE, $CookieFile);
curl_setopt($curl_handler, CURLOPT_COOKIEJAR, $CookieFile);
} else {
die('Файл не является записываемым: '.$CookieFile);
}
Для вас может быть новой такая опция как CURLOPT_COOKIEJAR и это неудивительно. Например, в моей версии официальной документации к PHP она не описана.
Что же делает данный кусок кода?
Поэтапно:
$CookieFile файл$CookieFile и устанавливает запись кукисов в данный файлГрубо говоря, при помощи данного кода вы сохраняете все кукисы в файл и потом их используете.
Это может быть полезно когда:
Дополнительные ссылки:
Для создания позитивного имиджа услугам парсинга я буду приводить примеры сайтов, где он используется в благих целях.
Компания In.Site.
В своем портфолио они приводят работу для ГринКомБанк:
- Архивация страниц отчетности и возможность просматривать их.
- Парсинг новостей с сайта bankir.ru
- Калькулятор доходности вкладов
Это очень показательный пример. Особенно для сайтов банков. Практически все сайты крупных банков парсят курсы обмена с Центрального Банка своей страны.
Поэтому сейчас для упрощения сбора информации на сайтах Центральных Банков запускают всевозможнейшие веб-сервисы.
Вывод: без парсинга финансовая отрасль была бы неполной и потеряла бы свою динамику, так как всю информацию пришлось вводить руками.
Приступая к работе, я решил проанализировать состояние рынка услуг в сфере парсинга и грабинга информации.
Оказалось, что основными потребителями услуг в сфере парсинга (по мнению Гугла) являются оптимизаторы, которые используют данные инструменты в целях парсинга выдач поисковиков.
И соответственно отношение к подобным услугам в интернете сложилось “немного” негативное. Хотя я и не могу понять почему.
Для того, чтобы хоть как-то оправдать парсинг/грабинг приведу базовые концепции построение крупных проектов.
В основе построения крупных проектов могут лежать следующие 3 фундамента:
Очень часто используется смесь 2х или 3х этих инструментов.
Вывод: парсинг - один из высокоэффективных инструментов построения крупных сайтов с динамическим контентом. Если использовать данный инструмент с умом, то он никак не повредит вашей репутации и не повлечет за собой плачевных последствий.
Один из потенциальных клиентов задал мне вопрос, “что же я предоставляю”.
Прошу извинить меня, если я где-то нечетко указал, что наша компания предоставляет УСЛУГИ парсинга/грабинга.
Проще говоря - услуги автоматизированного сбора информации под заданные вами параметры и с заданных вами сайтов.
Мы рады приветствовать вас на сайте нашей компании.
Если вы зашли на наш сайт, то вероятнее всего вы нуждаетесь в услугах парсинга/грабинга информации.
Почему мы говорим “парсинг/грабинг”? Потому что в сети нет устоявшегося названия для наших услуг, а мы не хотим потерять клиентов, которые ищут решения по “грабингу”. Хотя мы всё же больше склоняемся к определению “парсинг”.
Кому будут полезны наши услуги:
…и множеству множеству других, так как круг задач решаемых нашей компанией практически бесконечный.
На страницах данного сайта вы можете найти описание наших услуг,контактную информацию и прочие полезные сведения, которые должны помочь вам в ваших профессиональных поисках.
Мы рассчитываем на долгосрочное сотрудничество. Поэтому мы готовы выслушать любые ваши вопросы и предложения.
Особенно нас интересуют предложения о создании совместных долгосрочных проектов.
Отличительной чертой нашего сайта является также то, что мы стараемся сделать наши знания открытыми и поэтому реализовали сайт в виде блога, где мы будем регулярно размещать полезную для веб-разработчиков информацию.
Надеемся, что вас заинтересовали наши услуги и вы уже готовы сотрудничать с нами.
Ждем ваших предложений!