Портфолио

В данном разделе будут представлены проекты, выполненные нашей компанией.

Однако следует понимать, что большинство клиентов хотят остаться неизвестными и мы выполняем это их требование, поэтому список работ, приведенный в данном разделе, далеко не полный.

В общей сложности за все время нашей работы нами было написано порядка 50 парсеров и грабберов, а также так или иначе обработано порядка 300 сайтов. Так что если вы сомневаетесь можем ли мы сделать ваш проект - задайте нам вопрос. Может быть у нас уже есть готовое решение для вас.

Вы можете купить любую базу или заказать решение из представленных ниже.

Базы данных:

  1. Англоязычная база данных программного обеспечения, собранная с порядка 100 сайтов.
    Всего записей в базе: 59 265
    Форматы: CSV | MySQL dump
    Всего категорий: 16
    Всего подкатегорий: 157
    Данные, представленные в базе: категория, под категория, название, домашняя страница, описание, ссылка на более детальное описание, ссылка на скриншот, поддерживаемые платформы (Windows, Linux …), тип ПО (Sharware, Freeware…), стоимость программы, размер программы, дата релиза, ссылка для скачивания.
    Стоимость базы: 500 $.
    Просмотреть дамп (10 записей | CSV)
  2. База предприятий Украины.
    Всего записей в базе: 9 977
    Форматы: CSV | MySQL dump
    Всего категорий: 17
    Всего подкатегорий: 15 (подкатегории есть лишь у небольшого числа компаний, основной упор делается на категорию, которая есть у каждой компании)
    Данные, представленные в базе: название, форма собственности, зкпо (пустое значение, оставлено для совместимости с другими базами), направление деятельности (внутренний рынок, экспорт, импорт…), вид деятельности (торговля, услуги, производство), рынки (Украина, Россия …), адрес, телефон (городской, мобильный), факс, e-mail, продукция, услуги.
    Стоимость базы: 30 $.
    Просмотреть пример базы (10 записей | CSV)
  3. База предприятий Киева.
    Всего записей в базе: 6 722.
    Форматы: CSV | MySQL dump.
    Всего категорий: 17.
    Всего подкатегорий: 15 (подкатегории есть лишь у небольшого числа компаний, основной упор делается на категорию, которая есть у каждой компании).
    Данные, представленные в базе: название, форма собственности, зкпо (пустое значение, оставлено для совместимости с другими базами), направление деятельности (внутренний рынок, экспорт, импорт…), вид деятельности (торговля, услуги, производство), рынки (Украина, Россия …), адрес, телефон (городской, мобильный), факс, e-mail, продукция, услуги.
    Стоимость базы: 20 $.
    Просмотреть пример базы (10 записей | CSV)
  4. База строительных статей.
    Всего записей в базе: 4 779.
    Форматы: CSV | MySQL dump.
    Всего категорий: 26.
    Всего подкатегорий: отсутствуют (одноуровневая структура категрий).
    Данные, представленные в базе: категория, заголовок статьи, статья, имена картинок к статье.
    Также к данной базе прилагается 13 376 (258 Мб) картинок к статьям.
    Стоимость базы: 90 $.
    Просмотреть пример базы (1 записей | SQL)
  5. База строительных подсказок из серии «Как сделать…».
    Всего записей в базе: 64.
    Форматы: CSV | MySQL dump.
    Всего категорий: отсутствуют (линейная структура).
    Всего подкатегорий: отсутствуют.
    Данные, представленные в базе: заголовок статьи, статья, имена картинок к статье.
    Также к данной базе прилагается 105 (~2 Мб) картинок к статьям.
    Стоимость базы: 10 $.
    Просмотреть пример базы (1 записей | SQL)
  6. База строительных советов.
    Всего записей в базе: 401.
    Форматы: CSV | MySQL dump.
    Всего категорий: отсутствуют (линейная структура).
    Всего подкатегорий: отсутствуют.
    Данные, представленные в базе: заголовок статьи, статья.
    Стоимость базы: 15 $.
    Просмотреть пример базы (1 записей | SQL)
  7. База автомобильных статей.
    Всего записей в базе: 2 929.
    Форматы: CSV | MySQL dump.
    Всего категорий: отсутствуют (линейная структура).
    Всего подкатегорий: отсутствуют.
    Данные, представленные в базе: id, заголовок статьи, статья, картинки к статье.
    Также к данной базе прилагается 7651 (~138 Мб) картинка.
    В базе сохранены ссылки (обернуты в nofollow и noindex) на источник.
    Стоимость базы: 80 $.
  8. База рецептов.
    Всего записей в базе: 23 812.
    Форматы: CSV | MySQL dump.
    Всего категорий: 12.
    Всего подкатегорий: 98.
    Данные, представленные в базе: id, категория, подкатегория, название рецепта, рецепт.
    В базе сохранены ссылки (обернуты в nofollow и noindex) на источник.
    Стоимость базы: 80 $.

Решения на основе парсинга:

  1. Парсер поиска по Яндекс.Директ.
    Возможности:

    • парсинг количества результатов
    • работа через прокси
    • сохранение результатов в CSV
    • отдельное хранилище для высокочастотных запросов (порог вхождения устанавливается пользователем)
    • возможность установки таймаутов между запросами
    • контроль процесса обработки запросов: возможность запуска парсера с точки остановки без необходимости перезапуска всего процесса
    • контроль и просмотр результатов «на лету»: до окончания процесса парсинга возможен просмотр результатов и их обработка (по уже пропарсенным запросам)
    • INBOX для хранения результатов парсинга всех групп запросов

    … и множество других удобств, которые помогут заказчику достигать намеченных результатов в кратчайшие сроки и с максимальным удобством.

  2. Парсер освобождающихся доменных имен.
    Возможности:

    • парсинг CSV файла с параметрами доменов;
    • проверка на наличие домена в Яндекс Каталоге, Каталоге Mail.RU, Каталоге DMOZ;
    • проверка на дублирование доменных имен;
    • почтовая рассылка доменов подпадающих под указанный пользователем фильтр.
  3. Граббер картинок с Яндекс.Картинки.
    Возможности граббера:

    • Многопоточная работа (количество потоков выставляется в конфигурационном файле)
    • Возможность ручной установки интервалов между запросами
    • Обработка вложенных картинок (”Еще с …”)
    • Жесткий контроль имен файлов и переименование “на лету”
    • Также в разработке есть очень простой контроллер процесса выполнения. Он вам пригодится, если Яндекс подумает, что вы робот и вам потом не захочется начинать сбор информации сначала. Для самых требовательных клиентов данный контроллер может быть переписан (за отдельную плату) с использование автоматизированной библиотеки контроля процесса выполнения, что поможет вам сэкономить время и силы при рестарте процесса граббинга картинок
    • Легкая сопровождаемость кода в результате использования открытой библиотеки MultiCurl

    Стоимость граббера Яндекс.Картинки: 25 $

  4. Парсер статистики запросов Яндекс.Директ
    Возможности парсера:

    • парсинг с аккаунта
      Процесс парсинга происходит после входа в аккаунт Яндекса, что позволяет парсить больше запросов
    • управление глубиной парсинга
      Есть возможность управлять глубиной парсинга как посредством указания максимального количества обрабатываемых страниц, так и путем указания минимального значения
    • количества показов в месяц.
    • управление интервалами между запросами
    • возможность сохранять число запросов
    • возможность генерировать результат парсинга в виде HTML документа
    • возможность генерировать результат парсинга в виде CSV (Excell) документа
    • возможность работы через прокси (как через открытые, так и через прокси, требующие авторизации)
    • управление форматом выдачи результат через конфигурационные файлы
      Выдача парсера может выглядеть и как «запрос;количество_кликов\n», так и как «запрос[количество_кликов]||…». Все это очень просто настраивается через конфиги. В результате чего вы можете подключить результаты парсинга к любому другому инструментарию.
    • интерактивная папка Inbox для удобной работы с результатами парсинга
      Ее вид вы можете увидеть на скриншоте парсера.
    • технология «Запуск с последнего запроса», которая позволяет в случае бана или обрыва связи запустить процесс парсинга не с самого начала, а с места его завершения

    Стоимость парсера статистики запросов Яндекс.Директ: 65 $

Финальные положения

Все данные, размещенные в данном разделе, были одобрены заказчиками. Для большей информации смотрите раздел Условия.