4 шага к правильному сбору и обработке информации

Данная статья призвана помочь начинающим программистам (или даже их менеджерам), которые всерьез решили заняться сбором и обработкой информации.

Для работы над любым удачным проектом по сбору и обработке информации нужно:

  1. Определить все значимые параметры собираемой информации.
    Это очень важный этап, который все непонятно почему пытаются пройти как можно быстрее (наверное хотят побыстрее заработать).
    Пример.
    Заказчик попросил вас собрать базу компаний и вы без особых размышлений кинулись в бой.
    Но тут не стоит спешить. Надо уточнить:

    • по какому региональному признаку отбирать компании?
    • каким видом деятельности должны заниматься отбираемые компании?
    • какой юридической формы собственности надо отбирать предприятия?

    Нужно собрать как можно больше значимых признаков.

    Тут я привел очень простой пример, но на практике даже небольшое уточнение поможет сделать вашу работу быстрее и лучше.

  2. Найти источник информации
    На данном этапе следует произвести детальный поиск источника (источников) информации, который максимально удовлетворил бы всем значимым параметрам, которые вы определили в пункте 1. И поверьте мне, это не так уж и просто, как может показаться на первый взгляд. Поэтому я советую вам не концентрироваться на поиске какого-то одного идеального источника, а составить какую-то небольшую таблицу вариантов, из которых вы потом сможете выбрать самый лучший.
  3. Определить форму представления информации
    Если вам надо собирать все подряд и как попало, то этот этап вы можете смело откинуть.
    В противном случае стоит определить какие параметры вам стоит собирать, а какие не стоит.
    Например, очень часто у меня появляются заказы на сбор базы данных людей. Например, IT специалистов. Источником для такой информации выступают сайты поиска работы и профессиональные сайты. Но на том же сайте поиска работы в IT специалисты попадают даже наборщики текстов, которые, понятное дело, не нужны моему заказчику. Поэтому на основе данных, полученных в пункте 1, я составляю список совпадений и исключений, который и использую при сборе и анализе информации.
  4. Выбрать средства для сбора информации
    Для меня это очень просто – настроил парсер (хотя мне больше нравится слово паук) и в бой.
    А если у вас нет соответствующих навыков, то вы можете заказать подобную услугу у профессионалов, либо прибегнуть к каким-то программным средствам, которые уже далеко не редкость.Тут главное подобрать что-то достаточно гибкое и быстрое. Скорости стоит уделить особое внимание, потому что порой приходится собирать базы в миллионы записей и промедления даже в доли секунды на таких объемах будут значимыми.

Вот и все. Надеюсь, что мне удалось дать вам понимание процесса качественного сбора и анализа информации.

Если у вас будут вопросы, заказы или предложения – свяжитесь со мной.

Удачи!

Оставить комментарий