4 шага к правильному сбору и обработке информации
Данная статья призвана помочь начинающим программистам (или даже их менеджерам), которые всерьез решили заняться сбором и обработкой информации.
Для работы над любым удачным проектом по сбору и обработке информации нужно:
- Определить все значимые параметры собираемой информации.
Это очень важный этап, который все непонятно почему пытаются пройти как можно быстрее (наверное хотят побыстрее заработать).
Пример.
Заказчик попросил вас собрать базу компаний и вы без особых размышлений кинулись в бой.
Но тут не стоит спешить. Надо уточнить:- по какому региональному признаку отбирать компании?
- каким видом деятельности должны заниматься отбираемые компании?
- какой юридической формы собственности надо отбирать предприятия?
Нужно собрать как можно больше значимых признаков.
Тут я привел очень простой пример, но на практике даже небольшое уточнение поможет сделать вашу работу быстрее и лучше.
- Найти источник информации
На данном этапе следует произвести детальный поиск источника (источников) информации, который максимально удовлетворил бы всем значимым параметрам, которые вы определили в пункте 1. И поверьте мне, это не так уж и просто, как может показаться на первый взгляд. Поэтому я советую вам не концентрироваться на поиске какого-то одного идеального источника, а составить какую-то небольшую таблицу вариантов, из которых вы потом сможете выбрать самый лучший. - Определить форму представления информации
Если вам надо собирать все подряд и как попало, то этот этап вы можете смело откинуть.
В противном случае стоит определить какие параметры вам стоит собирать, а какие не стоит.
Например, очень часто у меня появляются заказы на сбор базы данных людей. Например, IT специалистов. Источником для такой информации выступают сайты поиска работы и профессиональные сайты. Но на том же сайте поиска работы в IT специалисты попадают даже наборщики текстов, которые, понятное дело, не нужны моему заказчику. Поэтому на основе данных, полученных в пункте 1, я составляю список совпадений и исключений, который и использую при сборе и анализе информации. - Выбрать средства для сбора информации
Для меня это очень просто – настроил парсер (хотя мне больше нравится слово паук) и в бой.
А если у вас нет соответствующих навыков, то вы можете заказать подобную услугу у профессионалов, либо прибегнуть к каким-то программным средствам, которые уже далеко не редкость.Тут главное подобрать что-то достаточно гибкое и быстрое. Скорости стоит уделить особое внимание, потому что порой приходится собирать базы в миллионы записей и промедления даже в доли секунды на таких объемах будут значимыми.
Вот и все. Надеюсь, что мне удалось дать вам понимание процесса качественного сбора и анализа информации.
Если у вас будут вопросы, заказы или предложения – свяжитесь со мной.
Удачи!

Оставить комментарий