Что нужно сделать с данными в первую очередь

Вот данные попали вам в руки — что с ними делать, с чего начать и чем закончить? Вот примерная схема:

1. Очистка данных
Структурируйте и очистите данные. Рассмотрите и приведите в порядок все переменные.

2. Имейте чёткую цель
Для чего вам нужны данные и какую пользу/информацию вы хотите извлечь и как это применять?

3. Саммари и описательная статистика
Проведите общий описательный анализ данных, найдите средние, дисперсии, отклонения, чтобы лучше понять данные.

4. Разведочный анализ
Постройте графики, определите возможные тренды, найдите корреляции, кластеры.

5. Сделайте выводы, постройте прогнозы
Пришло время строить прогнозные модели и делать соответствующие выводы.

6. Подготовьте отчёт
Подготовьте понятный и точный отчёт о найденных закономерностях и извлечённых знаниях.

Что нужно сделать с данными в первую очередь. Смотреть фото Что нужно сделать с данными в первую очередь. Смотреть картинку Что нужно сделать с данными в первую очередь. Картинка про Что нужно сделать с данными в первую очередь. Фото Что нужно сделать с данными в первую очередь

Many times those starting with data science don’t know what to do with data once they have a dataset at hand. Where to start, which analysis to do, what to consider in the analysis and which tool to use are common questions not only posed by beginners.

First of all it is important to have a tidy dataset where each variable has its own column (if we deal with tabular data) and where each column has the same data type and its own name (meaning something about the values that it holds). There are great articles and tutorials about data tidying that will be referenced at the end of the article, since this is not our primary focus. In summary the data has to be well formatted and following a certain logic.

Once we have a clean dataset it is important to know what the data is about. We can have a medical dataset, but does it contain data about diseases, patient records, or pharmaceutical data about medicines? It is important to know a good deal about the data we have at hand. The more we know about the variables, the better.

After knowing the most we can about the data, we need to have a goal in mind. «What do I want to pull out of this dataset?» is a good question to ask ourselves. If we have a clear goal in mind, great! To predict one of its variables, to find some correlation between two variables or just summarize the data to make a report are examples of goals one can have in mind. If we don’t have a clear goal, it is a good idea to start with descriptive statistics taking the mean, mode, median, standard deviation and frequency of the data. It is a good idea to plot the variables we find most interesting to see if we can identify any visible trend. Just play around with data! Doing so becomes easier to formulate our «goal» for the analysis.

Maybe this is enough and we have already found what we were looking for. If reporting numbers of summarized data is the case, then we have already done a descriptive data analysis! But we can take a step further to «exploratory analysis» trying to squeeze some more juice out of the dataset.

An exploratory data analysis builds upon and complements a descriptive analysis. In this type of analysis we look for discoveries, patterns, trends, correlations among the variables. It is a good idea to plot some variables of interest, run a correlation function on some variables or classify the data into clusters. It is interesting to note that at this point we get a little more «acquainted» with the dataset and we can start to have some new insights. In a nutshell, this is what exploratory data analysis consists of.

With our findings we can make inferences or predictions using the data. We do inferential data analysis when we quantify whether our findings will likely hold beyond the dataset in hand. This is a very common statistical analysis in the formal scientific literature. An example can be the discoveries made back then about smoking being related to lung cancer. All started with some findings showing that people who used to smoke a lot also had lung cancer. Then researchers made inferences about it kick-starting a deeper study.

A predictive data analysis uses a subset of variables (independent variables) to predict another variable (the dependent variable). The most common techniques used in predictive analytics are linear regression and logistic regression. Some examples of this type of analysis are when organizations try to predict the total amount of phone calls their call center will receive in a given day, or when banks try to predict if a person will default. A more detailed example can be found in the book «Moneyball: The Art of Winning an Unfair Game» by Michael Lewis, where the author shows how predictive analytics helped a baseball team to win more games using, among other things, linear regression. This idea was such a success that changed many coaches approach to the sport.

So, basically the steps we need to take in order to start a sound data analysis are: first, to have a tidy dataset; second, to have a goal in mind (formulate what we want to extract from the data); third, do some descriptive analysis; fourth, do some exploratory analysis plotting variables to find correlations and trends and fifth, make inferences or predictions with the discoveries.

Regarding the tools to use, if we want to prepare the dataset getting variables from multiple tables or databases, SQL is very handy since the vast majority of relational databases uses it. After the dataset is ready descriptive analysis can be done in a spreadsheet software like MS Excel using the analysis tab. To do more advanced analysis we will need a more powerful tool like R, Python, Mathlab, SAS or WEKA. I prefer to use R or SAS even for descriptive analysis and use spreadsheet only for reporting. SAS is a great tool (the best in my humble opinion) but is not free. It actually has a limited free edition called SAS University Edition that is worth checking out to learn about the tool. R in the other hand is free and has many packages that make data analysis a lot easier. For most cases I think that R can answer any analyst´s demands. Python is a great programming language that has its popularity growing very fast among data scientists. With Python one can do data analysis and also do traditional programming (like a web page for instance). Mathlab is another powerful tool very popular in Machine Learning and complex math calculus. It has a free version called Octave. It is also a good idea to check it out. WEKA is a free software for data analysis developed in Java by the University of Waikato. It is part of the Pentaho Business Intelligence suite.

Like these there are so many tools, but these are the most widely used in the field. For the novice I think SQL, R or Python are the ones to go for. After knowing a good deal about them, one can move on to SAS, Mathlab, WEKA and so on.

Источник

«А поговорить?»: с чего начать работу с данными

Теории и практики

Допустим, вы — компания, накопившая множество потенциально полезных данных (ту самую «бигдату»). Можно обратиться к аналитику, чтобы он вытащил из них какой-нибудь полезный для бизнеса инсайт. Но вы ошибаетесь, если думаете, что для этого достаточно прогнать весь массив через волшебный алгоритм. Хороший аналитик сначала замучает вас вопросами о том, чего вы хотите (а вы поймете, что сами не знаете) и зачем (а вы поймете, что, может, и незачем). А если вы и есть тот самый аналитик, читайте о том, с чего начать работу с данными, в отрывке из книги Кирилла Еременко, предпринимателя и генерального директора образовательного онлайн-портала для аналитиков данных SuperDataScience.

Что нужно сделать с данными в первую очередь. Смотреть фото Что нужно сделать с данными в первую очередь. Смотреть картинку Что нужно сделать с данными в первую очередь. Картинка про Что нужно сделать с данными в первую очередь. Фото Что нужно сделать с данными в первую очередь

Работа с данными в любой сфере: Как выйти на новый уровень, используя аналитику

Кирилл Еременко
Альпина Паблишер. 2019

Смотри, мама, никаких данных!

Несмотря на всю важность, выявление проблемы, как правило, является наиболее часто игнорируемой частью проектов, использующих данные. Я и сам грешил этим, поскольку долгое время начинал проекты с подготовки данных. Но это было не потому, что хотел проскочить вперед; я просто думал, что постановки проблемы достаточно. В конце концов, аналитики данных часто привлекаются к работе над проблемами, и на моей первой работе в Deloitte все проекты начинались с технического задания, в котором уточнялось то, что от меня требуется, и указывалось, где нужна помощь. Неудивительно, что фирма стандартизировала и упорядочила процесс, но это только сформировало во мне плохую привычку бежать впереди паровоза, прежде чем представить себе целостную картину.

Еще одна причина пренебрежения определением вопроса заключается в том, что на этом этапе не используется много данных (если они вообще используются), в результате чего многие аналитики данных относятся немного снисходительно к выполнению этого этапа. Но важно отметить, что те, кто предложил вопрос, вероятно, не являются специалистами по данным и не знают о подготовке, необходимой для очистки и анализа данных. Немногие компании на сегодняшний день информируют своих сотрудников о важности хранения информации и обеспечения доступа к ней, и этот пробел в знаниях означает, что

у многих аналитиков данных все еще спрашивают: «У нас есть много данных, может быть, вы сформулируете какие-то идеи на их основе?»

Подобные вопросы задаются очень часто, хотя они туманны, расплывчаты и ничему не способствуют в процессе решения проблемы компании*.

Таким образом, даже если вопрос был сформулирован заранее и ваш босс спрашивает, почему вы не занимаетесь обработкой данных, не думайте о себе как о сумасброде. Изложите свои доводы. Просто предложить вопрос недостаточно — он должен быть переформулирован в терминах, которые будут соответствовать имеющимся данным, иначе реализация проекта застопорится.

Как решить такую проблему, как…

Задания, которые поступают от руководства организации или от инвесторов, часто постулируются как открытые пути к вопросу, а не реальный вопрос как таковой: «Мы недопоставляем единицы продукции», или «Наши клиенты покидают нас быстрее, чем ожидалось», или «В нашем продукте есть дефект». Ни одно из этих утверждений не является вопросом. Я призываю читателей применять следующий поэтапный подход к выявлению и решению проблемы на основе данных. Это сделает первый этап более эффективным и снизит риск того, что вы сосредоточитесь на неправильной проблеме.

1. Поймите проблему

Любой, кто планирует участвовать в проектах, связанных с данными, должен прежде всего знать о ловушке, в которую он может невольно попасть еще до того, как работа начнется: если последовать решению коллеги относительно того, какими вопросами следует заняться, можно фактически выбрать ошибочную проблему. Коллега может иметь благие намерения и пытаться быть более полезным, представляя разработанные им вопросы, но они необязательно будут пригодны для запроса, адресованного данным. Заманчиво, получив несколько, по-видимому, хорошо сформулированных запросов, не беспокоиться о том, чтобы идентифицировать вопрос самостоятельно. Но это может привести к катастрофе в дальнейшем процессе; именно от вас зависит определение всех параметров бизнес-проблемы, потому что вы обучены тому, как это сделать. Слепое заимствование набора вопросов у специалиста, не связанного с данными, и применение их к вашему проекту может увенчаться решением не той проблемы или просто не привести к результатам, потому что у вас нет для них необходимых данных.

Прежде чем начать непосредственно трудиться над проектом, в первую очередь нужно поговорить с человеком, который поставил перед нами проблему. Понимание не только того, что это за проблема, но и почему она должна быть решена сейчас, кто основные заинтересованные стороны и что ее решение будет означать для учреждения, поможет начать «отладку» нашего исследования. Без этого шага результат может оказаться опасным для аналитика данных, так как в дальнейшем по ходу проекта мы, несомненно, интерпретируем поставленный вопрос иначе, чем заинтересованные стороны. Как только мы разобрались с центральной проблемой, можно перейти ко второму шагу.

2. Изучить отрасль

Если у вас уже имеются знания о сфере, в которой вас просят работать, это отличное начало. Вы можете применить свой опыт. Вы, возможно, уже знаете, например, конкретные проблемы, с которыми обычно сталкиваются компании, работающие в этом секторе, или можете быть в курсе того, какие отделы, как правило, занимались этими вопросами успешно или тщетно либо какие конкурирующие компании обнаружили и решили именно те проблемы, которые были поставлены перед вами. Если у вас нет знаний об отрасли, не все потеряно. Потратьте некоторое время, исследуя ее более подробно. Каковы подводные камни в отрасли? Столкнулись ли конкуренты вашей компании с аналогичными проблемами или же есть существенные различия? Как они решали подобные проблемы? Миссия и цели компании, для которой вы работаете, существенны для отрасли как таковой? Чем эта компания отличается от других по объему производства, организационной структуре и рабочему процессу?

Google может быть вашим лучшим другом в поиске ответа на многие из этих вопросов, но также помните, что

как аналитик данных вы не работаете в вакууме. Детальное знание среды, где вы действуете, а также ее индивидуальных особенностей и ограничений поможет вам разработать подход, значимый для тех, кто так или иначе связан с проектом.

Не будьте отшельником. Если у вас пробелы в знаниях, используйте свой лучший ресурс — коллег. И даже если у вас есть вся необходимая информация, все равно пойдите и поговорите о том, что вы узнали, с соответствующими сотрудниками. Люди, которые вызвали ваш проект к жизни, всегда будут хорошей отправной точкой, чтобы убедиться, что вы говорите с теми, с кем нужно. Они не только помогут вам узнать недостающие сведения, но и направят к должностным лицам, ответственным за те участки в организации, где возникла проблема.

3. Думайте как консультант

Большинство согласится с тем, что наука о данных требует подхода «снизу вверх»: мы используем данные компании для проведения анализа и постепенно выстраиваем на них наши результаты, чтобы лучше понять внутренние проблемы компании. Этот потенциал данных и является тем, что делает первый шаг настолько захватывающим. Но для того, чтобы выявить вопрос, нужно обращать больше внимания на методы бизнес-консалтинга.

В консалтинге мы выделяем возможные стратегические подходы для бизнеса. В качестве консультантов, как правило, выступают люди, проработавшие в бизнесе или отрасли несколько лет и накопившие много знаний о соответствующем секторе. Они часто занимаются улучшением крупномасштабных стратегических и организационных аспектов компании, что требует нисходящего подхода, — и такая методология анализа общей картины обязывает делать определенные предположения о поставленной проблеме.

Для нас может показаться контрпродуктивным использовать консалтинговые методы; как аналитикам данных нам советуют стараться воздерживаться от предположений и использовать как можно больше достоверных данных. Но пример консультантов может быть чрезвычайно полезен, особенно на первом этапе процесса. Итак, забудьте на мгновение о своих технических знаниях и

посмотрите на организацию, участников проекта и стратегию компании, прежде чем начать размышлять о данных.

В конце концов, определение вопроса касается фильтрации имеющихся вариантов, и этот третий шаг поможет уточнить вопросы, чтобы они стали соответствовать потребностям нашей компании.

Составьте список ключевых участников проекта и особо отметьте, кто будет принимать окончательное решение. Проведите с ними некоторое время и не переходите к четвертому шагу, пока не сможете ответить на следующие вопросы:

Что каждый из участников проекта думает о проблеме?

Каковы грани этой проблемы?

Какие отделы должны быть в фокусе моего внимания?

В чем могут быть первопричины проблемы?

Считают ли участники, что я должен поговорить с еще? Я с ними разговаривал?

Где находятся данные и кто за них отвечает?

Что будет означать успех этого проекта?

4. Осознайте ограничения

Что делать, если после всей проделанной здесь работы мы обнаружим, что данных, которые мы расценили как необходимые для нашего исследования, нет?

Наиболее эффективный подход заключается в том, чтобы изучить высший уровень массива данных и понять, какие данные у нас на самом деле есть и необходим ли дополнительный сбор сведений, прежде чем проект сможет двигаться вперед. Опять же, это означает общение с правильными людьми — теми, кто отвечает за существующие данные компании. Благодаря такому общению мы сможем получить более полное представление о том, где в данных могут обнаружиться проблемы и где нам может понадобиться дополнительная информация, чтобы гарантировать статистическую значимость выбранных нами данных. Этот шаг немного напоминает дилемму курицы и яйца, ведь

мы должны знать, какие вопросы задать данным, прежде чем мы увидим эти базы данных.

Но мы также должны убедиться в том, что уже на ранней стадии имеем нужные данные, — иначе потеряем много времени, прежде чем приступим к следующему этапу процесса анализа данных.

Практика — лучший путь к освоению этого. Вспомните свои мысли о том, какие типы данных будут полезны для ответа на ваши вопросы. Напишите их рядом с вопросами и делайте отметки, чтобы понять, что вам нужно в каждой контрольной точке. На первом проекте это может напомнить одновременное жонглирование многими тарелками, но с опытом все станет намного проще.

Если вы работаете в компании, которая с течением времени накопила много данных, первоначальное выявление проблемы становится еще более важным делом. Я часто обнаруживал, что, хотя коллеги могут положительно воспринимать идею использования данных, они не вполне уверены, что данные могут им помочь. Это может относиться даже к людям, управляющим базами данных. И именно здесь многие компании делают неверный шаг.

По иронии судьбы из-за того, что так велико количество данных, имеющихся в распоряжении у компаний, последние перестают осознавать смысл и значение данных и, следовательно, преуменьшают их ценность.

Мы должны помочь им понять важность данных, и это путешествие начинается здесь.

5. Проведите майнинг данных (по желанию)

Глубинный анализ (майнинг) данных — возможно, самая приятная для меня часть процесса в любом проекте. То, что ученым не дают заниматься майнингом данных, немного похоже на запрет кураторам музеев изучать материалы, за которые они несут ответственность. Именно на этом этапе вы можете позволить себе быть исследователем. Для меня глубинный анализ данных — процесс, в котором вы выполняете тестирование с целью тщательного изучения данных на высшем уровне и находите области, которые могут предложить интересные идеи для дальнейшего исследования. На этом экспериментальном этапе мне нравится помещать данные в Tableau**, которое умеет их читать и поможет вам создать предварительные наглядные визуализации, такие как легко читаемые таблицы, диаграммы и графики. Это обеспечивает прекрасный задел, который вы можете использовать в качестве фокусирующей линзы, чтобы сформулировать нужные вопросы.

В конечном счете, если майнинг данных выполняется на начальном этапе проекта, он наиболее эффективно помогает лучше понять проблему и управлять процессом анализа. Это тест-драйв ваших данных: вы испытываете их в необработанном виде, чтобы увидеть, могут ли какие-либо тенденции проявиться даже на раннем этапе. Майнинг данных может сэкономить много усилий в дальнейшем. В то же время не унывайте, если он ни к чему не приведет. Данные могут предлагать или не предлагать нам дальнейшие действия или решения в зависимости от нескольких факторов, таких как компания, качество данных и уровень сложности проблемы. Итак, сделайте этот шаг, но не забывайте «делить на десять». И если вы найдете что-то интересное, запишите и убедитесь, что вы помните о своих находках, когда перейдете к шестому шагу…

6. Уточните проблему

Теперь, когда мы поняли масштаб проблемы и определили количество данных, имеющихся в нашем распоряжении, можно начать копать немного глубже. Здесь мы начинаем сопоставлять масштаб проекта с данными, чтобы отделить переменные и данные, которые будут полезны, от тех, которые не пригодятся, и чтобы надлежащим образом переформулировать вопрос.

Хотя все данные потенциально могут оказаться полезными, мы не можем использовать всю имеющуюся информацию по каждой проблеме, и это только к лучшему:

если бы все данные были полезны всегда, объем получаемой на выходе информации был бы просто слишком громоздким для управления. По этой причине мы можем быть разборчивыми по отношению к предоставленным данным. Это означает, что мы должны учесть параметры и контекст проблемы, которую хотим решить, прежде чем двигаться вперед. В конечном счете уточнение проблемы экономит время, устраняя данные, которые не имеют отношения к нашему вопросу.

7. Соберите дополнительные данные

На этом этапе вы уже определили, какие данные вам нужны, и составили разумный перечень вопросов для решения проблемы. Сейчас самое время оценить эффективность ваших подвопросов. В конце концов, просто не стоит отвечать на те вопросы, которые, как вы поняли, компанию не заинтересуют или по которым ничего не будет предпринято. Спросите себя сейчас: каковы ожидаемые результаты от этих подвопросов? Помогают ли они решить проблему или чего-то еще не хватает?

Именно здесь вы поблагодарите себя за то, что прошли предыдущие шесть шагов, достигнув этой точки; выделение ключевых областей, из которых вам нужны дополнительные данные, оптимизирует и, следовательно, ускорит процесс сбора данных. Составьте план, а затем отложите его в сторону; воздержитесь от сбора каких-либо данных вообще, пока вы не выполните восьмой шаг.

8. Проинформируйте заинтересованные стороны***

После того как мы приняли во внимание все предыдущие семь шагов, крайне необходимо, чтобы у нас, нашей команды и всех участников проекта было общее понимание ситуации. Четкая и ясная постановка проблемы, которую вы будете решать, обеспечит точный выбор подхода, и это уменьшит шансы других изменить ориентиры в процессе реализации проекта.

Сторона, обратившаяся с просьбой о выполнении проекта, должна согласиться с вашим планом решения проблемы, который в идеале должен включать в себя не только то, что касается содержания проекта, но и его временные рамки. Я настоятельно рекомендую разделить проект на этапы, что позволит всем вовлеченным лицам оставаться в курсе вашего продвижения вперед и защитит вас от любой негативной реакции в конце проекта и упреков в том, что вы скрывали свои намерения.

Также необходимо объяснить заинтересованным сторонам, что это не обычный бизнес-проект, что проекты в области науки о данных не всегда соответствуют моделям PRINCE2, которые столь знакомы и любимы бизнесом. Это поможет защитить вас от предвзятого вмешательства и даст возможность точно объяснить участникам, какие шаги вы собираетесь предпринять для выполнения задачи.

Что нужно сделать с данными в первую очередь. Смотреть фото Что нужно сделать с данными в первую очередь. Смотреть картинку Что нужно сделать с данными в первую очередь. Картинка про Что нужно сделать с данными в первую очередь. Фото Что нужно сделать с данными в первую очередь

Соблюдение графика

Этот этап процесса анализа данных не должен продолжаться чересчур долго в цикле проекта. Иногда новички могут потратить на него слишком много времени, потому что хотят убедиться, что они разработали надежную методологию. Помните: вы никогда не сможете прояснить проблему до такой степени, чтобы точно знать, чего хотите. Если вы проделали хорошую работу на этом этапе, то, скорее всего, сэкономите время, но вы также должны научиться позволять процессу идти своим чередом — это умение приходит с опытом.

Если вы будете последовательно выполнять шаги, описанные выше, это застрахует вас от дальнейших трудностей и поможет обрести уверенность для перехода к своевременной подготовке данных. В конечном счете, если задача, которую перед вами поставили, не является дьявольски сложной и не требует многочисленных согласований, выявление и уточнение проблемы должно занять максимум неделю. Но старайтесь по возможности не ставить других в известность о сроках, которые вы стремитесь соблюсти, — это только добавит давления на вас. Если для вашего комфорта и прогресса требуется еще несколько дней, тем лучше.

Моя рекомендация? Дайте себе достаточно времени, чтобы уложиться в срок. Гораздо лучше пообещать меньше и перевыполнить обещание, чем сделать обратное.

Полезно сначала определить, сколько дней, по вашему мнению, займет проект в целом, а затем добавить 20% к этому количеству.

Чаще всего на анализ данных времени не хватает. И если вы столкнетесь с препятствиями и подумаете, что не успеете завершить работу к дате, о которой вы изначально договорились, не забудьте предупредить заказчика — он должен узнать об этом как можно раньше. Информирование людей укрепит доверие между вами и другими участниками проекта и сделает их вашими единомышленниками. […]

В рубрике «Открытое чтение» мы публикуем отрывки из книг в том виде, в котором их предоставляют издатели. Незначительные сокращения обозначены многоточием в квадратных скобках. Мнение автора может не совпадать с мнением редакции.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *