Проектная группа «Первые шаги перед началом анализа: подготовка баз данных»
Социологи в Питерской Вышке, как известно, не просто социологи, но еще и информаты. Анализ данных появляется на втором курсе и преследует всех до конца обучения. Но за время работы с количественными данным, студенты чаще соприкасаются с уже готовыми, чистыми базами . И не догадываются, сколько усилий требуется, чтобы привести данные в удобоваримый формат.
Этот проект Веры Титковой, Даши Ходоренко и Валерии Иванюшиной помогает понять работу с базами данных от самого начала до самого конца. Его цель - научить студентов готовить данные для того, чтобы их можно было использовать для анализа.
Идея создания проекта возникла, когда сотрудники лаборатории, Вера Титкова, Даша Ходоренко и Валерия Иванюшина, готовились приступить к анализу трех волн опроса в Калужской области — массив в 27 000 заполненных анкет каждый год. Анкета самозаполнялась школьниками онлайн в классах информатики, без контроля исследователей, но с надзором учителей. В иных случаях исследователь находится тут же, и может проверить анкету после прохождения опроса, или подсказать что-либо, если возникает вопрос о заполнении. В условиях самозаполнения школьники могли проявлять безответственность, быть невнимательными или шутить вместо того, чтобы отвечать по делу. Для того, чтобы почистить базы от некачественно заполненных ответов, нужны были соответствующие методы. Но здесь сотрудники Лаборатории столкнулись с трудностью.
Среди известных инструментов чистки данных не нашлось подходящего. Для исследования нужно было что-то новое, обоснованное и еще более надежное. Тогда Вера и Даша взялись самостоятельно изучать методы чистки данных. Читали статьи, узнавали о методах, пробовали на данных и, наконец, добились результата. Знания, которые они извлекли, получились уникальными и достаточно ценными, чтобы поделиться ими с другими.
О том, что было и будет
«На проекте студенты изучают первые шаги подготовки баз данных, начиная с основ составления анкеты: какие бывают вопросы и как вопросы должны быть включены в анкету. Следующая тема — это то, как превратить анкету в базу данных. Затем студенты осваивают методы чистки данных. И это все на реальных исследованиях Лаборатории. Тренировочные материалы — это анкеты и базы Лаборатории. Студенты проверяют существующую базу данных методами, которые они освоят. Итоговая работа — это чистая база,” - рассказывает про группу Вера Титкова, одна из руководителей проекта.
В новом году студенты продолжат работать с существующими базами данных. Те, кто уже познакомились с инструментами чистки, будут писать обзоры и статьи для дальнейшейпубликации. Новоприбывшие студенты обучатся тому же, что “старички” узнали в прошлом году. Работа группы будет построена на обсуждении и взаимопомощи так, чтобы “новичкам” было проще понимать, а “старичкам” — проще писать статью. Дополнительные темы, которые будут изучать студенты всей группы — это тема миссингов и работа с социально-психологическими шкалами.
О том, почему проект важен
«Чистить данные — это один из пунктов. Мы хотим показать, что работа с данными — она не только в анализе. Важно сперва подготовить данные. Причем подготовка к анализу начинается с этапа составления анкеты. То, какие вопросы задавать, как их формулировать — все это должно основываться на понимании, что сделать с результатами. На этапе составлении анкеты исследователь уже думает о методах, которыми он будет это обрабатывать, о том, как это будет выглядеть в базе. И потом, когда данные собраны, надо проверить похожи ответы на правду или нет. Люди врут всегда, по разным основаниям. Есть технические сбои. Чтобы результаты были достоверны, надо заранее продумать, и после сбора данных все проверить,» — комментирует Даша Ходоренко, одна из руководителей проекта.
«Знания и навыки, которые студенты получают на проекте, абсолютно практические. Мы не проходим статистику как таковую: т-тесты, кросстабы и так далее. Если для чистки данных это необходимо сделать — мы сделаем. Но курс не про то. Он про практику — как сделать так, чтобы на базе можно было делать все, что захочется. И доверять тому, что сделал,» — добавляет Вера Титкова.
Навык подготовки баз данных может пригодиться как в прикладных маркетинговых исследованиях, так и в академической сфере. Инструменты чистки не всегда проходят на курсах статистики, и проектная группа может стать бонусом и дополнительным скиллом в работе с данными. А благодаря новизне знаний публикации на тему подготовки баз прибавляют в ценности.