Проектная группа «Детская книга под прессом власти: количественный анализ советского кейса»
Руководитель: Маслинский К.А.
Этот проект — часть большой работы по созданию Корпуса русской прозы для детей и юношества XX—XXI вв ДетКорпус. Цель проекта — создание и анализ полного датасета по динамике советского книгоиздания для детей. Можно сказать, что миссия проекта — это превращение больших данных доцифровой эпохи (шутка ли — указатель, напечатанный в 18 томах с более 70 тыс. записей) в машиночитаемые цифровые данные.
Чему учиться на проекте?
В этих данных много интересных для социологии граней. Экономика — тиражи, объемы, цены. Престиж и структура литературного поля — формирование и поддержание канона, переиздания. Идентичность и национализм — издание отечественных, национальных и зарубежных авторов. Наука и общество — отражение научных областей и тем в научно-популярной и художественной литературе для детей.
В процессе создания важных для науки больших данных здесь можно попутно научиться правильно оформлять списки литературы в научной статье и дипломной работе. Писать, и, что не менее важно, — читать и понимать сложные регулярные выражения. Познакомиться с алгоритмическими подходами к извлечению структурированных данных из неструктурированного текста, и наконец, потренироваться в анализе данных, в том числе в части моделирования временных рядов.
Чего ждать?
У нас периодически будут общие проектные встречи (особенно для знакомства и подведения итогов), а также группа в телеграме для рабочей коммуникации. Ну и, конечно, репозиторий на гитхабе для сохранения результатов и обмена данными.
Этот проект для тех, кто любит порядок в данных и любит его наводить. А еще для тех, кто любит извлекать структуру из видимого хаоса. А еще для тех, кто не любит делать механическую работу и норовит что-нибудь автоматизировать при помощи регулярных выражений.
Эксклюзив: больше вы нигде не увидите таких длинных и сложных (работающих!) регулярных выражений :)
О результатах
У нас есть публикация в соавторстве со студентами, которые работали над проектами по ДетКорпусу, в профильном журнале по детской литературе «Детские чтения», а также постерный доклад на главной международной конференции по Digital humanities — ADHO2019 (Утрехт).