Данные, знание, информация: как знания становятся структурой.

занятие:
  • Слушаем/ читаем/ обсуждаем материалы про объективность и знание.
  • Обсуждаем кейсы.
  • Играем в игру.
Когда мы говорим про количественные данные, они часто выглядят как таблички. Это неспроста. Таблица — вовсе не единственная форма представления пусть даже сходных элементов. Могут быть списки, mindmaps, картинки. Таблица, в отличие от них, однозначно упорядочена и показывает первичные связи и структуру. Она позволяет легко автоматизировать многие процессы сбора данных, освобождая нас от рутинных действий.

Действительно, если данные находятся в таблице, их не нужно классифицировать самим. Значит, работа по классификации (часто довольно скучная) отводится машине, а человеку остаётся творчество. Вроде бы это и хорошо?

Не споря с этим, заметим, что, во-первых, это делит работу на творческую и не очень (и в этом смысле наследует логике производства алгоритмов — где машины выполняют ту работу, которую раньше делали люди на малооплачиваемой работе, да и сейчас иногда делают).

Во-вторых, таблица освобождает исследователей заодно и от рефлексии — что именно разместить сюда, а что — туда. Исследователям остаётся только иметь дело с готовым материалом. Данные оказываются «чистыми» — не связанными с контекстом их производства.

Где могут быть несовпадения? Об этом, например, пишет Жаклин Вернимон в книге «Исчислимые жизни» — о количественных медиа, которые по-разному запечатлевали жизнь и смерть – это и таблицы смертности, и судовые декларации, и педометры, и селф-трекинг девайсы.

(рецензию на книгу на русском языке можно прочитать здесь)

Книгу она заканчивает пассажем о том, что, возможно, было бы лучше, если бы мы «могли вернуть данные телу». Текст цитаты — по телеграм-рассказу Дмитрия Муравьёва, полный пост — тут.

«As one small step in what must be a much larger effort, I would like close herewith a call to rematerialize data, to make it into something that one can touch, feel, own, give, share, and spend time with. We can leverage quantum mediation to make media with texture, sound, color, heft, weight, and length — media that grapple with the n-dimensionality of human experience.»

И, конечно, немало альтернатив есть в художнических проектах. Например, организация ART/DATA/HEALTH поддерживает именно такие проекты — те, что работают с данными, но не просто показывая их, а предъявляя их телесность. Например, проект Shielding о том, сколько женщин пострадали от домашнего насилия во время пандемии.
/ до начала производства

Этот рисунок Том Бёлсторфф использует, чтобы уточнить, что сырых данных не бывает, чтобы объяснить это, он использует схему Леви-Стросса, обычно относимую к еде. Стрелочки слева и сверху — это оси координат. По ним данные (как и еда) могут быть ближе к природе или к культуре (хотя сама эта дихотомия природы/культуры очень спорная, оставим её тут в таком виде), а также скорее "нормальными" или обработанными, трансформированными. В итоге данные делятся на сырые, приготовленные и гнилые.

Сырых данных не может быть, так как они всегда предзаданы способом сбора. А гнилые данные — это те, с которыми что-то пошло не так (например, изменился источник сбора данных, а таблица осталась прежней).

Подробнее об этом можно почитать в сборнике "Raw data is an oxymoron". Кстати, эта книга хороша тем, что в ней рассматриваются разные периоды из истории данных: есть глава и про астрономию, и про цифровые данные. И в каждом случае сбор данных и работа с ними, да и само это понятие, культурно и исторически обусловлены, а не универсальны.
/ как это происходит

  • исследователи задают те параметры / действия / события / объекты, которые будут фиксироваться. Фиксируются вовсе не все явления мира, а те, которые мы умеем различать и каталогизировать. В разные времена и в разных культурах это отличается. Помните пример про лес? Человек из города, приходя в лес, в основном видит там только ряды деревьев и кустов. А лесник видит огромное количество разнообразных растений, животных, хвощей и папоротников. И понимает, например, где дупло — это просто дупло, а где — жилище белочки, и что увидеть маленьких полосатых кабанчиков — плохой знак. Если параметры для сбора данных по лесу задаст лесник, это будут одни параметры, если лесозаготовитель — другие, продвинутый грибник — третьи, а горожанин — четвёртые.
  • дальше, нужно понять, как данные будут собираться, какими будут способы их регистрации, как они будут связаны с явлением и какая добродетель (virtue) будет лежать в их основе.

Про добродетель нужно пояснить. Это объяснение я возьму из замечательной книги «Объективность» Питера Галисона и Лорейн Дастон (если вы сейчас находитесь в центре, то это большая синяя книга на одной из нижних полок в библиотеке).

Они описывают, как формировалась идея «объективного» отражения природы в научных атласах. Ещё до XIX века учёным было очень важно, чтобы в изображении объекта (животного, органа, растения) соблюдалось соответствие идеалу. Это значит, что шероховатые, асимметричные образцы просто не принимались в расчёт. Они были тем, что сегодня иногда оказывается «мусором» и в работе с данными.
Природа запечатлевает себя. Автопечать листа, Alois Auer, «Die Entdeckung des Naturselbstdruckes», 1853).
Ил. 2.24. (с. 126-127)


В этом нефотографическом методе механического самоотображения объект, который необходимо было воспроизвести, зажимался между медной и свинцовой пластинами, пока не оставлял оттиск на мягком свинце, который впоследствии мог быть отпечатан, как это обычно делали с медной пластины. Изобретатель этого процесса Ауэр хвалился тем, что он знаменует собой третий великий момент в культурной истории человечества после изобретения письма и наборного шрифта Гуттенберга: это было «открытие того, как природа может печатать себя сама» (ibid., p. 107).

Архетипы высшего растения и насекомого
(Johann Wolfgang von Goethe)
Ил. 2.8. (с. 86)



Наброски, сделанные Гёте карандашом и чернилами, окружены его заметками о «трех органических системах» (чувствительной, подвижной и питательной) и их сущностных характеристиках. Гёте обнаруживает Typus Перворастения на всем протяжении растительного царства: «Моя уверенность, что открытая мною общая формула приложима ко всем растениям, только возрастает. С ее помощью я уже могу объяснить наиболее идиосинкратические формы, например страстоцвет, арум, и расположить их параллельно друг другу».

Воплощённые типы листа. Franz Bauer, Franz Bauer Nachlass.
Ил. 2.4. (с. 76)
Акварель.


Несмотря на очевидный натурализм этой акварели (выполненной, вероятно, около 1790 г.), изображенные листья являются линнеевскими типами, маркированные теми же именами, что и на ил. 2.3, например «почковидный», «сердцевидный» и «стреловидный», соответствующие номерам 9, 10 и 13 на схеме Линнея.


Ранние составители атласов не интерпретировали понятие истины-по-природе одинаковым образом. Слова типичный, идеальный, характерный или нормальный не являются синонимами, даже если они отсылают к одной и той же функции стандартизации. Этих альтернативных способов быть истинным-по-природе достаточно, чтобы показать: забота о соответствии не предполагает с необходимостью заботу об объективности.

С XVIII-XIX века ценной становится объективность — отображение явления таким, каким оно является нашему взгляду. Сначала этим занимались художники, потом всё большее значение имела фотография.

Со временем совершенствовались и возможности хранения, и технического запечатления мира. И важность именно такого подхода сыграла роль в становлении «репрезентативизма» — идеи о том, что данные отражают мир. Мы ещё вернёмся к ней (и к её критике) в следующих занятиях. А пока важно запомнить/ обратить внимание: нам стоит учитывать, что данные могут отличаться при использовании разных инструментов сбора и хранения и разных подходов к тому, что мы считаем достоверным.

Ещё в этом контексте важно учитывать пустоты в данных (data voids). Это материалы, которые не учитываются: нарочно или случайно. Часто обнаружение data voids становится основанием для дискуссии (по ссылке можно послушать такую).

Но чтобы всё это вообще считалось научным и обоснованным, должны работать эпистемические авторитеты. Например, чтобы статистика работала: убеждала и толкала на действия СМИ, граждан, политиков, чиновников — она должна быть понята этими группами определенным образом. Она должна приобрести особый авторитет за счёт того, что обращается к "убедительной" визуализации, находится "в нужное время в нужном месте", произведена авторитетной институцией, и так далее.

Это рассматривают Штрассхайм и Коринек на примере поведенческого управления (behavioral governance), разбирая, как знание из поведенческих наук используется в политическом управлении.

Если говорить ещё и о технически опосредованных данных, например, о том, что является «цифровыми следами» или материалами, собираемыми через камеры, то нам нужно учитывать и ограничения самих платформ/средств записи.

Например, со временем меняется и сама платформа, и режим доступа. В 2015 году было легко автоматически собрать данные по геотегам в инстаграме, а в 2022 это уже сложнее. Кроме того, с ними иногда другие данные соседствуют, ведь само приложение сильно изменилось.

Наконец, сами объекты исследований могут влиять на то, какие есть категории. Например, в статье Сергея Скобелева «Демография как политика. Коренное население Сибири в составе Российской империи и СССР: динамика численности как отражение политики центра» есть сюжет о том, что стоит учитывать изменение идентичности людей:

«В 70-е годы XVIII века насчитывалось 827 человек томских телеутов, а в 1858-м их осталось только 549 (падение более чем на треть), что объяснялось принятием ими ислама и причислением в отчетной документации к другой конфессиональной группе – томским татарам <...> В 90-е годы XX века наметились и обратные процессы. <...> Так, активисты национального движения телеутов добились в 1991 году разрешения сменить прежнюю запись в паспортах «татарин» на «телеут», и таким образом в список народов России был внесен новый этноним».

И ещё раз остановимся на разнице Data/Capta.

Базовая идея очень проста: любые данные — это не то, что нам дано (datum, лат.), а то, что мы берём (captum, лат). И не только. Джереми Хансингер предлагает в своей статье big capta другие варианты: acta, capta, cognata, communicata, sumpta, and inventa. Завершает тем, что капта — не идеальна, но лучше, чем дата. А идеальным ему представляется термин «сумпта» (значащие).

А у Роба Китчина есть статья, где он использует понятия капты вместо даты. Он объясняет это так:

1 capta (capta are units that have been selected and harvested from the sum of all potential data, where data are the total sum of facts in relation to an entity; in other words, with respect to a person, data is everything that it is possible to know about that person, capta is what is selectively captured through measurement)

2 captabases (a collection of capta stored as fields, typically within a tabular form, that can easily be accessed, managed, updated, queried, and analyzed; traditionally named a database, it has been renamed to recognize that it actually holds capta not data)
/ итак, краткий итог: откуда берутся данные

  • у нас должны быть системы различий: сырых, приготовленных, гнилых данных. хороших и плохих, чистых и грязных, с пустотами и без оных.
  • добродетели, которые оправдывают определённый вид сбора данных
  • за понятиями и методами должны стоять эпистемические авторитеты
  • технические возможности должны подходить способу сбора данных
  • источники данных не должны сопротивляться

Так у нас появляются данные! Или взятые?

И да, конечно, у нас должны быть институции, где всё это может происходить, а также специалисты, которые умеют собирать и анализировать данные. И процессы, к которым всё это можно применить!

Задание


Почитайте, пожалуйста, статью Джереми Хансингера.


Давайте в общем конспекте попробуем разобраться с тем, какие альтернативы понятию data он рассматривает и зачем?

/ обработка данных

И да, сами культуры работы с данными и алгоритмами, которые их «добывают» и «обрабатывают» тоже отличаются.

Пожалуй, общая (и самая проблемная) история здесь — это поиск закономерностей в том, что мы видим с помощью инструментов для представления данных. Кстати, это отдельная тема: как дата-аналитики работают с данными, почему и какие графики и таблицы используют, и как семиотика и материальность этих инструментов влияет на то, что в итоге получается. Например, почему предзадаётся равенство всех элементов таблиц, где собираются данные (то есть почему, грубо говоря, в Экселе все клеточки равны).

И проблемой это становится из-за того, что поиск закономерностей — это часто поиск причинности (каузальности). Видя устойчивые совпадения, мы невольно прочерчиваем между ними причинно-следственные отношения. Например, если мы видим, что люди идут под зонтами, мы знаем, что они делают это потому, что пошёл дождь. Но не наоборот.

Если с погодой и нашими действиями всё более или менее линейно, в социальной жизни такие прямые отношения причины и следствия — скорее редкость. Почему дети больше отвлекаются? Из-за планшетов или из-за того, что меняется стиль воспитания? Или стиль воспитания меняется ещё по какой-то причине? Или планшеты чаще используют родители, чтобы занять ребёнка надолго хоть чем-то?

Ещё несколько толковых примеров можно найти вот здесь. Иногда это соотносят с работой мозга, как в этих примерах. Иногда — с культурой и конкретными социальными и эпистемологическими условиями (этот подход мне в целом ближе, и я больше говорю о нём, но с точки зрения работы мозга тоже очень интересно). Но общий принцип очень важен: не путайте совпадения с причинностью!

(обратите внимание на график внизу, он показывает, что бывает, если всё же путать; много забавных и грустных примеров в этой подборке странных корреляций).

Есть и более тонкие особенности работы с методом и анализом. Например, Мэтью Джонс (Jones, 2018) пишет об интерпретативной, причинной и механистичной моделях работы с данными. Это примерно понятно из здравого смысла: можно выявлять причинно-следственные связи (но я предупреждала!), интерпретировать (очень по-разному), а ещё смотреть на модели как на простые тенденции/закономерности, которые можно использовать. Джонс тут опирается на идею Лео Брейнмана о статистике, которая мне кажется очень интересной. Брейнман (Leo Breiman) описал две культуры использования статистических моделей, которые существуют для того, чтобы делать выводы: одна предполагает более научный, а вторая — инженерный подход. Первая основана на том, что механизмы извлечения данных работают с понятной и однообразной реальностью, а сами усовершенствуются. Другая — что реальность изменчива, и механизмы обращения к ней тоже меняются.

Изучая историю науки, мы понимаем, что любой подход может измениться, а нам, чтобы в этом сориентироваться, важно понять общие закономерности (!) и предпосылки.

Но всё может измениться ещё сильнее. Неслучайно «большие данные» часто сравнивают с астрологией. Ведь и там и там в основе — обращение к множеству совпадений, из которых происходит понимание того, как надо действовать. Да и история исключения астрологии из числа наук — тёмное дело. Если вы хотите подумать про философские и исторические основания этого процесса, можно почитать Михаила Куртова. Или послушать его лекцию.

/ данные и представления о мире. визуализация

Если мы смотрим на графики о разной динамике одного явления, то это визуализация данных. И заметьте, она действует почти без слов: ее убедительность как будто бы происходит не из проясняющих комментариев, а данные представлены так, словно «говорят сами за себя». Особенно если сделана визуализация сделана впечатляюще.

Визуализация имеет значение. Вот здесь (= в видео ниже) вы можете посмотреть или послушать доклады на эту тему. Я советую вам послушать третий доклад, Хелен Кеннеди, но думаю, что, например, для студентов журналистики данных может быть интересным и первый докладчик. Мне кажется интересным мысль Хелен о том, что визуализация часто направлена на непрофессионалов, и визуализация настроена на то, чтобы воздействовать на людей. Поэтому многие приёмы при визуализации направлены именно на публичный эффект, а не какую-то другую ценность (например, развитие диалога или критического отношения).

/ а где же сами данные?

Наверняка вы задумались об этом, ведь мы собирались обсуждать их. А вот тут и пришло задание-вопрос.


Задание


В первую очередь он относится к тем, кто работает с данными регулярно. А именно, я прошу вас поместить кусочек (проще всего скриншот) ваших данных вот в этот файл.


Напишите, пожалуйста, здесь краткое пояснение: что именно это за данные, и из чего они состоят.

/ литература
  1. Strassheim, H., & Korinek, R.-L. (2016). Cultivating 'Nudge': Behavioural Governance in the UK. In Knowing governance (pp. 107–126). Springer.
  2. Hunsinger, J. (2020). Big Capta?. Second International Handbook of Internet Research, 767-784.
  3. Boellstorff, T. (2013). Making big data, in theory. First Monday, 18(10).
  4. Kitchin, R., & Dodge, M. (2014). Code/space: Software and everyday life. Mit Press
  5. Drucker, J. (2011). Humanities approaches to graphical display. Digital Humanities Quarterly, 5(1), 1-21.
  6. boyd, d. Crawford, K. (2012). "Critical Questions for Big Data: Provocations for a Cultural, Technological, and Scholarly Phenomenon." Information, Communication, & Society 15 (5): 662-679.
  7. Markham, A. N. (2020). Taking data literacy to the streets: critical pedagogy in the public sphere. Qualitative Inquiry, 26(2), 227-237.
  8. Markham, A. N. (2013). Undermining 'data': A critical examination of a core term in scientific inquiry. First Monday.
  9. Daniel Rosenberg (2013). Data before the fact, In: Lisa Gitelman (editor). 'Raw data' is an oxymoron. Cambridge, Mass.: MIT Press, pp. 15–40.
  10. Vis, F. (2013). A critical reflection on Big Data: Considering APIs, researchers and tools as data makers. First Monday.
Made on
Tilda