Старый/ Критические исследования данных-2. Датафикация и данные в процессах.

онлайн-занятие 2.

/ данные в разных процессах и организациях
/ датафикация (piu)
/ примеры данных в разных организациях и областях жизни (piu)
/ где ещё возможна датафикация (piu)

/ данные в разных процессах и организациях

Общественный и критический интерес к данным происходит во многом из-за того, что они сегодня везде. В образовании (от детских садов до докторантур), в науке и медицине, госуправлении и управлении семейным бюджетом, оценке своего состояния и работе сценаристов.

Везде есть что-то, что мы можем назвать данными. Неправильно было бы думать, что это явление, возникшее в наши дни. Скорее сегодня мы научились называть эти, порой разнообразные вещи, одним словом. В недавнем прошлом этого не было, и например, изучая мнения людей о книгах, издательства не говорили, что опираются на «данные». Само это слово сообщает процессам как будто объективный характер и связь с наукой, способами измерения и фиксации реальности (которая как бы дана, если мы говорим о том, что у нас есть данные).

Конечно, это неспроста: многие процессы (ещё давно) выстраивались так, чтобы опираться на всё более широкие и объективные показатели. И понятие «данных» оказывалось экспансивно. И сейчас всё новые и новые области жизни становятся исчисляемыми и доступными для того, чтобы их можно было зафиксировать и измерить. Как устроена эта тенденция?

В первую очередь, появляется всё больше показателей и систем, которые позволяют разнообразные процессы унифицировать соотносить друг с другом.

Например, скорее всего мало кто из вас застал школьное сочинение как способ оценки знаний по литературе и русскому языку. Сейчас его почти полностью вытеснили тесты, хотя ещё лет десять назад сочинение использовалось на разных этапах образования. Но оценить сочинение очень сложно: оно с трудом поддаётся унификации.

Ещё один пример — учёт рабочего времени. В некоторых крупных международных компаниях есть практика биллинга, когда работнику необходимо указать, на какое задание и сколько времени он потратил. Или учёт количества кликов на баннеры. Замечу, что в интернете не всегда были баннеры со счётчиками и появление именно такой системы учёта — тоже результат сразу нескольких процессов.

Итак, почему данные внедряются везде?

а самые разные явления мы начинаем изучать так, что они становятся данными?

Наука

Большая часть нашей жизни объясняется научными обоснованиями. Современная основная тенденция науки (STEM, естественно-научные подходы) основана на использовании сложных и рациональных моделей, объясняющих устройство всего на свете. Моделирование и существующий подход к рациональности связаны с математикой, физикой, химией, биологией в их современном состоянии. Для работы этих дисциплин необходимо измерение окружающего нас мира и нас самих в цифрах.

А как иначе? Можно посмотреть на те более религиозные картины мира, где часть явлений не могла быть соизмерена друг с другом. При таком мировоззрении невозможно было бы изобрести и тем более внедрить «индекс человеческого развития». Ещё понятия могут объединяться не по причинно-следственным связям, а по ассоциативным, поэтому таблицы корреляций в таком случае выглядели бы иначе, ближе к тому, как составляются гороскопы.

Прикладное знание

Да, само познание в европейской культуре довольно тесно связано с рационализацией и распространением цифр. С помощью количественных показателей мы считаем время и оцениваем расстояния, понимаем различие и сходство. А вот близость показателей и реальности — это предмет научных исследований со времён египетских пирамид или Архимеда и до наших дней. Кажется, сами вещи, сделанные инженерами, хранят в себе научную рациональность.

А как иначе? Можно обратиться к нашему бытовому опыту взаимодействия с вещами, когда мы скорее склонны, наоборот, не рационализировать вещи, а систематизировать свою практику. Так люди продолжают чинить старую технику, чтобы не выбрасывать, относятся к ней как к другу или, наоборот, обижаются.

Экономика

Экономика сегодня считается в большинстве крупных стран рыночной и капиталистической (полностью или частично). Такая экономическая модель предполагает, что ценность явлений соотносится с их стоимостью и может быть на рынке, быть измерена.
Мы измеряем сейчас не только цену материальных объектов, но во многом и даже чаще — нематериальных, на этом основана стоимость брендов, а отчасти — и биржевые показатели.

А как иначе? Иначе может быть в нерыночных системах или системах, где ценность не связана с выгодой, понимаемой капиталистическим образом. Например, в отношениях, где существует дарообмен, скажем, в семье.

Политика

Политические режимы стремятся представить существующий и поддерживаемый ими порядок вещей как естественный и необходимый. Для доказательства они используют количественные показатели: от статистики смертности и рождаемости до статистики использования транспортных систем. К данным прибегают как демократические, так и недемократические режимы, но различия в том, как это происходит, несомненно, есть.

А как иначе? Иначе бывает часто — политики пользуются языком ценностей, а рейтинг может быть менее значимым, чем умение мобилизовать людей.
В конце концов, в очень многих странах существуют монархии и меняются режимы, порой вовсе не под воздействием показателей, хотя пост фактум это объясняется ими.

В частной жизни

В частной жизни мы ориентируемся на количественные показатели с детства: оценки в школе, вес и рост — всё это позволяет нам узнать о себе и соотнести себя с миром. А сейчас у нас есть множество устройств, позволяющие фиксировать о нас самих разнообразную информацию – пульс, уровень гемоглобинов в крови, частоту сердцебиения, потребляемую пищу и многое другое (это часто называют лайфлоггингом). Исследователи говорят об этом феномене в контексте долгой истории практик селф-трекинга.
А еще есть целое сообщество Quantified Self, которые стремятся лучше понять себя через собираемые данные: https://quantifiedself.com + см (Crawford et l, 2015)

А как иначе? Пока у нас много составляющих себя, которые мы не квантифицируем, правда? Описание быта, чувств, обычной жизни, которая несопоставима с чем-то другим, есть в дневниках и простых разговорах о том, как проходит день Этой теме будет посвящено наше первое задание.

и сам материальный мир!

Сам материальный мир, сделанный человеком, часто основан на работах инженеров и архитекторов, а они, в свою очередь, создают реальность сначала на бумаге, а потом — переносят IRL.

А как иначе? Конечно, большАя часть мира — это что-то отдельное от показателей, моделей и сопоставлений. Если мы просто описываем или, скажем, фотографируем город, университет, рабочее место или даже делаем скриншот текстов, с которыми работаем — это вовсе не данные. И нам скорее нужно отдельно напрягаться, чтобы увидеть мир повседневности как часть данных.

Все эти и другие обоснования показывают, что появление данных в разных процессах — это объяснимое, но вовсе не неизбежное явление. Критические исследования данных как раз проблематизируют то, как устроены данные в разных сферах, рассматривают их не как «данность», а как гибкое, социально, культурно и исторически изменчивое явление. Также сама приставка "критический" отсылает к долгой и разносторонней традиции критической теории в социальных науках и философии – это не только попытка понять, как же все устроено с взаимоотношениями между данными и обществом, но и программа размышлений и действий, желающая с помощью знания о мире изменить его.

Вопросы

Что вы думаете о проникновении данных в разные сферы. Наблюдали ли вы, что в какой-то сфере данных не было, а потом они появились? А наоборот? Почему, по-вашему, так произошло? Какие у этого плюсы и минусы?

Пожалуйста, напишите здесь примеры таких изменений — в какой сфере жизни или профессиональной деятельности не было данных — и как они появились. Можно продолжить материалы из таблицы, которую вы заполняли в прошлой тильде.

/ датафикация

И хотя показатели и реальность были в нашей жизни всегда или по крайней мере, очень давно, разговор о данных, который мы с вами имеем в виду, — явление относительно новое. Но теоретики датафикации считают, что сегодня — особенный период.

Вот в этой статье подробно описано, что это такое. Кстати, авторы говорят о датафикации как отдельном процессе, противопоставляя его тому процессу, что происходил искони. Rather, datafication is a contemporary phenomenon which refers to the quantification of human life through digital information, very often for economic value. Во главу угла они ставят тему экономики и баланса власти. Говоря об уникальности современного момента, авторы подчеркивают, что большие данные делают возможным сбор и анализ информации в реальном времени, что ранее было невозможно.

Из чего состоит датафикация, согласно Колдри и Мехиасу? The production of data cannot be separated from two essential elements: the external infrastructure via which it is collected, processed and stored, and the processes of value generation, which include monetisation but also means of state control, cultural production, civic empowerment, etc.

Про производство данных мы с вами говорили в прошлый раз, а сейчас важно обратить внимание на идею производства ценности. В этом, конечно, есть политический смысл. Принято считать, что критические исследования данных исключительно критичны (в смысле негативно настроены) по отношению к датафикации, хотя это не всегда так. И всё же стоит понять, в чём причина такого отношения.

И можно почитать более подробно об этом в интервью, которое Дмитрий брал у Мехиаса. Но мы ещё будем с вами возвращаться к теме власти. Я приведу цитату, которая, как кажется, объясняет позицию Мехиаса и название его работы:

Нам интереснее смотреть на историческую преемственность, поэтому, когда мы говорим о колониализме данных, мы фокусируемся на его функции, которой является лишение (dispossession). Именно это позволяет поместить наш анализ в контекст пятисот лет лишений, вызванных колониализмом.

Очень часто, когда я говорю об этом со своими студентами, они думают о колониализме как о чем-то, что уже закончилось, как о том, что исчезло до начала капитализма. Если мы думаем о колониализме как, например, о чем-то связанном с плантацией, мы рассуждаем: «Ладно, плантации были, рабство было, потом всё закончилось, и тогда у нас появился более просвещенный способ производства, называемый капитализмом. Да, эксплуатация всё еще существует, но, по крайней мере, не всё так плохо, как рабство и колониализм». Но дело в том, что плантации и фабрики долгое время сосуществовали, а плантации финансировали фабрики. У нас не было бы капитализма без колониализма.

Капитализм был бы невозможен без материальных благ, которые некоторые страны получили в результате колониализма. Когда мы думаем об этом пересечении, важно хотя бы предположить, что нечто подобное происходит прямо сейчас. Извлечение пользовательских данных не регулируется, оно осуществляется без нашего согласия и является определенным видом насилия. Это не физическое насилие, а акт извлечения и создания лишений.

Происходящее сейчас может стать основанием новой модели капитализма, если мы не будем осторожны. Если ничего не делать, то колониализм данных может заложить основу для нового капитализма, как это сделал колониализм для индустриального капитализма.

Некоторые люди говорят: «А справедливо ли использовать в этом контексте термин „колониализм"? При колониализме погибло множество людей и окружающая среда сильно пострадала, а то, что происходит сейчас, не так уж и плохо. Как это можно назвать колониализмом?» Но разве мы должны прекратить говорить о неофашизме потому, что сам фашизм уже закончился? Да, неофашизм, может быть, и не настолько опасен, но это не значит, что мы не должны использовать это понятие и видеть преемственность. И поэтому я также считаю, что мы должны рассматривать эти новые формы колониализма как продолжение предыдущих и относиться к ним серьезно.

Вопрос

Что вы думаете о взглядах Мехиаса? Находите ли вы сравнение с колониализмом понятным и близким для России? Близко ли вам сравнение, которое он приводит, говоря о том, как компании берут данные у пользователей?

Вот здесь можно написать об этом.

Конечно, есть и другие взгляды на этот процесс. Например, о том, как датафикация позволяет делать открытия и совершать научные прорывы. Об этом можно написать в этом же файле.

Посмотрите внимательно. На этой схеме — разные источники данных и связи между конкретными операциями, которые происходят при «цифровой трансформации» Почты России. Чего здесь только нет! Почтальоны со смартфонами, электронный документооборот, регистрация посылок. И старые, существовавшие в любой почтовой системе статистические данные, и новые — всё оказывается связано при организации процессов. Во многих сферах мы даже не представляем себе, как выглядят такие схемы .

(тут можно вспомнить разговор о камерах в метро, который был на самом первом, офлайновом занятии + картинку)

/ примеры данных в разных организациях и областях жизни

Данные почти никогда не собираются с нуля. Обычно изменяются в сторону большего приращения данных те процессы, которые уже основаны на каких-то систематизированных знаниях.
Например, знание обо всём обществе, населении России — оно существует благодаря очень старой процедуре переписи, а следы переписей мы находим даже на берестяных грамотах и глиняных табличках!
А сейчас мы видим, например, в этой заметке, что возникают предложения использовать для переписи населения не стандартные обходы с переписными листами, а большие данные. Среди прочего там указывается, что это позволит также учитывать миграционные потоки. И, действительно, у сотовых операторов сейчас имеется достаточно информации о нас, чтобы это реализовать.
Но смена способа регистрации данных не так проста. Не стоит забывать, что использование онлайн-данных остаётся объектом критики и обсуждений, в том числе, со стороны профессиональных социологов. Помимо репрезентативности и возможности фальсификации (проблемы, существующие и в офлайне), у исследователей возникают новые беспокойства: возможно ли контролировать сбор данных с помощью тех же средств, которые использовались для офлайновых данных.

Интересно! Получается, одни и те же явления могут собираться с помощью разных данных, и они будут по-разному контролироваться (тут можно вспомнить наши разговоры на предыдущем занятии).

Конечно, все эти темы обсуждают, и немало, но часто решения внедряются до больших обсуждений, и мы обсуждаем скорее их последствия. Но в разных сферах внедрение data-based решений происходит неспешно, но решительно, например, в правовой системе. Именно она является предметом больших споров: ведь то, как будут квалифицироваться разные действия, сейчас решают люди, рассматривая разные дела вручную. И это порой вызывает немало нареканий. Во многих случаях работа алгоритмизированных сборщиков информации о правонарушениях (например, автоматы, фиксирующие неправильную парковку) тоже вызывают нарекания.

Так, в прошлом году была новость о том, что эксперты из Сколково предлагают использовать основанные на больших данных решения для создания законодательных изменений, а также – законодательно определить понятие «цифрового следа». Сейчас все больше и больше думают о том, как разные способы автоматизированного анализа могут быть использованы при анализе больших массивов правовых актов и судебных решений, а многие компании уже применяют подобные системы. Подробнее об этом см.: Devins, C., Felin, T., Kauffman, S., & Koppl, R. (2017). The law and big data. Cornell JL & Public Policy, 27, 357.

Значит, при изменении источников информации, могут измениться и процессы управления сами по себе. Например, исследователи РАНХиГС объясняют, что это связано с переходом государственных служб к тому, чтобы действовать как платформы, а не руководствоваться старомодными принципами управления. Даже на организационном уровне это значит серьёзное переустройство: всё больше власти отходит тем, кто создаёт такие платформы, например, на уровне госуправления это Минкомсвязь (почитайте, по ссылке интересное интервью о суперсервисах).

Вопрос

Что вы думаете о таких начинаниях? Почему вы доверяете или не доверяете им как пользователь? Отличается ли тут ваша пользовательская и гражданская позиция? Отличается ли, с вашей точки зрения, бизнес и государство здесь как агенты датафикации?

Обсудить эту тему я предлагаю в чате и на занятиях, так как она кажется объёмной и широкой, и в файле может не хватить места для всех ваших идей. Но вы можете наметить те вопросы, которые вам представляются важными для обсуждения тут, в коллективном конспекте.

Отдельная и непростая тема — внедрение данных в те области жизни, которые раньше считались неоцифровываемыми и не квантифицируемыми. Например, в личные и сексуальные отношения. Самый простой пример здесь — развитие алгоритмов в дейтингах. На первый взгляд вполне удобная идея: вам показывают только тех, кто подойдёт для отношений. Но есть немало проблем с тем, что знает о вас алгоритм, а что — вы сами хотите рассказать. Например ««На сайтах знакомств люди скорее покажут себя в более выгодном свете, то есть, нереалистично, — утверждает Крис Данфорт, профессор математических, естественных и технических наук из Университета Вермонта, который изучает закономерности между постами в Instagram, Twitter и депрессией. — Но каждый раз, получая результаты подобных исследований, мы понимаем, что рассказываем о себе гораздо больше, чем осознаем. Может быть, мы умалчиваем о наших предпочтениях, заполняя анкеты, но наши поступки говорят о многом. По лайкам на Facebook можно точнее определить, поладят ли люди между собой, чем по опросникам».»
Получается, такие начинания могут привести к тому, что мы делегируем знание о себе алгоритму, который знает лучше нас, с кем нам стоит создавать отношения. Не будет ли это чем-то вроде возвращения свах из прошлого?

И кстати, это вовсе не вчера возникшее явление, вы можете почитать о том, как разные сервисы пытались алгоритмизировать поиск партнёров, и как смотрят на это исследователи, вооружившись оптикой Мишеля Фуко (спойлер — критично).

Введение новых алгоритмов тревожит нас и заставляет смотреть на себя как на объектов, чьи данные собираются для каких-то целей.

Очень важно, глядя на такие проекты, не упрощать, как это часто делают авторы алармистских статей, говоря, что если данные в руках у «хороших парней», то всё отлично, а вот если они попадут к авторитарном диктатору, всё плохо. В самих инструментах сбора и отбора данных уже заложены какие-то параметры, и они являются следствием той идеологии, которая есть в обществе. Простой пример — в США обязательный параметр всех анкет — указание расы. В России мы с этим почти никогда не сталкиваемся. Более того, на протяжении последних десятилетий изменилось отношение к тому, что является национальностью. Из паспортов убрали 5 графу (национальность), которая часто оказывалась критически важной в СССР. Например, зафиксированная национальность коренного народа республики давала право пройти по квоте в управление разными организациями или стать студентом. Но бывало и наоборот — и для казахов или литовцев, и например, для евреев, которые нередко терпели дискриминацию по национальному признаку. Но раса и национальность — совсем разные основания для сбора данных. И соответственно, для идентичности. Одно дело, когда человек соотносит себя с историей народа (например, казахов), другое — монголоидной, «небелой» расы. В России, несмотря на её сложную историю в колониальном контексте, национальность оказывалась важнее.

Контекст

А для тех, кому интересно было бы подумать о постсоветском контексте с точки зрения его колониальной истории, журнал "Новое литературное обозрение" недавно выпустил номер "Постсоветское как постколониальное".

Тем более сложно бывает разобраться в том, что считается «плохим и хорошим». Для примера — история с социальным кредитом. Большинство западных медиа пишут о ней как о чём-то чудовищном, и мы почти не слышим мнения китайцев и тех, кто живёт с этой системой. Но всё же есть и другие взгляды, в том числе западных исследователей.

В этой заметке антрополог объясняет, что для китайцев социальный кредит — это часть системы доверия и одновременно — символ европейского и рационального подхода к отношениям (также можно вспомнить пример Алины про Израиль, который мы обсуждали на прошлом занятии).

/ где ещё возможна датафикация

Однако датафикация – не просто нейтральный процесс последовательного превращения реальности в данные, скорее он тесно связан с отношениями власти как набором решений относительно того, что должно быть учтено, а что – нет. Давайте посмотрим здесь на два примера.

С одной стороны, проект художницы Мими Онуоха, исследующий вопросы власти в процессе сбора данных. Когда проект где-то представлен, он выглядит как тумбочка с карточками, на которых написано название еще не существующего датасета (картинки внизу). Также у проекта есть репозиторий на github. Своим простым, но, как мне кажется, сильным проектом Онуоха пытается обратить наше внимание на то, что несмотря на огромное количество данных, собираемых ежедневно, мы все еще находимся в ситуации, в которой множество важных данных до сих пор не собрано. Почему так происходит? На сайте проекта на github она приводит 4 причины, ниже сокращенный перевод этих причин.

1. Те, у кого есть ресурсы для сбора данных, не заинтересованы в этом (соответственно, зачастую те, кто имеет доступ к набору данных, это те же, кто имеют возможность удалить, скрыть или сделать его неясными).

2. Собираемые данные сопротивляются простой квантификации (соответственно, мы приоритезируем сбор данных, которые удобнее собирать).

3. Акт сбора данных требует большей работы, чем представляется возможная польза от них.

4. Отсутствие cбора определенных данных кому-то выгодно.

Тем самым Онуоха пытается обратить наше внимание на проблематичность самого акта сбора данных, его связь существующими социальными иерархиями и структурами.

А с другой стороны сейчас много интересного происходит вокруг приложений, которые пытаются трансформировать привычный опыт использования социальных медиа. Так, есть плагин Facebook Demetricator, который позволяет убирать метрики (количество лайков/комментариев) на Фейсбуке. Его создал художник и программист Бен Гроссер, идея которого заключается в том, что Фейсбук как интерфейс постоянно превращает все показатели в количественные метрики, заставляя нас оценивать наши посты, фотографии и друзей в терминах цифр. Demetricator убирает все метрики из интерфейса, как бы призывая нас взглянуть на на количество людей, которые лайкнули, а на более качественное измерение — кто были эти люди? В этом интервью Бен подробнее рассказывает о своей идее, принципах работы приложения и мотивах создания работы.

Что эти два проекта говорят нам о датафикации? Кажется, что они демонстрируют часть широкого набора стратегий, с помощью которого акторы соотносятся с данными в социальной жизни. Это как и осмысление датафикации как процесса, связанного с властными отношениями, что мы видим в арт-проекте Онуоха, так и попытка отказа от опыта постоянного столкновения с цифрами в пользовательском опыте у Facebook Demetricator.

Вопросы

Давайте попробуем придумать, где ещё возможно использование данных? Какие последствия оно может иметь? И наоборот, давайте представим, что из той сферы, где они сейчас используются, данные уйдут?

Отличный повод вернуться к первому документу занятия.

Ссылки

Van Dijck, J. (2014). Datafication, dataism and dataveillance: Big Data between scientific paradigm and ideology. Surveillance & Society, 12(2), 197-208.

Baack, S. (2015). Datafication and empowerment: How the open data movement re-articulates notions of democracy, participation, and journalism. Big Data & Society, 2(2), 2053951715594634.

Crawford, K., Lingel, J., & Karppi, T. (2015). Our metrics, ourselves: A hundred years of self-tracking from the weight scale to the wrist wearable device. European Journal of Cultural Studies, 18(4-5), 479-496.

Devins, C., Felin, T., Kauffman, S., & Koppl, R. (2017). The law and big data. Cornell JL & Public Policy, 27, 357.