Данные и знание. Часть 1. Данные вокруг нас.

Данные вокруг нас. Изучаем себя в пространстве алгоритмов.

занятие:

Знакомимся с материалами первого занятия и слушаем лекцию.
Составляем карту алгоритмов и данных в своей жизни.

задание 1.1:
Доделать карту, прочитать тексты.

/ что такое данные?

данные — то, что дано?
данные — то, что взято? (capta)

/ как изучать данные?
На занятии мы с вами говорим о данных и как можно критически их исследовать (этнографически, исторически, философски). Попробуем разложить всё по полочкам.

Слово «данные» относится к самым разным контекстам, но означает в них нечто похожее — это то, что дано, известно о каком-то явлении и структурировано в соответствии со способом обращения исследователей к нему.

Данные о самочувствии, городском транспорте, продажах или политических настроениях россиян — собираются по-разному. Но их объединяет парадокс: а) максимальное соответствие объекту (данные — как бы сами сообщают о явлении), б) данные — не даны, а собраны, извлечены, систематизированы, представлены. Как это сочетается?

Это во многом проблема для изучения философии науки и техники, социологии знания. Мы доверяем данным, так как верим в объективность и экспертизу.

Данные стали центром дискуссий в академическом мире не только потому, что они — парадоксальны. В разных областях своей жизни мы оказываемся вовлечены в принятие решений, основанных на данных. Где переходить дорогу, какую иллюстрацию ставить к публикации, как планировать бюджет, что надевать на прогулку — это решения, которые могут быть основаны на ощущении, решительном плане, но также нередко — на данных. Данные считаются надёжными и близкими к тому, что мы называем реальностью. И они сами становятся частью понятного мира.

В курсе мы много значения будем уделять именно прикладной роли данных, но сначала разместим их в ряду других способов описания и узнавания мира, истории науки, политики, знания о себе и других.

Задание 1.1
Пожалуйста, подумайте о том, какие данные и алгоритмы существуют в вашей жизни, работе и/или сфере, которая вам понятна и интересна. Занесите в эту таблицу пример таких данных.

Это может быть пример из вашей частной жизни или из профессионального опыта. Внимательно прочтите названия столбцов: ваша задача — систематизировать свой пример и заполнять табличку по ходу чтения занятия. Но всю табличку заполнять необязательно.

Подумайте о том, какие данные и алгоритмы существуют в вашей жизни. Откуда они берутся? Кто их использует? В каких процессах и практиках они задействованы?

/ из чего состоят данные

Вообще, о производстве данных у нас будет целое занятие. Но пока — не о производстве, а о структуре.

Начнём мы не с того, откуда они берутся вообще, а с момента столкновения с данными. Это жизненная или рабочая ситуация, любая из описанных выше. Например, принятие решения о том, что надеть: собираясь на улицу, мы смотрим в телефоне, сколько градусов и идёт ли дождь (и опираемся на данные).

Мы можем высунуть нос на улицу, и тогда у нас будет ощущение.
Но нередко при сравнении мы поверим цифрам. Ведь у данных высокий эпистемический авторитет — мы доверяем им (иногда больше, чем ощущениям или другим источникам знания и переживания о мире).

Обращаясь к данным, мы имеем дело с их визуализацией или репрезентацией. Например, в случае погоды это облака или солнце, а также количество градусов. Прогноз погоды на телевидении снабжается иногда ещё и красочным фильмом о передвижениях циклона.

Но за визуализациями стоит другая визуальная форма представления данных. Она часто является чем-то вроде исходного материала и находится «за» оформленной картинкой/графиком. Обычно это табличка, в которой собраны материалы о наблюдениях, скажем, за погодой. Табличка — тоже форма представления данных. Такие же записи можно делать в блокноте или вордовском файле. Но табличка позволяет совершать с данными операции, с помощью которых можно выявлять закономерности, легко подсчитывать и даже прогнозировать. (Подробнее: Drucker, 2011)

Чтобы поместить данные в табличку, нужно сначала продумать механизм сбора и анализа данных: понять, что именно мы будем узнавать, потом осуществить эту операцию, а потом — обработать то, что собрано. Часто о собранном, но несортированном говорят, что это «сырые данные». На деле они никогда не «сырые», так как им предшествует: а) выделениеобласти мира, которую мы будем изучать, и б) вопросы, которые позволят классифицировать это изучение, чтобы потом представлять данные (в). Получается, на входе нам уже нужно вообразить желаемый результат — что с собранным будет происходить. (Подробнее: Gitelman, 2013)

Ещё в данные всегда включены инструменты, с помощью которых их собирают. Например, данные о температуре можно собирать не только с помощью термометров в разных частях города. Даже если физически вы не находитесь в конкретном месте, вы можете соотнести другие данные, использовать определённые показатели — и (таким образом) рассчитать температуру с огромной точностью. То есть мы можем больше доверять механизмам, людям, математическим формулам и так далее. Заметьте, слово «доверие» возникает уже не в первый раз! И это неспроста: мы доверяем инструментам, предполагая доверие самим данным.

пример:
В этом ролике затрагивается важная тема того, как устроена работа с данными по COVID-19, в том числе с данными, закрытыми от публичного доступа, как в Китае. Собеседники говорят о том, как важно подобрать корректную визуализацию, чтобы донести до людей свою мысль и обеспечить ясное понимание происходящего. Нужно помнить, что визуализация как представление данных — это публичный рассказ, ориентированный на аудиторию (а не просто картинка).
Интересно, что такой подход не всегда уменьшает авторитета данных в целом. Но почему, несмотря на скептические замечания о данных в медиа или науке, наше доверие к цифрам всё же велико, и числовые показатели продолжают влиять на нашу жизнь? При каких обстоятельствах мы перестаём полагаться на цифры?

/ данные в исследованиях и индустриях. большие данные.

Слово «данные» обладает всё более притягательной силой, а уж тем более если мы говорим о «больших данных». Уже стало банальностью сравнение данных с нефтью или другими ресурсами.

Решения, принятые на основе данных, считаются более эффективными, так как данные будто бы фиксируют+описывают то, что происходит на самом деле, и даже без сформулированного запроса рассказывают о мире.

Такой подход к науке и самым разным индустриям и областям жизни, конечно, возник не в нашем веке: он долго развивался на идее о том, что информация — это основа и экономики, и политики, а отчасти и жизни в целом. Он базируется на том, что знание о мире, будь то статистические сводки о населении, материалы продаж или страничка в Тиндере — это то, что влияет на решения.

Во многом этот подход наследует идее информационного общества. По существу эта идея марксистская — она предполагает, что способ производства — это основа для отношений. А раз способ производства основан на информации, которая становится всё более ценной, то и жизнь меняется в соответствии с этим способом производства.

Конечно, не только информация влияет на принятие решений. Нами могут руководить вера или страсть, традиция, любопытство или политические решения. Чтобы признавать информацию главной, нужно иметь в виду, что принятие решений — это то, что будет делать конкретный человек или группа людей. Предполагается, что люди довольно-таки рациональны, и делая выбор, нам необходимо учитывать то, что мы знаем о мире. То есть речь идёт не только о способе производства, но и о специфическом субъекте.

Субъект и производство взаимно связаны — мы становимся способными работать с миром так, как нас учат, например, в школе или университете, а затем развиваем наши мечты и идеи в соответствии со способами, которыми можем узнавать о мире.

Например, если нам известно, что в мире востребованы определённые профессии, мы будем учитывать это при поступлении в университет. Если в гороскопе написано, что с определённым знаком зодиака нашему знаку будет тяжело и муторно, мы склонны объяснять этим неуспешные отношения. Знание о статистике потребления воды будет влиять на выключение крана во время чистки зубов.

задание 1.2.

пожалуйста, подумайте про обратные примеры — когда данные превращаются в знание.

как это происходит?

вы можете оставить свой ответ в новой колонке в табличке.
напишите там: что есть данные в вашем примере? и во что они могут превратиться?

/ данные и политика. структура и родственники данных.

Но теперь перейдём к концептам, которые связаны с понятием данных.

Связь между 1) машинами, 2) измерениями общества и 3) отдельных людей и анализом этого всего в рамках наук — очень старое явление. Обследования населения и имущества затевались ещё в древнем мире, например, они были нужны при сборе налогов, чтобы рассчитывать сумму налога с каждого человека или дела, а также понимать устройство бюджета государства. Неудивительно, что они наследуют с тех времён и возможности, и проблемы этого процесса: те, кто собирает данные, оказываются сильнее, а те, кто их отдаёт — оказываются подсчитанными, объективированными, узнанными. И, конечно, многие поэтому и не любят сборщиков данных.

Уже на этом старинном примере видно, что данные связаны с властью. Эта связь не всегда такая линейная, как при разговоре о сборе налогов. И стоит иметь в виду, что действуют не только люди, но и инструменты, и методы. На деле речь идёт и об инструментах, и о том, что учитывается, а что — нет. А значит, об инструментах и понятиях, которые работают вместе с данными. (Подробнее: Vis, 2013)

Вместе с обращением к данным для увеличения эффективности или политических задач государства, возникает и вопрос о том, что и кто становится источником или ресурсом для данных. Ведь далеко не всегда они же, став ресурсом, оказываются выгодополучателями. И вообще, не факт, что нам нужно тут рассуждать в таких терминах рынка и производства, когда речь идёт о судьбах людей. Из необходимости понять, как формируется этика работы с данными — происходит и часть критики, и беспокойства. А также стремление сделать процедуры, связанные с данными, понятными разным людям — так, например, возникает понятие data literacy, цифровой грамотности.

Но мы будем больше фокусироваться на том, чтобы понять данные как явление и смотреть на их структуру, имея в виду и то, как они устроены.
Во многих примерах мы говорим о данных как понятии, связанном со статистикой. Действительно, данные наследуют многим статистическим процедурам, о которых говорилось выше. Это сбор материала и классификация мира, исходящая из того, что мы можем знать, а также выработка специальных способов фиксации и наблюдения: механического или структурного. Механический, проще говоря, связан с инструментами фиксации, а структурный — с тем, как мы размечаем структуру представления данных, ещё не визуализации, а для систематизации и анализа. Важно — это исторически разные формы представления знания и его конструирования. Они не всегда идентичны тому, что существует сегодня.

Например, если мы анализируем цвета в романе Льва Толстого, то нам нужно задать механические инструменты «выхватывания» названий цветов и определить структуру базы данных: что в неё попадёт, как будут сгруппированы цвета, будем ли мы считать багровый — красным, а слово «алеющий» — указанием на цвет.

В статистике метод сбора — это отдельный большой вопрос, и на конференциях и в журналах по статистике ведутся свои дискуссии о том, где и какой способ получения информации и измерения лучше. Часто добродетелью в статистических измерениях становится объективность, минимизация участия самого исследователя. (Подробнее: Галисон & Дастон, 2018.) Или наоборот — максимизация участия для того, чтобы данные стали «чистыми». Если мы говорим о процедурах «очистки», то они включают в себя и техники, и конкретные материальные, технологические решения. Связь с технологиями у статистических методов, в том числе из-за этого, очень долгая, она длится не одно столетие.

Про историю связи статистики и машин можно почитать подробнее в книгах Reckoning with matter: Calculating machines, innovation, and thinking about thinking from Pascal to Babbage (Jones, 2016) и Metric Power (Beer, 2018)

Не меньше и связь статистики с опасениями по поводу наблюдений и слежки. Нередко критики статистических подходов обращаются к примерам из начала ХХ века, когда во многих странах происходили переписи населения и его свойств: социальных, демографических, тех, что касаются частной жизни. Яркий пример этого – история с картотекой Бюро статистики в Нидерландах в первой половине XX века. К 1939 году каждый гражданин должен был иметь документ, куда в том числе включалась графа «происхождение». После вторжения немцев в 1940 году эти данные были использованы для преследования еврейского населения и массовой депортации в концентрационные лагеря. Эта история показывает нам, как при меняющихся политических условиях само наличие данных может ставить социальные группы в уязвимую позицию.

Подробнее про это см.: Raul Hilberg, The Destruction of the European Jews, New Haven: Yale University Press, 2003.

Эти исторические экскурсы важны, чтобы видеть в том, что мы сегодня называем «данными», не нечто, появившееся только в эпоху интернета и цифровых следов, а часть большой истории. В статистических измерениях есть некоторая преемственность. Так, англо-саксонская система статистики тесно связана со сбором показателей, нужным для того, чтобы оценивать работу институций (например, школ), в ситуации, когда они работают вне рынка. Говоря дальше в ходе курса о политиках данных, мы будем говорить в том числе и о возможностях работы с данными вне институций, но заранее предупреждаю, что данные — это необязательно история о гигантских машинах контроля.

/ датафикация

Ещё много статистики собирают предприятия, чтобы улучшать работу, повышать эффективность. В США обычно это соотносят с «тейлоризмом», по имени Фредерика Уинслоу Тейлора. Он предложил устраивать деятельность рабочих в соответствии с научными теориями, распределять задачи между рабочими, измерять эффективность труда и принимать меры на основе изучения разных процессов работы. Эти принципы с тех пор не раз оспаривались, но до сих пор находятся в основе многих управленческих процессов. Система Тейлора не была ни однозначной, ни единственной. Например, российские и советские (позже) учёные и изобретатели спорили с тейлоризмом. Пожалуй, одна из самых известных разработок в области советского управления трудом — это работы Алексея Гастева. Гастев спорил и с Фордом, и с Тейлором, доказывая, что главное в процессе труда — это становление человека. Это не было похоже на современное внимание к человеку. Гастев понимал рационально, как коммунист и революционер — а значит, рациональность труда была ценной не для повышения эффективности предприятий, а для общества и человека в целом. Его книга «Как надо работать» — впечатляюще интересная, и позволяет понять, как по-разному можно понимать труд и оценку показателей.

Но стоит иметь в виду, что данные — это не то же самое, что статистика. Ведь они могут быть результатами включённого наблюдения или, например, нарративами интервью. Сбор данных связан с разработкой способов свидетельства, наблюдения, очевидности (evidence), которые могут быть связаны и с человеческим вниманием, и с механической фиксацией.

Так, в 1962 году исследователи данных как части статистики описывали работу с анализом данных так:

(1) Data analysis must seek for scope and usefulness rather than security.
(2) Data analysis must be willing to err moderately often in order that inadequate evidence shall more often suggest the right answer.
(3) Data analysis must use mathematical argument and mathematical results as bases for judgment rather than as bases for proofs or stamps of Validity

Важно, что в разных науках понятие evidence отличается (у социологов оно не такое, как у психологов, а у историков — не то же, что у медиа-исследователей).

Наконец, отличается и способ внедрения и встречи, столкновения с данными. Например, сегодня мы часто говорим о связи данных и алгоритмов. Алгоритмам будет посвящено отдельное занятие, но для начала нам важно, что это способы систематизации того, что мы узнаём. Алгоритмы затем, в свою очередь, используются, чтобы механизировать в том числе принятие решений на основе данных.

Например, алгоритмы музыкальных сервисов работают так: сначала они собирают данные о музыке, которую вы слушаете, а затем предлагают вам новые/ схожие композиции, которые могут вам понравиться. Это значит, что работа алгоритма — это и фиксация музыкальных треков из вашего плейлиста по разным категориям, и обработка этих данных — выявление того, что вам больше всего нравится, что вы переслушиваете, и анализ других, ещё неизвестных вам треков по разным категориям, и выдачарезультата в виде предложенных следующих композиций. Большая работа, которую раньше выполняли сотрудники музыкальных журналов, анализируя порой другие материалы: вышедшие альбомы, посещаемость концертов и так далее.
Сейчас работа алгоритма часто выглядит как магия, но наш курс как раз настроен на то, чтобы разобраться, как это работает.

Вопрос 1.3.

Что же получается? Курс не про алгоритмы, а про устройство общества? Как это поможет вам разобраться в проблемах данных, их достоверности, точности и этике?

Как вы понимаете, в чём понимание алгоритмов и данных, о котором вы слышите сейчас — расходится с тем, что вы знаете из ваших других источников знаний?

Ответы можно разместить здесь.

/ почему данные стали «расти» и как может быть иначе

Но для самых разных методов работы с данными важно, чтобы данных было как можно больше. Зачем и почему?

Учёные стремились увеличивать размер выборки, чтобы модели статистического анализа были точными.
Данные считались высококачественными, если их можно применять к разным ситуациям и моделям. С той же середины ХХ века идёт и идея о необходимой предиктивности(данные должны предсказывать будущие тенденции на основе текущих и прошлых изменений и закономерностей).
Работа с данными предполагается полезной для выявления паттернов(то есть образцов, на основе которых принимаются решения о том, что некоторое сочетание событий или показателей — закономерно).
Ещё данные должны быть валидными — собранными так, чтобы метод соответствовал задачам, выборке и результату.
Желательно, чтобы данные были консистентными: это значит, что они должны быть однородными внутри себя, скажем, в графе возраст был всегда возраст, а не год рождения. «Качественные» и «большие» данные считаются репрезентативными — то есть отражающими реальный мир.

Кроме того, данные же должны предполагать или делать возможной «правильную» категоризацию. Кавычки я использую, так как на деле речь не идёт о какой-то единственной правильности. Иногда категоризация связана с удобством, иногда — с традицией. Она может быть для выбранной и более подходящей теории или скорее основана на том, что мы видим в практиках.

Есть немало критики репрезентативизма. Основная проблема с этим понятием в том, что оно предполагает, будто мир существует в какой-то готовой форме до того, как мы начали его рассмаривать. Между тем, часто всё устроено ровно наоборот — какие-то показатели вовсе не существуют, пока мы не начали ими заниматься, особенно если речь идёт о социальном мире. Например, эта проблема есть с показателями вроде «социального благополучия». Думали ли мы, что существует некое «социальное благополучие» до того, как превратили его в фиксируемый количественно показатель?

История данных развивалась несколько разными путями в разных странах. Во многих случаях она основывалась на кибернетических идеях, предполагавших, что всё в мире можно описать как системы: общество, биологические процессы, жизнь человека, и так далее.

Данные почти неизбежно несут «позитивистский» флёр: что можно всё предсказать, основываясь на научном методе и подсчёте. Для того, чтобы отнестись к этому критически, конечно, стоит понимать историю такого отношения: когда, кем и зачем оно культивировалось. (Подробнее: Jones, 2018)

Сегодня часто говорят об альтернативных трактовках данных: тех, что происходят из незападных обществ, например. Ведь понимание данных в нашем контексте связано с тем, как устроено знание — и с тем, как устроено само разделение на «реальность», «знание» и «воображение». В тех обществах, где, например, мир не является объектом осмысления, а сам предлагает свои интерпретации — данные могут быть чем-то совсем иным. Другой способ говорить и думать о данных иначе — привлекать людей, которые являются вообще-то «источниками данных», и говорить о том, как они воображают это явление. В таком случае можно увидеть совсем другое взаимодействие с властью и с тем, как по-разному устроено понимание справедливости в теме данных. (Подробнее: Milan & Treré, 2019; Ruppert, 2018)

Вот небольшой разговор о том, как базы данных о знании могут работать для австралийских аборигенов. В их структурах знания нет такой иерархической связи между данными и метаданными (то есть данными о данных, например, геолокация вашего телефонного разговора), как в условных западных обществах.

А пока можно поупражняться в воображении других миров данных, подумать о ваших собственных практиках и том, что мы называем (или нет) данными.

Воображение и примеры важны для критического подхода. Во многом он с них начинается, а потом речь пойдёт об анализе, узнавании того, как устроены способы производства и использования данных.
Дальше мы будем иметь в виду их политическую роль и этические беспокойства, которые могут возникать. И снова возвращаться к тому, что может быть интересным, удобным, забавным, психотерапевтически полезным, приятным способом работать с данными как понятием и явлением.

Ссылки:

Gitelman, L. (2013). Raw data is an oxymoron. MIT press.
Jones, M. L. (2018). How we became instrumentalists (again): Data positivism since World War II. Historical Studies in the Natural Sciences 48(5), 673-684.
Jones, M. L. (2016). Reckoning with matter: Calculating machines, innovation, and thinking about thinking from Pascal to Babbage. University of Chicago Press.
Beer, D. (2016). Metric power. London: Palgrave Macmillan.
Hilberg, R. (2003). The Destruction of the European Jews, New Haven: Yale University Press.
Гастев, А. К. (1972) Как надо работать. М.: Экономика
boyd, d. Crawford, K. (2012). "Critical Questions for Big Data: Provocations for a Cultural, Technological, and Scholarly Phenomenon." Information, Communication, & Society 15 (5): 662-679.
Sicular, S. (2013). Gartner's Big Data Definition Consists of Three Parts, Not to Be Confused with Three "V"s. Gartner.
Drucker, J. (2011). Humanities approaches to graphical display. Digital Humanities Quarterly, 5(1), 1-21.
Vis, F. (2013). A critical reflection on Big Data: Considering APIs, researchers and tools as data makers. First Monday, 18(10). https://doi.org/10.5210/fm.v18i10.4878
Milan, S., & Treré, E. (2019). Big Data from the south (s): Beyond data universalism. Television & New Media, 20(4), 319-335.
Ruppert, E. (2018). Sociotechnical Imaginaries of Different Data Futures.
Anderson, C. (2008). The end of theory: The data deluge makes the scientific method obsolete. Wired magazine, 16(7), 16-07.
Галисон, П., & Дастон, Л. (2018). Объективность. Новое Литературное Обозрение.

Изображения: Freepik, Unsplash [Santi Vedrí, Element5 Digital, Doug Linstedt, Alexander Grey].

Перед использованием, пожалуйста, ознакомьтесь с пользовательскими соглашениями указанных сервисов. Вы можете удалить этот блок.