Йуриан Баас: Как быстро исследовать данные, находящиеся в открытом доступе

Предлагаем вашему вниманию перевод небольшой статьи Йуриана Бааса (Jurian Baas), одного из сотрудников интерактивной платформы Silk, созданной с целью сбора и распространения информации. Оригинал этого материала размещен на правах гостевого поста в блоге School of Data (образовательной платформы при Фонде открытых знаний / Open Knowledge Foundation).

DIY-журналистика данных: Как быстро исследовать данные, находящиеся в открытом доступе

Йуриан Баас

Профессиональные дата-журналисты должны находить истории среди огромных объемов данных, которые публикуются ежедневно. Они неуклонно ищут баланс между искусством изложения и математикой, добавляя к этому немного программирования, а также визуального сопровождения. Может показаться, что это сложная работа, и это действительно так. Например, путь к тому, чтобы овладеть инструментами, позволяющими создать материал уровня Guardian, действительно весьма тернист.

Сложность анализа огромных наборов данных в сочетании со сложностью программ может отталкивать людей от журналистики данных. Жаль, потому что существуют более простые инструменты, с помощью которых любой может визуализировать и проанализировать умеренных размеров набор данных. Способность подробно рассмотреть данные и найти в них скрытые связи — это навык, который может пригодиться много кому: студентам, бизнесменам, сотрудникам НПО и т.д. В этом материале я покажу вам на примере, как можно самостоятельно проделать работу, подобную работе дата-журналиста, и вы увидите, что это не так уж трудно.

Худшие благотворительные организации Америки

Рутгар — менеджер по продукции, работающий в НПО. Он интересовался финансовыми практиками благотворительных организаций и в какой-то момент вышел на проект America’s Worst Charities. В проекте представлены 50 благотворительных организаций, которые тратят большое количество денег, платя за услуги специальных агентств, занимающихся сбором пожертвований, с целью увеличить приток благотворительных средств. Некоторые контролирующие инстанции выражают мнение, что благотворительные организации должны тратить не более 35% средств на расходы по привлечению денег, а те организации, о которых идет речь, тратят значительно больше.

worst charities

America’s Worst Charities — это далеко не любительский проект. Его создатели - Tampa Bay Times и Center for Investigative Journalism — проделали большую работу, чтобы собрать финансовую информацию обо всех благотворительных организациях, а затем и проанализировать эту информацию. Но сами по себе представленные данные — это просто список. Рутгар стал искать разные способы для работы с этим списком, чтобы найти в нем больше связей:

“У меня было ощущение, что в этих данных прячутся более интересные факты, чем то, что было очевидно на первый взгляд. Меня интересовала не только абсолютная сумма денег, которую та или иная организация потратила или получила. Меня также интересовал вопрос, кому именно они платили — из этих профессиональных компаний-сборщиков. Я хотел знать, сколько именно они получили денег и сколько оставили себе. Я думаю, что с помощью интерактивных визуализаций, которые позволяют самостоятельно менять параметры, проще увидеть, каким образом цифры соотносятся друг с другом”.

Рутгар создал Silk-сайт под названием http://americas-worst-charities.silk.co/ и импортировал туда две таблицы с данными из проекта America’s Worst Charities:

silk_site_charities

Рутгар: “Silk создает веб-страницы из каждой строки таблицы и расставляет тэги, что дает мне возможность создавать интерактивные таблицы и визуализации. Я разместил две таблицы на домашней странице: одну по худшим благотворительным организациям, а вторую — по худшим сборщикам пожертвований. Многие сборщики оставляли себе бОльшую часть собранных денег. Три из них, по всей видимости, оставляли себе больше денег, чем собирали. Это плохое расходование средств”.

“Я создал карту, чтобы посмотреть, есть ли какая-нибудь связь между слишком расточительными благотворительными организациями и их географическим положением. Почти все нарушители находились на восточном побережье, особенно во Флориде, Нью-Йорке, Вашингтоне и Джорджии. Ничего удивительного: большинство благотворительных организаций в принципе сконцентрированы в этих штатах, так что логично, что и худшие нарушители попали сюда”.

“Если мы посмотрим на детализированный график, представляющий благотворительные организации, которые привлекли больше всего средств, то мы увидим, что по сравнению с суммой привлеченных средств, выплаченных сборщикам, сумма расходов на прямые цели благотворительных организаций кажется ничтожной. Хуже того, сумма денег, которую благотворительная организация оставляет себе, тоже гораздо больше, чем сумма средств, направленных собственно на благотворительность”.

Рутгар считает, что его эксперимент в области любительской дата-журналистики оказался успешным: “У нас много данных, которые можно анализировать и распространять, как и у большинства НПО. Интересно порыться в наборе данных в поисках любопытных связей и историй. Огромный плюс размещения данных на сайте в том, что коллеги и прочие интересующиеся люди могут сами исследовать таблицы и визуализации”.