Инструменты для работы с данными

На полноту охвата этот очерк не претендует, это скорее первичная разметка. Речь пойдет о том, какие существуют типы инструментов для работы с данными (и, соответственно, что желательно освоить).

1. Таблицы

Для работы с данными в большом количестве случаев нужно уметь пользоваться таблицами. И это же инструмент, с которого можно начать учиться работать с данными. С одной стороны, он достаточно прост в использовании, с другой стороны, большинство таблиц позволяют проделать базовые операции по обработке данных.

  • Microsoft Excel (платный)
  • Open Office (Calc)
  • Libre Office (Calc)
  • Google-таблицы (позволяет не только обрабатывать данные, но и совместно работать с таблицами онлайн)

2. Системы управления базами данных

Для реляционных баз данных:

SQLite, MySQL, PostgreSQL, а также MS SQL Server и MS Access.

Здесь желательно знать язык структурированных запросов для работы с базами данных. Англоязычный мануал по SQL в применении к SQLite можно найти здесь.

Для нереляционных баз данных:

MongoDB, CouchDB

3. Инструменты очистки данных

Open Refine (он же Google Refine)

Data Wrangler (работает онлайн)

(оба бесплатные)

4. Визуализация данных

Перечислим пока бесплатные инструменты:

Google Fusion Tables (онлайн)

Google-таблицы (онлайн). Помимо прочего Гугл-таблицы оснащены простым и удобным инструментом интерактивной визуализации. Для многих задач его возможностей вполне достаточно.

Tableau Public (Именно Public. Остальные версии Tableau платные.) На выходе дает интерактивную визуализацию, которую можно затем встраивать на сайты. Чтобы использовать эту программу, ее нужно скачать и установить на компьютер. Единственно, пока что она работает только под Windows.

Many Eyes (онлайн-инструмент)

Datawrapper (тоже онлайн-инструмент)

Также существует хорошая программа визуализации статистических данных R, но для того чтобы ее использовать, необходимо освоить соответствующий язык.

5. Визуализация геоданных, картография

Простую визуализацию такого рода можно сделать с помощью вышеперечисленных инструментов визуализации – там что-то встроено.

Также есть простые в использовании онлайн-инструменты вроде BatchGeo

Также имеет смысл обратить внимание на QGIS

А также PostGIS и SpatiaLite

Кроме того, по поводу геоданных имеет смысл изучить сайт http://gis-lab.info/

6. Языки программирования

Очень полезно знать при работе с данными. Начать можно и без этого, но в перспективе желательно освоить. В частности, это нужно для дата-скрэпинга (извлечения данных из тех форматов, которые не представляют их в виде файла, читаемого таблицей).

В первую очередь, для работы с данными полезны Python и Ruby.

Желающим приступить к изучению этих языков с нуля, можно посоветовать ресурс с интерактивным обучением Codecademy.com (англ.)

Что касается дата-скрэпинга, то приобщиться к этому можно, в частности с помощью следующих ресурсов:

Мануал на ProPublica (англ.)

Scraper Wiki (англ.)

7. Среды для разработки веб-приложений

Django для Python

Rails для Ruby

Symphony для PHP

Catalyst для Perl

Это далеко не предел не то что инструментов, но даже и категорий инструментов. Но пока ограничимся этим первичным набором. Естественно, сразу всем с нуля овладеть невозможно. Осваивать имеет смысл постепенно, от простого к сложному, а также по мере возникновения потребности в решении конкретных задач.