Где брать данные для анализа

Для поддержки растущей необходимости в данных в интернете сегодня доступно множество источников. Они предлагают информацию всем, кто в ней нуждаются. Такая информация называется открытыми данными.

Вот список основных источников.

Политические и правительственные данные

  • Socrata https://www.socrata.com/resources/
    Socrata хороший сайт для изучения данных, связанных с правительством. Кроме того, он дает инструменты визуализации для исследования данных.
  • Бюро переписей США https://www.census.gov/data.html
    Этот сайт предоставляет информацию о гражданах США, охватывающую данные о населении, географические и об образовании.
  • Данные баз ООН https://data.un.org/
    UNdata — это интернет-служба данных, которая предоставляет статистические базы данных ООН.
  • Портал открытых данных ЕС https://open-data.europa.eu/en/data/
    Этот сайт предоставляет много данных из учреждений Европейского Союза.
  • Data.gov.uk https://data.gov.uk/
    Этот сайт правительства Великобритании включает Британскую национальную библиографию: метаданные всех британских книг и публикаций с 1950 года.
  • Всемирная книга фактов ЦРУ https://www.cia.gov/library/publications/the-world-factbook/
    Этот сайт Центрального разведывательного управления предоставляет много информации об истории, населении, экономике, правительстве, инфраструктуре и вооруженных силах 267 стран.

Медицинские данные

  • Информационный центр здравоохранения и социального обеспечения https://www.hscic.gov.uk/home
    Наборы данных о здоровье от Национальной службы здравоохранения Великобритании.

Социальные данные

  • Topsy https://topsy.com/
    Topsy предоставляет доступную для поиска по базе данных публичных твитов, начиная с 2006 года, а также несколько инструментов для анализа.
  • Likebutton https://likebutton.com/
    Публикует общедоступные данные Facebook, чтобы дать представление о том, что людям «нравится» в данный момент.

Общедоступные наборы данных

  • DBPedia https://wiki.dbpedia.org
    Википедия содержит миллионы данных, структурированных и неструктурированных, по каждой теме. DBPedia — это амбициозный проект по каталогизации и созданию публичной, свободной
    базы данных, позволяющей любому анализировать эти данные.
  • Freebase https://www.freebase.com/
    Эта база данных предоставляет информацию по нескольким темам с более чем 45 миллионами записей.
  • Gapminder https://www.gapminder.org/data/
    Этот сайт предоставляет данные, поступающие от Всемирной организации здравоохранения и Всемирного банка, которые охватывают экономическую, медицинскую и социальную статистику со всего мира.

Климатические данные

  • Национальный центр климатических данных https://www.ncdc.noaa.gov/data-access/quick-links#loc-clim
    Огромный набор экологических, метеорологических и климатических данных из Национального центра климатических данных США. Самый большой в мире архив данных о погоде.
  • WeatherBase https://www.weatherbase.com/
    На этом сайте представлены средние значения погодных условий, прогнозы и текущие условия для более чем 40 000 городов по всему миру.
  • Wunderground https://www.wunderground.com/
    Этот сайт предоставляет климатические данные со спутников и метеостанций, что позволяет получать всю информацию о температуре, ветре и других измерениях.

Спортивные данные

  • Pro-Football-Reference https://www.pro-football-reference.com/
    Этот сайт предоставляет данные о футболе и некоторых других видах спорта.

Газеты

  • New York Times https://developer.nytimes.com/docs
    Поисковой, проиндексированный архив новостных статей, начиная с 1851 года.

Музыкальные данные

  • Датасет с миллионом песен
    https://aws.amazon.com/datasets/6468931156960467
    Метаданные о более чем миллионе песен и музыкальных произведений. Часть Amazon Web Services

Многие источники с открытыми данными можно найти на диаграмме LOD cloud (https://lod-coud.net). Она показывает связи между разными источниками открытых данных, которые доступны в сети.

Диаграммa LOD cloud