Для поддержки растущей необходимости в данных в интернете сегодня доступно множество источников. Они предлагают информацию всем, кто в ней нуждаются. Такая информация называется открытыми данными.
Вот список основных источников.
- DataHub (https://datahub.io/dataset)
- Всемирная организация здравоохранения (https://www.who.int/research/en/)
- Data.gov (https://data.gov)
- Портал открытых данных ЕС (https://open-data.europa.eu/en/data/)
- Открытые наборы данных Amazon Web Service (https://aws.amazon.com/datasets)
- Facebook Graph (https://developers.facebook.com/docs/graph-api)
- Healthdata.gov (https://www.healthdata.gov)
- Google Тренды (https://www.google.com/trends/explore)
- Google Finance (https://www.google.com/finance)
- Google Books Ngrams (https://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
- Репозитории для Машинного обучения (https://archive.ics.uci.edu/ml/)
Политические и правительственные данные
- Socrata https://www.socrata.com/resources/
Socrata хороший сайт для изучения данных, связанных с правительством. Кроме того, он дает инструменты визуализации для исследования данных. - Бюро переписей США https://www.census.gov/data.html
Этот сайт предоставляет информацию о гражданах США, охватывающую данные о населении, географические и об образовании. - Данные баз ООН https://data.un.org/
UNdata — это интернет-служба данных, которая предоставляет статистические базы данных ООН. - Портал открытых данных ЕС https://open-data.europa.eu/en/data/
Этот сайт предоставляет много данных из учреждений Европейского Союза. - Data.gov.uk https://data.gov.uk/
Этот сайт правительства Великобритании включает Британскую национальную библиографию: метаданные всех британских книг и публикаций с 1950 года. - Всемирная книга фактов ЦРУ https://www.cia.gov/library/publications/the-world-factbook/
Этот сайт Центрального разведывательного управления предоставляет много информации об истории, населении, экономике, правительстве, инфраструктуре и вооруженных силах 267 стран.
Медицинские данные
- Информационный центр здравоохранения и социального обеспечения https://www.hscic.gov.uk/home
Наборы данных о здоровье от Национальной службы здравоохранения Великобритании.
Социальные данные
- Topsy https://topsy.com/
Topsy предоставляет доступную для поиска по базе данных публичных твитов, начиная с 2006 года, а также несколько инструментов для анализа. - Likebutton https://likebutton.com/
Публикует общедоступные данные Facebook, чтобы дать представление о том, что людям «нравится» в данный момент.
Общедоступные наборы данных
- DBPedia https://wiki.dbpedia.org
Википедия содержит миллионы данных, структурированных и неструктурированных, по каждой теме. DBPedia — это амбициозный проект по каталогизации и созданию публичной, свободной
базы данных, позволяющей любому анализировать эти данные. - Freebase https://www.freebase.com/
Эта база данных предоставляет информацию по нескольким темам с более чем 45 миллионами записей. - Gapminder https://www.gapminder.org/data/
Этот сайт предоставляет данные, поступающие от Всемирной организации здравоохранения и Всемирного банка, которые охватывают экономическую, медицинскую и социальную статистику со всего мира.
Климатические данные
- Национальный центр климатических данных https://www.ncdc.noaa.gov/data-access/quick-links#loc-clim
Огромный набор экологических, метеорологических и климатических данных из Национального центра климатических данных США. Самый большой в мире архив данных о погоде. - WeatherBase https://www.weatherbase.com/
На этом сайте представлены средние значения погодных условий, прогнозы и текущие условия для более чем 40 000 городов по всему миру. - Wunderground https://www.wunderground.com/
Этот сайт предоставляет климатические данные со спутников и метеостанций, что позволяет получать всю информацию о температуре, ветре и других измерениях.
Спортивные данные
- Pro-Football-Reference https://www.pro-football-reference.com/
Этот сайт предоставляет данные о футболе и некоторых других видах спорта.
Газеты
- New York Times https://developer.nytimes.com/docs
Поисковой, проиндексированный архив новостных статей, начиная с 1851 года.
Музыкальные данные
- Датасет с миллионом песен
https://aws.amazon.com/datasets/6468931156960467
Метаданные о более чем миллионе песен и музыкальных произведений. Часть Amazon Web Services
Многие источники с открытыми данными можно найти на диаграмме LOD cloud (https://lod-coud.net). Она показывает связи между разными источниками открытых данных, которые доступны в сети.