Дамп базы данных

Наш сервис просмотра баз данных источников

Бэкапы:

  1. Дамп за 2020-01-09 можно скачать здесь.
  2. Дамп за 2019-12-29 можно скачать здесь.
  3. Дамп за 2019-12-23 можно скачать здесь.

Нажимая на ссылку не промахнитесь с датой. 

Комментарии

Данные из базы проверены в псевдо-случайном порядке стран и годов относительно первоисточника (hdr.undp.org), а также единственной найденной альтернативы - The Humanitarian Data Exchange HDX (data.humdata.org) под эгидой Секретариата ООН.

В первом случае выборки значений совпадают, что говорит о видимом отсутствии ошибок при импорте/экспорте данных.

Во втором случае база HDX содержит ограниченные данные в рассматриваемый период времени (для большинства стран 1990, 1995, 2000, 2005-2013). Разница значений составляет 0~0,03 в абсолютных величинах на рассмотренной выборке.

Звягинцев М.М., инженер лаб. МЭИТ МГИМО

В ходе проверки были рассмотрены данные по каждому из источников, приведённых в базе данных. 
Числовых отклонений от изначальных данных выявлено не было, однако обнаружена ошибка при импорте данных о цитировании и количестве публикаций Scopus (https://www.scimagojr.com/countryrank.php). В базе данных отсутствует информация о ряде стран (Республика Корея, Чехия, Куба, Венесуэла и др.), несмотря на то, что соответствующие данные имеются на сайте, а также в zip-файле источника, что говорит о том, что ошибка возникает не при сохранении данных в файл, а именно на этапе импорта данных из файла в базу данных.

Белякова А.М., студентка 3 курса фак-та МЭО МГИМО

Пока, это не слишком срочно - нужно пройти по критическому пути и, пусть с некоторыми потерями, добраться до финиша.

Однако, ты можешь помочь решить проблему.

Анализ показал, что корень её лежит в разнице написания названий стран в разных источниках. Пройдись частым гребнем, т.е. подряд и найдешь еще много.

Здесь CSV-файл из нашей базы, добавь третью колонку английских названий и впиши в нее пропавшие страны. Уверен что такие найдутся и в других источниках, в Патентах точно.

Нумерацию и русские названия НЕ ТРОГАТЬ.

 

Александр Немченко, зав.лаб. ЭВТ МГИМО

PS: Для лучшего понимания внутреннего устройства есть (неполный и шершавый) Журнал инженерных работ.

  1. Добавил еще один источник - Патенты. Надо бы проверить.
  2. Интерфейс неудобен, над ним будем работать, нужны предложения и замечания.
  3. Основной функционал идет по линии: 
    • данные по отдельным источникам;
    • данные по всем источникам;
    • главные компоненты;
    • будет продолжение...
  4. Проверять нужно внутри каждого раздела, но основное - это переходы между ними.
    Сейчас главная задача проверить правильность расчета главных компонент из данных по всем источникам.

Александр Немченко, зав.лаб. ЭВТ МГИМО

  1. Элементы интерфейса, которые в текущем контексте не нужны, необходимо скрывать, например, при выборе Всех источников нужно скрыть поле выбора страны.
  2. Кнопки Выбор и Сброс перенести вправо.
  3. Поля цветовой индикации (Россия Китай США НАТО) перенести на страницу "Справка", ибо дезориентирует - юзеры думают, что это кнопки.