Загрузка данных о ВС и других ресурсах государств

Перенос данных с globalfirepower.com в этот сайт

 
1 этап
 
Грабер данных с фильтрацией и чисткой в текстовый файл.
источник: globalfirepower.com
приемник: alldata.txt
обработчик: grab_site.php
 
 
2 этап
 
Обрабтка в текстовом редакторе - ед. изм. и пр.
источник: alldata.txt
приемник: alldata.txt
обработчик: редактор Kate + ручки
 
 
3 этап
 
Конвертация данных из текстового файла в таблицы БД
источник: alldata.txt
приемник: таблицы mysql с пефиксом p_
обработчик: conv2db.php
 
 
4 этап
 
Выгрузка из таблиц БД перевод на русский и обратная загрузка
источник: таблицы mysql с пефиксом p_
приемник: таблицы mysql с пефиксом prus_
обработчик: руки + гугл + руки
 
 
5 этап
 
Конвертация данных из просто таблиц БД в систему на CMS Drupal
источник: таблицы mysql с пефиксом p_ и  prus_
приемник: Drupal
обработчик: conv2drupal.php
 
 
Здесь  все скрипты и файлы готовые на данный момент.

Для отработки методик прогнозирования необходимо иметь данные не одного, но многих лет.

На данном этапе у нас нет возможности получить, обработать и ввести в систему такое количество реальных данных. Поэтому я написал небольшой скрипт, который размножил реальные данные 2014 года на 15 предшествующих лет.

Для организации регрессии чисел использовался плавающий коэффициент, при вычислении которого использовался ряд случайных чисел, чтобы добиться не плавной, а ломанной кривой изменения параметров по времени.

Вот основные (вычисленные с учетом стохастической составляющей) коэффициенты по годам:

1.00 - 2014
1.01 - 2013
0.96 - 2012
0.98 - 2011
0.97 - 2010
0.85 - 2009
0.73 - 2008
0.84 - 2007
0.74 - 2006
0.76 - 2005
0.70 - 2004
0.69 - 2003
0.72 - 2002
0.54 - 2001
0.53 - 2000
0.62 - 1999

Кроме того внутри года и страны, для того чтобы избежать слишком явной корреляции между параметрами, при их расчете введен еще один рандомный коэффициент.

Параметры географии я решил не менять во времени (изменения границ и площадей Украины и России можно сделать вручную - это не регулярный случай).

Всего введено 65 тысяч единиц хранения, для 106 стран, по 42 параметрам разбитых на 8 категорий.

После отработки первичных, грубых моделей и сценариев необходимо будет откорректировать данные с тем, чтобы иметь реальную картину динамики изменений параметров.

Вероятно, придется расширить, и возможно существенно, список наблюдаемых параметров и период наблюдения (объем технической обработки данных возрастет соответственно).