Полную версию этой статьи (вторую редакцию) можно скачать здесь.
Что входит в 1-ый и 2-ой компонент. В чем их различие?
Какие могут быть выводы, например, в отношении США и России?
Мы собрали базу данных http://an2k.net/richdb
Посмотрим поближе на ее фрагмент:
После нормализации (это хитрая операция, позволяющая абстрагироваться от разнородных единиц измерения и привести данные к сравнимым величинам; 100% информации о соотношении величин сохраняется) этот фрагмент будет выглядеть так:
Конечно расчет велся не по этим 12 числам, а по всей базе, ведь у нас есть все эти данные по каждой стране за каждый год с 1995 по 2018 годы (более 30 тысяч единиц хранения).
Теперь нанесём эти данные на график. Для тех кто захочет проверить правильность нанесения точек, я обозначил их так: страну - значком, тип надписью (только для 2018 года).
Если укрупнить масштаб, получится что-то вроде рассеянного облака точек. Если бы это облако было совершенно равномерно размазано по всей площади графика, никаких компонент выделить бы не удалось. Если бы оно плотно вытянулось вдоль какой-то прямой - был бы шанс свести все разнородные источники к одному единственному индексу, Но чаще всего удается охватить большую часть точек эллипсом (80% охвата считается достаточным). Максимальный и минимальный диаметры этого эллипса собственно и есть Главные компоненты всего массива данных. Используя их рассчитывают главные компоненты для каждого подмножества (страны, годы).
На картинке вектор AB - первая главная компонента, вектор CD - вторая главная компонента. Используя их, как коэффициенты, рассчитывают соответствующие значения для каждого года и страны.
Для удобства, путем матричных преобразований, эллипс поворачивают и переносят так, чтобы пересечение его диаметров совпало с началом координат. Из-за этого в таблице появляются отрицательные числа, но их смело можно брать по модулю, т.е. просто отбрасывать минус - площадь эллипса и все точки внутри него сохраняют значимую информацию о соотношении параметров исследуемых объектов.
Главные компоненты вычисляются на основе всех данных, имеющихся в нашей БД, с использованием Математической статистики, Факторного анализа и Метода главных компонент.
Из множества разнородных сведений строго выводятся два безразмерных индекса, вместе содержащих не менее 80% исходной информации, в данном случае, о соотношении сил государств с учетом экономических, военных и интеллектуальных ресурсов.
Зачем все это нужно? Что нового это дает для понимания соотношения сил например между США, Китаем и Россией?
Вот реальные (а не приблизительные, рукописные, как на предыдущих картинках) данные из нашей БД:
Какие выводы может сделать аналитик на основании этих трех таблиц?
Он может сказать, что Россия уступает США:
(сейчас в БД есть 7 таких показателей)
А если открыть вот эту табличку:
то можно сразу сказать, что по сумме всех семи показателей Россия уступает США в 13,4 раза, причем сильнее других показателей увеличивает этот разрыв именно показатели характеризующие интеллект и здоровье нации, т.е. Человеческий капитал (ЧК).
Вывод очевиден: вкладываясь в ЧК мы можем сократить этот разрыв, а вкладываясь только в вооружение - шансов нет, т.к. выход пользы от вложенных ресурсов в первое существенно выше, чем во второе.
С точки зрения математической статистики вычисление Главных компонент является операцией снижения размерности матрицы (в нашем случае размерность = 7; нам удалось снизить ее до 2).
С точки зрения аналитика-практика мы создали инструмент позволяющий обобщать больше количество параметров характеризующих объекты или явления до 2 индексов (в перспективе до 1), что существенно удобнее/нагляднее.
Что дальше?
А. Немченко