Что такое "Главные компоненты"

Полную версию этой статьи (вторую редакцию) можно скачать здесь.


Что входит в 1-ый и 2-ой компонент. В чем их различие?
Какие могут быть выводы, например, в отношении США и России?


Мы собрали базу данных http://an2k.net/richdb

Посмотрим поближе на ее фрагмент:

После нормализации (это хитрая операция, позволяющая абстрагироваться от разнородных единиц измерения и привести данные к сравнимым величинам; 100% информации о соотношении величин сохраняется) этот фрагмент будет выглядеть так:

Конечно расчет велся не по этим 12 числам, а по всей базе, ведь у нас есть все эти данные по каждой стране за каждый год с 1995 по 2018 годы (более 30 тысяч единиц хранения).

Теперь нанесём эти данные на график. Для тех кто захочет проверить правильность нанесения точек, я обозначил их так: страну - значком, тип надписью (только для 2018 года).

 

Если укрупнить масштаб, получится что-то вроде рассеянного облака точек. Если бы это облако было совершенно равномерно размазано по всей площади графика, никаких компонент выделить бы не удалось. Если бы оно плотно вытянулось вдоль какой-то прямой - был бы шанс свести все разнородные источники к одному единственному индексу, Но чаще всего удается охватить большую часть точек эллипсом (80% охвата считается достаточным). Максимальный и минимальный  диаметры этого эллипса собственно и есть Главные компоненты всего массива данных. Используя их рассчитывают главные компоненты для каждого подмножества (страны, годы).

На картинке вектор AB - первая главная компонента, вектор CD - вторая главная компонента. Используя их, как коэффициенты, рассчитывают соответствующие  значения для каждого года и страны.

Для удобства, путем матричных преобразований, эллипс поворачивают и переносят так, чтобы пересечение его диаметров совпало с началом координат. Из-за этого в таблице появляются отрицательные числа, но их смело можно брать по модулю, т.е. просто отбрасывать минус - площадь эллипса и все точки внутри него сохраняют значимую информацию о соотношении параметров исследуемых объектов.


Главные компоненты вычисляются на основе всех данных, имеющихся в нашей БД, с использованием Математической статистикиФакторного анализа и Метода главных компонент.
Из множества разнородных сведений строго выводятся два безразмерных индекса, вместе содержащих не менее 80% исходной информации, в данном случае, о соотношении сил государств с учетом экономических, военных и интеллектуальных ресурсов.

 

 


Зачем все это нужно? Что нового это дает для понимания соотношения сил например между США, Китаем и Россией?

Вот реальные (а не приблизительные, рукописные, как на предыдущих картинках) данные из нашей БД:

Какие выводы может сделать аналитик на основании этих трех таблиц?

Он может сказать, что Россия уступает США:

  • в экономической мощи в 5 раз;
  • в военной мощи в 10 раз;
  • в интеллектуальной мощи в 7 раз.

(сейчас в БД есть 7 таких показателей)

А если открыть вот эту табличку:

то можно сразу сказать, что по сумме всех семи показателей Россия уступает США в 13,4 раза, причем сильнее других показателей увеличивает этот разрыв именно показатели характеризующие интеллект и здоровье нации, т.е. Человеческий капитал (ЧК).

Вывод очевиден: вкладываясь в ЧК мы можем сократить этот разрыв, а вкладываясь только в вооружение - шансов нет, т.к. выход пользы от вложенных ресурсов в первое существенно выше, чем во второе.

С точки зрения математической статистики вычисление Главных компонент является операцией снижения размерности матрицы (в нашем случае размерность = 7; нам удалось снизить ее до 2).

С точки зрения аналитика-практика мы создали инструмент позволяющий обобщать больше количество параметров характеризующих объекты или явления до 2 индексов (в перспективе до 1), что существенно удобнее/нагляднее.


Что дальше?

  1. Возможно разделение параметров на две группы: экономико-военные и социально-интеллектуальные (ЧК) - интересно посмотреть на их соотношение в динамике. Как будет меняться целевая функция сдерживания агрессора, при перетекании ресурсов из первой группы во вторую.
  2. Численное решение уравнений Ричардсона, при использовании интегральных показателей вычисленных из некоторого множества факторов с использованием метода главных компонент.
  3. Графическая интерпретация результатов должная явственно показать существует ли целевая функция на данном отрезке времени, при каких условиях ее существование наиболее вероятно.

 

А. Немченко