в
которой на диагонали находятся 1, а внедиагональные элементы являются обычными
коэффициентами парной корреляции.
Так
вот, пусть мы полагали наблюдаемые переменные Ei независящими друг от друга, т.е. ожидали увидеть матрицу R[k·k] диагональной, с единицами в главной диагонали и
нулями в остальных местах. Если теперь это не так, то наши догадки о наличии
латентных факторов в какой-то мере получили подтверждение.
Но
как убедиться в своей правоте, оценить достоверность нашей гипотезы — о наличии
хотя бы одного латентного фактора, как оценить степень его влияния на основные
(наблюдаемые) переменные? А если, тем более, таких факторов несколько — то как
их проранжировать по степени влияния?
Ответы
на такие практические вопросы призван давать факторный анализ. В его основе
лежит все тот же “вездесущий” метод статистического моделирования (по образному
выражению В.В.Налимова — модель вместо теории).
Дальнейший
ход анализа при выяснению таких вопросов зависит от того, какой из матриц мы
будем пользоваться. Если матрицей ковариаций C[k·k], то мы имеем дело с
методом главных компонент, если же мы пользуемся только матрицей R[k·k], то мы используем метод факторного анализа в его “чистом” виде.
Остается
разобраться в главном — что позволяют оба эти метода, в чем их различие и как
ими пользоваться. Назначение обоих методов одно и то же — установить сам факт
наличия латентных переменных (факторов), и если они обнаружены, то получить
количественное описание их влияния на основные переменные Ei.
Ход
рассуждений при выполнении поиска главных компонент заключается в следующем. Мы
предполагаем наличие некоррели-рованных переменных Zj ( j=1…k), каждая из
которых представляется нам комбинацией основных переменных (суммирование по i
=1…k):
Zj
= S
Aj i ·X
и, кроме того, обладает дисперсией, такой что
D(Z1)
³
D(Z2) ³
… ³
D(Zk).
Поиск
коэффициентов Aj i (их называют весом j-й компонеты в содержании i-й
переменной) сводится к решению матричных уравнений и не представляет особой
сложности при использовании компьютерных программ. Но суть метода весьма
интересна и на ней стоит задержаться.
Как
известно из векторной алгебры, диагональная матрица [2·2] может рассматриваться
как описание 2-х точек (точнее — вектора) в двумерном пространстве, а такая же
матрица размером [k·k]—
как описание k точек k-мерного пространства.
Так
вот, замена реальных, хотя и нормированных переменных Xi на точно такое же
количество переменных Z j означает не что иное, как поворот k осей многомерного
пространства.
“Перебирая”
поочередно оси, мы находим вначале ту из них, где дисперсия вдоль оси
наибольшая. Затем делаем пересчет дисперсий для оставшихся k-1 осей и снова
находим “ось-чемпион” по дисперсии и т.д.
Образно
говоря, мы заглядываем в куб (3-х мерное пространство) по очереди по трем осям
и вначале ищем то направление, где видим наибольший “туман” (наибольшая
дисперсия говорит о наибольшем влиянии чего-то постороннего); затем “усредняем”
картинку по оставшимся двум осям и сравниваем разброс данных по каждой из них —
находим “середнячка” и “аутсайдера”. Теперь остается решить систему уравнений —
в нашем примере для 9 переменных, чтобы отыскать матрицу коэффициентов (весов)
A[k·k].
Если
коэффициенты Aj i найдены, то можно вернуться к основным переменным, поскольку
доказано, что они однозначно выражаются в виде (суммирование по j=1…k)
X
i = S
Aji·Z
j .
Отыскание
матрицы весов A[k·k]
требует использования ковариационной матрицы и корреляционной матрицы.
Таким
образом, метод главных компонент отличается прежде все тем, что дает всегда
единственное решение задачи. Правда, трактовка этого решения своеобразна.
· Мы
решаем задачу о наличии ровно стольких факторов, сколько у нас наблюдаемых
переменных, т.е. вопрос о нашем согласии на меньшее число латентных факторов
невозможно поставить;
· В
результате решения, теоретически всегда единственного, а практически связанного
с громадными вычислительными трудностями при разных физических размерностях
основных величин, мы получим ответ примерно такого вида — фактор такой-то
(например, привлекательность продавцов при анализе дневной выручки магазинов)
занимает третье место по степени влияния на основные переменные.
Этот
ответ обоснован — дисперсия этого фактора оказалась третьей по крупности среди
всех прочих. Всё… Больше ничего получить в этом случае нельзя. Другое дело, что
этот вывод оказался нам полезным или мы его игнорируем — это наше право решать, как использовать системный подход!
Несколько
иначе осуществляется исследование латентных переменных в случае применения
собственно факторного анализа. Здесь каждая реальная переменная рассматривается
также как линейная комбинация ряда факторов Fj , но в несколько необычной форме
X
i = S
B ji ·
Fj + D
i.
причем
суммирование ведется по j=1…m , т.е. по каждому фактору.
Рекомендуем скачать другие рефераты по теме: конспекты по истории, культурология как наука.