высшее образ.
|
0.068
|
0.438
|
дворянин
|
0.005
|
0.307
|
дворянское происх.
|
0.015
|
0.226
|
кадет
|
0.000
|
1.000
|
Две
колонки цифр дают нам предварительную информацию о том, что такое
"типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд.
Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию
своих источников. Например, слово "крестьянин" в действительности
может обозначать различные свойства в зависимости от того, используется ли оно
для указания сословия, происхождения или занятия. Корреляция между последними
тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь
целым набором свойств, и это как раз тот набор, который мы встречаем в кластере
свойства "трудовик".
На
втором шаге мы переключаемся на представление объектов данных и находим двух
лиц: одного, обладающего свойствами класса "типичный трудовик" (общий
профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое
образование, дворянин из дворян, жалование как источник дохода). Затем (третий
шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом
случае должна использоваться асимметричная близость к эталону, поскольку
большинство лиц описано более детально, чем эталонные, а следовательно, должно
быть устранено влияние "излишних" характеристик. Классификация должна
быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора
данных две четко разграниченные группы депутатов.
Таблица
2а. Распределение фракционной принадлежности среди кластеров "Типичный
кадет" и "Типичный трудовик".