|
Часть 3
Г Л А В А 20
ПРОГНОЗИРОВАНИЕ
20.1. ВВЕДЕНИЕ
Система STATGRAPHICS обеспечивает ряд методов для
прогнозирования будущих значений для одномерного временного
ряда, который был записан в равные промежутки времени.
В главе, посвященной прогнозированию, рассматривается
ряд классических методов экспоненциального сглаживания и
подбора кривой тренда, а также процедура специально
предназначенная для сезонных данных. Для получения
прогнозируемых величин из авторегрессионных моделей скользя-
щего среднего можно применять процедуру ARIMA, описанную в
разделе 23.15. Для генерации прогнозируемых величин из
регрессионных моделей можно использовать регрессионные
процедуры (см. главу 19).
В данной главе описывается семь процедур, которые
рассматриваются ниже более подробно в разделах 20.2 - 20.8.
Процедуры предполагают, что наблюдения проводились в равные
интервалы. Пропущенные (отсутствующие) значения исключаются
из вычислений до возможной степени для временного ряд, в
котором содержится небольшое число пропущенных
(отсутствующих) значений.
Процедура Минимальное Тип Описание
число
непропущенных данных
значений
------------------------------------------------------------
Экспоненциальное 8 N Использует простое, ли-
сглаживание по нейное или квадратичное
Брауну сглаживание для генера-
ции прогнозов временного
ряда
Линейное экспо- 8 N Аналогично линейному
ненциальное сгла- экспоненциальному сгла-
живание по Холту живанию по Брауну за
исключением того, что
функция включает две
сглаживающие постоянные
вместо одной
Сглаживание с В 4 раза N Использует три сглажива-
учетом сезонных превосхо- ющих постоянных для ге-
колебаний по дит длину нерации прогнозов для
Винтеру (Уинтеру) сезон- временого ряда с учетом
ности сезонных колебаний
Анализ простого 8 N Подбирает линейный тренд
тренда при помощи оценки по ме-
тоду наименьших квадра-
тов, экстраполирует ли-
нию тренда для генерации
прогнозов
Показательная 8 N Использует оценку по ме-
кривая критерия тоду наименьших квадра-
мощности тов для подбора экспо-
ненциальной линии тренда
Подбор жизненного 8 N Использует оценку по ме-
цикла тоду наименьших квадра-
ратов для подбора линии
тренда S-кривой
Декомпозиция с В 4 раза N Выполняет классическую
учетом сезонных превосхо- декомпозицию временного
колебаний дит длину ряда с учетом сезонных
сезон- колебаний при помощи
ности коэффициент-скользящее
среднее
Перед выполнением примеров, приведенныхв данной главе,
считайте следующие переменные с диска с наборами выборочных
данных
Имя файла Переменные
---------------------
TSDATA bibbly
ggb
ibm
sales
Инструкции по считыванию переменных в рабочую область
памяти приводятся в разделе 9.6.
20.2. ЭКСПОНЕНЦИФЛЬНОЕ СГЛАЖИВАНИЕ ПО БРАУНУ
Быстрый доступ: L1
ОПИСАНИЕ
--------
В STSTGRAPHICS имеется три варианта процедуры
эквпоненциального сглаживания по Брауну. В этих вариантах
для сглаживания временного ряда при помощи экспоненциального
взвешивания последних значений данного ряда используются
постоянная, линейная или квадратичная модели. При помощи
процедуры сглаживания можно отфильтровать местные колебания
от данных временного ряда для того, чтобы более точно
прогнозировать будущие значения данных.
В данной процедуре предполагается, что основная
константа, линейная или квадратическая линия тренда зависят
отварианта сглаживания, который вы выберете. За образцом,
который отражает выбранный метод, следуют сгенерироанные
прогнозы.
Во всех трех вариантах используется сглаживающая
постоянная альфа, которая имеет значения от 0 до 1. Более
подробная информация по процедурам экспоненциального
сглаживания приводится у Makridakis and Wheelwright, 1978.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя перемен- Введите имя цифрового вектора, содержа-
ной,содержащей ваши щего данные вашего временного ряда
данные
ENTER THE NAME OF THE
VARIABLE CONTAINING
YOUR DATA
Введите необходимое Введите число периодов, которое вы хо-
число прогнозов (12) тите прогнозировать, начиная с периода,
ENTER THE NUMBER OF который непосредственно следует за кон-
FORECAS DESIRED (12) цом данных.Для использования стандарт-
ных значений (12 периодов) нажмите ENTE
Введите значение для Введите значение между нулем и 1 для
сглаживающей посто- сглаживающей постоянной или нажмите
янной 0<альфа<1 (0.1) ENTER в случае использования стандарт-
ENTER A VALUE FOR THE ного значения.Чем меньше значение,тем
SMOOTHING CONSTANT больший вес присваивается более ранним
00
(Л1 - 1)
Л1g
ZT = gin (Z + Л2) if Л1=0
где g - выборочное геометрическое среднее Z + Л2. Первый
параметр Л1 управляет мощностью преобразования. Л1 = 1
соответствует исходным данным, а Л1 = 0 соответствует
логарифму. Параметр Л2 добавляется к данным до применения
Л1. Значения масштабируются с помощью геометрического
среднего, чтобы обеспечить постоянство дисперсии. Таким
образом, обеспечивается возможность для прямого сравнения
средних квадратических ошибок двух различных преобразований.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя перемен- Вводите имя числового вектора, со-
ной,содержащей данные держащего данные вашего временного
вашего временного ряда: ряда или другие данные, которые вы
хотите преобразовать.
Какое преобразование Нажимаете ENTER или вводите N,
вы хотите выполнить: чтобы указать, что необходимо выпол-
нормальное или нить нормальное преобразование.Чтобы
обратное (N/I): выполнить обратное преобразование,
вводите I.
Введите лямбду 1 Вводите значение Л1.
(0.1):
Введите лямбду 2 Вводите значение Л2.
(0): В случае выбора нормального преобра-
зования после ответа на эту подсказ-
ку на экране появится геометрическое
среднее для преобразования.
Введите геометрическое Эта подсказка появится на экране в
среднее: том случае,если вы выберите обратное
преобразование. Вводите геометричес-
кое среднее для ваших исходных дан-
ных.
Введите имя перемен- Вводите имя переменной, которую вы
ной, в которой будут хотите использовать для хранения
храниться преобразо- преобразованных данных. Если вы наж-
ванные данные: мете ENTER, не указывая имени пере-
менной, результаты сохраняться не
будут.
ПРИМЕР
------
В этом примере мы воспользуемся данными о ежемесячном
объеме продаж шампанского в течение 84 месяцев.
При появлении на экране подсказки об указании ваших
данных введите:
bubbly
Нажмите:
ENTER
чтобы указать, что вы хотите выполнить нормальное (прямое)
преобразование данных.
В качестве значения лямбды 1 введите:
0.8
В качестве значения лямбды 2 введите:
0
В результате этого преобразования ваши исходные данные
возводятся в 0.8 степень, при этом обеспечивается подгонка
расчета с той целью, чтобы сохранить ту же самую дисперсию.
Система выведет на экран геометрическое среднее для
преобразования и попросит указать имя переменной, в которой
будут храниться результаты преобразований. Для этого примера
введите:
tbubbly
Система создаст псевдопеременную с этим именем и выведет на
экран сообщение, из которого вы узнаете, что сохранены 84
значения. Теперь вы можете использовать эту переменную в
других процедурах. Если вы хотите сохранить переменную для
использования после текущего сеанса, ее необходимо записать
в файл, используя процедуры, описанные в Разделе 9.7.
23.11. ПЕРИОДОГРАММА
Быстрый доступ:010
ОПРЕДЕЛЕНИЕ
-----------
В статистике один из обычных способов анализа данных
временного ряда заключается в оценке спектра частоты, что
позволяет вам разложить дисперсию данных в диапазоне частот
на вклады (вносящие). В основе этого анализа лежит
представление ряда в качестве суммы синусоид при частотах
Фурье.
Эта процедура использует Быстрое преобразование Фурье
(смотри раздел 30.5) и строит график на основе квадратичных
амплитуд синусоид. Периодограмма масштабируется таким
образом, что если среднее ряда равно нулю, тогда сумма
ординат периодограммы будет равняться сумме квадратических
значений данных.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя перемен- Вводите имя числового вектора, содер-
ной, содержащей дан- жащего данные вашего временного ряда.
ные вашего временного
ряда:
Необходимо ли вычесть Вводите Y (Да) или нажимаете ENTER,
из данных среднее? чтобы указать то, что вам необходимо
(Y/N): вычесть среднее. Если вы не хотите
вычитать среднее, вводите N (Нет).
Необходима ли вам ло- Вводите N (Нет) или нажимаете ENTER,
гарифмическая шкала чтобы указать,что вам не нужна лога-
для оси Х (N/Y): рифмическая шкала для оси Х. В про-
тивном случае вводите Y (Да).
Нужна ли вам логариф- Чтобы указать, что вам не нужна ло-
мическая шкала для гарифмическая шкала для оси У, вво-
оси У? (N/Y): дите N (Нет) или нажимаете ENTER. В
противном случае вводите (Y).
После того, как вы ответите на эти подсказки,
STATGRAPHICS выведет на экран периодограмму. По окончании
работы с графиком нажмите ENTER, и система выведет на экран
таблицу, содержащую оцененные частоты и ординаты. Если
таблица занимает несколько страниц, в нижнем правом углу
вашего экрана появится номер текущей страницы и общее ко-
личество всех страниц. Вы можете передвигаться по страницам
назад и вперед, используя клавиши управления курсором или
вводя номер соответствующей страницы.
По окончании работы с таблицей нажмите F10, и система
выведет на экран следующие подсказки:
Введите имя переменной, Вводите имя переменной, которую вы
в которой будут сохра- хотите использовать для хранения
нены ординаты: ординат.Если вы не хотите сохранять
эти данные нажимаете ENTER.
Введите имя переменной, Вводите имя переменной, которую вы
в которой будут хра- хотите использовать для сохранения
ся частоты: частот. Чтобы выйти из процедуры,не
сохраняя эти данные, нажмите ENTER.
ПРИМЕР
------
В этом примере мы воспользуемся данными по ежемесячному
объему продаж шампанского в течение 84 месяцев.
При появлении на экране первой подсказки введите:
bubbly
для переменной, содержащей данные вашего временного ряда.
Введите:
Y
(Да), чтобы указать, что вам необходимо вычесть из данных
среднее. Теперь введите:
N
(Нет), чтобы указать, что необходимости в логарифмическом
масштабировании на оси Х нет. Введите опять:
N
(Нет), чтобы указать, что необходимости в логарифмическом
масштабировании на оси У нет.
На экране появиться график.
Первый большой пик при частоте наступления одного цикла
каждые 12 месяцев (основная частота) обусловлен сезонным
характером данных. Небольшие пики при частотах 2/12 и 3/12
(гармоника) показывают, что схема (циклическая модель)
периодической цикличности не является чистой синусоидой.
Нажмите:
ENTER
чтобы выйти из графика.
Система выведет на экран таблицу оцененных частот и ординат
для данного ряда.
Чтобы выйти из таблицы, нажмите
F10
При появлении на экране подсказок о вводе имен переменных, в
которых будут храниться ординаты и частоты, введите:
ords
для сохранения ординат и
fregs
для сохранения частот.
Система создаст псевдопеременные и выведет на экран
сообщения, из которых вы узнаете, что в каждой переменной
сохранены по 43 значения. Теперь вы можете использовать эти
переменные в других процедурах (например, в разделе 23.14 мы
построим график зависимости ords от частот Фурье). Если вы
хотите использовать эти переменные после текущего сеанса, их
необходимо записать в файл, используя процедуры, описанные в
разделе 9.7.
23.12. ИНТЕГРИРОВАННАЯ ПЕРИОДОГРАММА
Быстрый доступ:011
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Интегрированная периодограмма" проверяет,
являются ли точки данных во временном ряду случайными. Эта
процедура строит график на основе совокупной суммы ординат
периодограммы, нормализованных к вертикальной шкале (0,1).
Кроме того, на графике представлены границы
Колмогорова-Смирнова 75& и 95& для равномерного
распределения ординат.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя перемен- Вводите имя числового вектора, соде-
ной, содержащей данные ржащего данные вашего временного
вашего временного ряда: ряда
Хотите ли вы вычесть Вводите Y (Да) или нажимаете ENTER в
из данных среднее? том случае, если вам необходимо вы-
(Y/N): честь из данных среднее. В противном
случае нажимаете N (Нет).
ПРИМЕР
-------
В этом примере мы воспользуемся данными по курсу акций
фирмы IBM на момент закрытия биржи, наблюдаемым в течение
120 дней. Введя данные мы воспользуемся операцией DIFF,чтобы
вычислить разности между последовательными значениями во
временном ряду. Мы проанализируем не исходный ряд данных, а
разности, так как временной ряд не является стационарным (то
есть, у него нет фиксированного среднего).
Когда на экране появится подсказка о вводе данных
вашего временного ряда, введите:
DIFF ibm
Введите:
Y
(Да), чтобы указать, что из данных необходимо вычесть
среднее. На экране появится график.
Из графика видно, что изменения курса, наблюдаемые
ежедневно, вполне могут образовать случайную
последовательность, так как совокупная периодограмма
остается в пределах границ Колмогорова-Смирнова. Это
соответствует гипотезе о случайном блуждании курса акций.
23.13. УСЕЧЕНИЕ (СУЖЕНИЕ) ДАННЫХ
Быстрый доступ:012
ОПРЕДЕЛЕНИЕ
-----------
Используя функцию усечения данных, процедура "Усечение
(сужение) данных" применяет к концу вектора временного ряда
средство усечения данных по косинусу, снабженное звуковым
сигналом (a cosine bell-data taper).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора, со-
содержащей данные ва- держащего данные вашего временного
шего временного ряда: ряда.
Введите объем усечения Вводите дробъ, указывающую количе-
(сужения) ство данных, которые вы хотите усеч
ь,
(0.1): отбросить с обоих концов временного
ряда. Чтобы использовать значение,
принимаемое по умолчанию - (0.1),
нажмите ENTER.
Введите имя переменной, Вводите имя переменной, которую вы
в которой будут хранить- хотите использовать для хранения
ся усеченные (суженные) усеченных (суженных) данных. Если в
данные: нажмете ENTER, не указывая имени
переменной, результаты сохраняться
не будут.
ППРМЕР
------
В этом примере мы воспользуемся данными о курсе акций
фирмы IBM на момент закрытия биржи, наблюдаемым в течение
120 дней.
Введя данные, мы воспользуемся операцией (оператором)
DIFF, чтобы вычислить разности между последовательными
значениями во временном ряду. Мы проанализируем не исходные
данные, а разности, так как временной ряд не является
стационарным (то есть, у него нет фиксированного среднего).
Когда на экране появится подсказка о вводе данных
временного ряда, введите:
DIFF ibm
Введите
0.1
чтобы указать, что вы хотите отбросить 10& данных с обоих
концов ряда. Когда система напомнит вам о необходимости
указать имя переменной, в которой будут храниться усеченные
значения, введите:
taperibm
Система создаст псевдопеременную с этим именем и введет на
экран сообщение, из которого вы узнаете, что сохранены 119
значений. Теперь вы можете использовать переменную в других
процедурах. Если вы хотите сохранить переменную для
использования после текущего сеанса, вам следует записать ее
в файл, используя процедуры, описанные в разделе 9.7.
23.14. ПОСТРОЕНИЕ ГРАФИКА ЗАВИСИМОСТИ
РЕЗУЛЬТАТОВ ОТ ЧАСТОТ ФУРЬЕ
Быстрый доступ:013
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура позволяет построить график зависимости
результатов выполнения любой релевантной операции (например,
периодограммы) от частот Фурье. Она предназначена для
оказания помощи пользователю при построении графика на
основе таких как, переменных, например, сглаженные ординаты
периодограммы, или на основе результатов любой операции
фильтрования.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,содер
содержащей данные ваше- жащего данные.
го временного ряда:
Нужен ли вам для оси Х В том случае, если вам не нужен ло-
логарифмический масш- гарифмический масштаб на оси Х,
таб? (N/Y): вводите N (Нет) или нажимаете ENTER
В противном случае вводите Y (Да).
Нужен ли вам для оси В том случае, если вам не нужен ло-
У логарифмический гарифмический масштаб на оси У,
масштаб? (N/Y): вводите N (Нет) или нажимаете ENTER
Вводите Y (Да), если он вам нужен.
ПРИМЕР
------
В этом примере мы воспользуемся оцененными ординатами,
которые мы вычислили для данных по объему продаж
шампанского, используя процедуру "Периодограмма" (смотри
раздел 23.11). Эти значения хранились в переменной ords.
Если вы не прогоняли пример с периодограммой или не
сохранили ординаты, вам придется все это сделать, прежде чем
приступить к дальнейшей работе.
Когда на экране появляется подсказка о вводе ваших
данных,введите
ords
Чтобы указать, что вам не нужен логарифмический масштаб на
оси Х, введите:
N
Введите:
Y
чтобы указать, что вам нужно логарифмическое масштабирование
на оси У.
На экране появится график.
Используя логарифмическое масштабирование на оси У, вы
можете достаточно ясно увидеть, что при увеличении частоты
наблюдается уменьшение ординат.
Чтобы продолжить работу, нажмите ENTER.
23.15. МОДЕЛИРОВАНИЕ ARIMA ПО БОКСУ-ДЖЕНКИНСУ
Быстрый доступ:014
ОПРЕДЕЛЕНИЕ
-----------
Процедура ARIMA (Авторегрессионное Интегрированное
Скользящее Среднее) помогает пользователю оценивать
и прогнозировать модели, используя методы, описанные Боксом
и Дженкинсом (1976). Процедура ARIMA позволяет пользователю
моделировать дискретный временной ряд с точки зрения
константы, авторегрессионных термов и термов скользящего
среднего. В модель можно включить по одному сезонному и
несезонному фактору каждого типа (MA, AR, SMA и SAR).
Используя как разности значений с учетом сезонных
колебаний,так и разности значений без учета сезонных
колебаний, можно смоделировать разностные и неразностные
временные ряды. С помощью функциональных клавиш можно
обратиться к функциям идентификации модели, оценки моде-
ли,диагностической проверки и прогнозирования.
В процедуре моделирования ARIMA, предложенной Боксом и
Дженкинсом для оценки параметров модели используются
основной нелинейный алгоритм наименьших квадратов Марквардта
и необязательное обратное прогнозирование.
Основная форма модели, которую необходимо подобрать,
будет следующей:
Q(B)QS(B)
W1 = M + -----------
Ф(B)ФS(B)
Эта модель представляет данные как комбинацию прошлых
значений временного ряда и прошлых значений случайного
ввода, где:
t - указывает время,
B - обратный оператор,
W1 - исходные данные или разность этих данных,
M - постоянный терм,
Q(B) - оператор скользящего среднего без учета сезонных
колебаний,
1 - Q1B - Q2B2 - ... - QаBа
Ф(B) - авторегрессионный оператор без учета сезонных
колебаний,
1 - Ф1B - Ф2B2 - ... - ФрBр
Qs(B) - оператор скользящего среднего с учетом сезонных
колебаний,
1 - Q1Bs - Q2B2s - ... - QoBos
Фs(B) - авторегрессионный оператор с учетом сезонных
колебаний,
1 - Ф1Bs - Ф2B2s - ... - ФрBрs
s - случайная ошибка.
Обычно, она обозначается как модель (p,d,q) х (P,D,Q)s,
где:
p - степень (порядок) авторегрессионного терма без
учета сезонных колебаний,
d - степень (порядок) дифференциации без учета сезонных
колебаний.
q - степень (порядок) терма скользящего среднего без
учета сезонных колебаний,
p - степень (порядок) авторегрессионного терма с учетом
сезонных колебаний,
Q - степень (порядок) терма скользящего среднего с
учетом сезонных колебаний,
D - степень (порядок) дифференциации с учетом сезонных
колебаний,
S - длина сезонности.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора, со-
содержащей данные ваше- держащего данные вашего временного
го временного ряда: ряда.
После того, как вы ответите на эту подсказку, на экране
появится табло "Определение модели".
Ниже описываются статьи полей этого табло.
Поле Описание
------------------------------------------------------------
OUTPUT TIME Содержит имя переменной временного ряда,кото-
SERIES: рую вы анализируете, или любое преобразование
этой переменной.
ORDER OF Содержит степень дифференциации,которая будет
NONSEASONAL. применяться при оценке модели (от 0 до 2)
DIFF: 0 - нет дифференциациии,
1 - разности первой степени,
2 - разности второй степени.
CONSTANT Если вы хотите включить в модель константу,
CONTAINED введите Да. В противном случае введите Нет.
IN MODEL:
ORDER OF Содержит степень авторегрессионного терма без
NONSEASONAL учета сезонных колебаний (от 0 до 6).Это чис-
AR FACTOR: ло указывает количество авторегрессионных па-
раметров, подлежащих оценке.
ORDER OF Содержит степень терма скользящего среднего
NONSEASONALMA без учета сезонных колебаний (от 0 до 6).
FACTOR: Это число определяет количество параметров
скользящего среднего, подлежащих оценке.
ORDER OF Содержит степень дифференциации с учетом се-
SEASONAL DIFF: зонных колебаний, которая будет применяться
при оценке модели (от 0 до 2)
0 - нет дифференциации,
1 - разности первой степени,
2 - разности второй степени.
LENGTH OF Содержит длину сезонности (нулевая, когда
SEASONALITY: сезонные колебания не учитываются, и 2 или
больше 2 в противном случае).Например, для
ежемесячных данных будет использоваться се-
зонность длиной 12.
ORDER OF Содержит степень авторегрессионного терма с
SEASONAL учетом сезонных колебаний (от 0 до 6). Это
AR FACTOR: число определяет количество авторегрессион-
ных параметров с учетом сезонных колебаний,
подлежащих оценке.
-----------------------------------------------------------
Общий одномерный подбор модели с помощью ARIMA
-----------------------------------------------------------
Степень дифференциации без Степень дифференциации с уче-
учета сезонных колебаний:0 том сезонных колебаний: 0
Константа, содержащаяся в Длина сезонности: 12
модели: YES
Степень фактора AR без Степень фактора AR с учетом се-
учета сезонных колебаний:2 зонных колебаний: 0
Степень фактора MA без Степень фактора MA с учетом се-
учета сезонных колебаний:1 зонных колебаний: 0
Максимальное отставание для Максимальное отставание для
графиков acf:24 графиков PACF: 16
Отставание для критерия Требуемое количество прогно-
хи-квадрат:20 зов: 24
Обратное прогнозирование:
Нет
Максимальное число итераций:
25
1 критерий останова:
00010
2 критерий останова:
00100
Нажмите ENTER, чтобы скорректировать табло. Затем требуемую
клавишу PF
* IHELP 2SERIES 3ACF 4PACF 5ESTIM 6RACF
7RPACF 8INTREP 9FORCST 10QUIT
INPUT FRI MAR 15 1985 02:51:00 PM VERSION 1.0 REC:OFF
-----------------------------------------------------------
ORDER OF Содержит степень терма скользящего среднего
SEASONAL с учетом сезонных колебаний (от 0 до 6). Это
MA FACTOR: число указывает количество параметров сколь-
зящего среднего, подлежащих оценке.
MAXIMUM LAG Содержит максимальное значение отставаний,ко-
FOR ACF торое вы будете использовать при построении
PLOTS: всех графиков функции автокорреляции (больше
или равно нулю).
LAGS FOR Содержит количество термов для критерия хи-
CHI-SQUARE квадрат, используемого для проверки точности
TEST: подбора при автокорреляциях остатков (больше
или равно нулю).
MAXIMUM LAG Содержит максимальное значение отставаний,ко-
FOR PACF торое вы хотите использовать для всех графи-
PLOTS: ков функции частной автокорреляции (больше
или равно нулю).
NUMBER OF Содержит количество точек, которое следует
FORECASTS включить в прогноз подбираемой модели (больше
DESIRED: или равно нулю).
BACKFORE- Каждое значение в модели зависит от предыду-
CASTING щих значений. Введите "Да" для этого поля в
том случае,если вам необходимо обратное про-
гнозирование других (дополнительных) значе-
ний данных, подлежащих использованию при
разработке модели. В том случае, если вы не
хотите использовать в процессе оценки обрат-
ное прогнозирование, введите "Нет".
MAXIMUM Указывает максимальное количество итераций в
ITERATIONS: процессе оценки (больше или равно нулю).
Границы процесса оценки модели определяются
значением этого поля и критериями останова,
задаваемыми двумя последними полями табло.
STOPPING Система прекратит процесс оценки, когда оста-
CRITERION точная сумма квадратов между итерациями дос-
1: тигнет минимального значения (изменения),
указанного в этом поле (больше или равно
нулю).Границы процесса оценки модели опреде-
ляются критериями останова и максимальным
количеством итераций, которое было указано.
STOPPING Система прекратит процесс оценки,когда оценки
CRITERION параметров между итерациями достигнут мини-
2: мального значения (изменения), указанного в
этом поле (больше или меньше нуля). Границы
процесса оценки определяются критериями оста-
нова и максимальным количеством итераций, ко-
торое было указано.
Вводя с помощью клавиши табуляции данные, уместные для
вашей модели, вы сможете обратиться к любому полю,
представленному на табло. В этом случае, если в поле
выходного временного ряда вы введете недействительную
переменную или преобразование, в нижнем правом углу вашего
экрана появится сообщение об ошибке. В этом случае, если вы
введете недействительные данные в другие поля, STATGRAPHICS
заменит эти введенные данные последними действительными
данными, введенными вами. Введя все ваши изменения, нажмите
ENTER, чтобы скорректировать табло.
Наблюдая за строкой табло, отражающей состояние, вы
заметите, что во время этой процедуры функциональные клавиши
постоянно используются. F1 и F10 сохраняют свои обычные
определения (HELP и QUIT). Определения действий, выполняемых
с помощью других функциональных клавиш, описаны ниже.
Клавиша Определение
------------------------------------------------------------
F2 Строит на основе ваших данных график временного
(SERIES) ряда. Вас спросят, какой график вам нужно пост-
роить: график исходного ряда или график раз-
ностного ряда. В том случае, если вам нужно по-
строить график разностного ряда, вас попросят
указать разности с учетом и без учета сезонных
колебаний (от 0 до 2). После того, как график
будет выведен на экран, нажмите ENTER, чтобы
возвратиться к табло "Определение модели".
F3 Строит на основе ваших данных график функции
(ACF) выборочной автокорреляции. Вас спросят, какой
график вам нужно построить: график исходного
ряда или график разностного ряда. В том слу-
чае, если вам нужно построить график разност-
ного ряда, вас попросят указать количество
разностей с учетом сезонных колебаний и без
учета сезонных колебаний (от 0 до 2). Система
построит график оцененных коэффициентов авто-
корреляции на основе ваших данных. Две сигма-
границы, проходящие около нулевой отметки,
представлены штриховыми линиями.
По окончании работы с графиком нажмите ENTER,
и на экране появится таблица оцененных коэффи-
циентов и средних квадратических ошибок. В
том случае, если таблица занимает несколько
страниц, вы можете просматривать страницы,
используя клавиши управления курсором. Или вы
можете сразу найти нужную страницу, введя соот-
ветствующий номер.
Закончив работу с таблицей, нажмите F10. Систе-
ма попросит вас указать имя переменной, в кото-
рой вы хотите сохранить коэффициенты автокор-
реляции. Введите имя соответствующей переменной
Если вы хотите вернуться к табло "Определение
модели", не сохраняя результаты, нажмите ENTER.
F4 Строит на основе ваших данных график функции
(PACF) частной автокорреляции. Вас попросят указать,
какой график нужно построить: график исходного
ряда или график разностного ряда. В том случае,
если вам необходимо построить график разностно-
го ряда, вас попросят указать количество раз-
ностей с учетом и без учета сезонных колебаний
(от 0 до 2). Система построит на основе ваших
данных график оцененных коэффициентов частной
автокорреляции. 2 сигма-границы, проходящие
около нулевой отметки, представлены штриховы-
ми линиями.
Когда вы закончите работать с графиком, нажми-
те ENTER и на экране появится таблица оцененных
коэффициентов и средних квадратических ошибок.
Если таблица занимает несколько страниц, вы мо-
жете просматривать страницы, используя клавиши
управления курсором. Или вы можете ввести номер
соответствующей страницы.
Закончив работать с таблицей, нажмите F10. Сис-
тема попросит вас указать имя переменной, кото-
рую вы хотите использовать для хранения оценен-
ных коэффициентов частной автокорреляции. Вве-
дите имя соответствующей переменной или нажмите
ENTER, чтобы вернуться к табло "Определение мо-
дели", не сохраняя результаты.
F5 Начинает процесс оценки модели. Если оценка
завершается успешно,STATGRAPHICS выводит на
экран таблицу оцененных параметров модели,
приблизительных средних квадратических ошибок,
t - коэффициентов и уровней значимости оценок
(малые вероятности соответствуют значимым па-
раметрам).
Кроме того, в таблице содержится оценка диспер-
сии белого шума, в основе которой лежат средняя
квадратическая ошибка и оценка критерия хи-
квадрата, используемого при определении адек-
ватности модели. Эта оценка базируется на пер-
вых k отставших остаточных коэффициентов авто-
корреляции в соответствии с требованиями, ука-
занными в поле "Lags for Chi-Sguare Test" на
табло "Определение модели".
Закончив работу с таблицей, нажмите ENTER, что-
бы возвратится к табло "Определение модели".
F6 Строит график функции автокорреляции на основе
остатков модели. Прежде чем строить график ос-
татков, необходимо оценить модель, используя
клавишу F5.
Закончив работу с графиком, нажмите ENTER, и
на экране появится таблица оцененных коэффи-
циентов и средних квадратических ошибок. Закон-
чив работу с таблицей, нажмите F10. Вам предос-
тавится возможность сохранить оцененные коэффи-
циенты автокорреляции.
F7 Закончив работать с графиком, нажмите ENTER и
на экране появится таблица оцененных коэффи-
циентов и средних квадратических ошибок.
Закончив работу с таблицей, нажмите F10. Вам
предоставят возможность сохранить оцененные
коэффициенты автокорреляции.
F8 Строит интегрированную периодограмму (смотри
(INTPER) раздел 23-12) на основе остатков модели. Преж-
де чем строить периодограмму остатков, необхо-
димо оценить модель, используя клавишу F5.
Закончив работу с графиком, нажмите ENTER,
чтобы вернуться к табло "Определение модели".
F9 Строит график прогнозов, используя границы
(FORCAST) прогноза подбираемой модели 50& и 95&.
Прежде чем строить график прогнозов, вы долж-
ны оценить модель, используя клавишу F5.
Закончив работу с графиком, нажмите ENTER.
Вам предоставится возможность сохранить прог-
нозы и верхнюю, и нижнюю границы прогноза
ПРИМЕР
------
Чтобы проиллюстрировать процедуру ARIMA, мы построим
модель для данных по объему продаж шампанского, которые
хранятся в переменной bubbly. Данные, по-видимому, следуют
мультипликативной модели с учетом сезонных колебаний, а не
аддитивной модели (Августовские показатели остаются низкими,
тогда как в декабре они возрастают больше чем на период). В
связи с этим, мы смоделируем логарифмы данных, а не исход-
ных значений.
Когда на экране появится подсказка о вводе ваших
данных, введите:
LOG bubbly
Когда на экране появится табло "Определение модели", мы
увидим, что по умолчанию длина сезонности равна 12. Это
соответствует и нашим данным. Начнем с построения графика
исходного временного ряда (LOG bubbly). Нажмите:
F2
и введите:
0
в ответ на просьбу системы указать, график какого ряда вам
необходимо построить: исходного или разностного. На экране
появится график. Благодаря логарифмам данных вы сможете
лучше представить последовательную модель данных с учетом
сезонных колебаний.
Чтобы вернуться к табло, нажмите ENTER.
Теперь идентифицируем модель. Нажмите:
F3
и введите:
D
в ответ на просьбу системы, указать, какой временной ряд вам
нужен: исходный или разностный. Введите
0,
чтобы указать количество разностей без учета сезонных
колебаний и
1,
чтобы указать количество разностей с учетом сезонных
колебаний.
На основании этого система построит график
коэффициентов автокорреляции для Z1-Z1-12.
Обратите внимание на то, что столбики не выходят за пределы
двух сигмоидальных границ, указывая на то, что сезонные
разности почти случайные. Если построить график функции
частной автокорреляции (F4), результат будет аналогичный.
Нажмите
ENTER
и на экране появится таблица оцененных коэффициентов и
средних квадратических ошибок.
Чтобы выйти из таблицы, нажмите
F10
В ответ на подсказку о сохранении коэффициентов нажмите
ENTER.
На следующем этапе мы займемся подбором модели с одним
несезонным параметром AR, с одним сезонным параметром AR и
без константы для первых сезонных разностей, т.е. подбором
модели а (1,0,0) х (1,1,0) для s=12.
Скорректируйте свое табло "Определение модели".
-----------------------------------------------------------
Общий Одномерный Подбор Модели с помощью ARIMA.
-----------------------------------------------------------
выходной временной ряд: LOG bubbly
Степень (порядок) несезонной Степень(порядок) сезонной диф-
дифференциации (разности): 0 ференциации (разности): 1
Постоянная, содержащаяся в Длина сезонности: 12
модели: Нет
Степень (порядок) несезонно- Степень (порядок) сезонного
го фактора AF: 1 фактора AF: 1
Степень (порядок) несезонно- Степень (порядок) сезонного
го фактора MA: 0 фактора MA: 0
Максимальное значение отста- Максимальное значение отста-
ваний для графиков acf: 24 иваний для графиков PACF: 16
Отставание для критерия хи- Количество прогнозов: 24
квадрат: 20
Обратное прогнозирование: Нет
Максимальное число итераций: 25
1 Критерий останова: 00010
2 Критерий останова: 00100
Нажмите ENTER, чтобы скорректировать табло.
Затем нажмите нужную клавишу PF.
* 1HELP 2SERIES 3ACF 4PACF 5ESTIM 6PACF - 7RPC
AF 8INTPER 9FORCST 10QUIT
INPUT FRI MAR 15 1985 02: 58:00 FM VERSION1.0 REC:OFF
----------------------------------------------------------
Чтобы скорректировать табло, нажмите
ENTER
Затем нажмите
F5
чтобы оценить требуемую модель.
Параметр AR (1) статистически значим на уровне 5&.
Критерий хи- квадрат указывает незначимый результат, что
наводит на мысль о том, что в целом коэффициенты
автокорреляции остатков соответствуют случайному ряду.
------------------------------------------------------------
Оценка начинается .....
Итерация 1: Остаточная сумма квадратов .....2.212
Итерация 2: Остаточная сумма квадратов .....2.2093
------------------------------------------------------------
Краткое описание подбираемой модели
------------------------------------------------------------
Параметр Оценка Станд.ошибка t-значение Вероятность
AR (1) .27794 .13073 2.12603 .03777
SAR (12) -.10964 .15698 -.69838 .48773
------------------------------------------------------------
Модель, подбираемая для сезонных разностей 1 степени
(порядка) при сезонной длине = 12
Оцененная дисперсия белого шума = 0.038091 при 58
степенях свободы,
оценка критерия хи-квадрат при первых 20 коэффициентах
автокорреляции = 16.966,
причем вероятность большего значении при наличии белого
шума = 0.52546.
Количество выполненных итераций: 3
------------------------------------------------------------
Чтобы вернуться к табло, нажмите
ENTER
Чтобы проанализировать остатки, нажмите
F6
На экране появится график.
Вообще говоря, коэффициенты автокорреляции, которые
существовали в исходных данных, особенно при отставаниях 1 и
2, были удалены. Вместе с тем, коэффициент при отставании 3
выходит за пределы сигмоидальных границ, что позволяет
предположить следующее: при этом отставании в остатках может
оставаться некоторая автокорреляция.
Нажмите
ENTER
и на экране появится таблица оцененных коэффициентов и
средних квадратических ошибок.
Чтобы выйти из таблицы, нажмите
F10
В ответ на подсказку о сохранении коэффициентов
автокорреляции нажмите ENTER.
В случае необходимости, используя клавиши F7 и F8,
можно проанализировать остатки. Закончив работу, вернитесь к
табло.
Мы закончим этот пример прогнозированием данных.
Выполним прогноз с помощью подобранной модели. Нажмите F9, и
на экране появится график.
Данные представлены на графике при границах прогноза
50& и 95&.
По окончании работы с графиком нажмите
ENTER
и введите три раза
N
в ответ на подсказки о сохранении прогнозов и их границ.
Чтобы выйти из табло "Определение модели" нажмите F10.
В ответ на подсказку о сохранении остатков нажмите ENTER.
23.16 ПОСТРОЕНИЕ МАТРИЦЫ КОЭФФИЦИЕНТОВ
ВЗАИМНОЙ КОРРЕЛЯЦИИ
Быстрый доступ:015
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Построение матрицы коэффициентов взаимной
корреляции" позволяет вам создать трехмерное представление
матриц коэффициентов взаимной корреляции. Если даны
временные ряды p,причем каждый длиной n, процедура создаст
представление матриц первых k коэффициентов взаимной
корреляции, где элемент i-строки и j-столбца k матрицы яв-
ляется коэффициентом взаимной корреляции между переменной i
во время t и переменной j во время t-k. Матрицы представлены
как столбики, высота которых пропорциональна коэффициентам.
Вы можете создать представления только тех матриц,
столбики которых будут превышать -+2/ n.
Если хотите, можете нанести на график все столбики.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,содер-
содержащей данные ваше- жащего первый набор данных вашего
го временного ряда: временного ряда.
Введите имя другой Вводите имя числового вектора,содер-
переменной, содержащей жащего другой набор данных временно-
данные временного ряда: го ряда.Эта подсказка будет повторя-
ться до тех пор, пока вы не нажмете
ENTER чтобы сообщить, что вы закон-
чили определение переменных времен-
ного ряда.Все указанные переменные
должны быть той же длины,что и пер-
вая.
Введите требуемое Вводите максимальное значение отста-
количество отстава- ваний, требуемое для представления
ний (12): матриц коэффициентов взаимной корре-
ляции.
Чтобы использовать значение,принима-
емое по умолчанию (12), нажмите
ENTER.
Будете заполнять все Чтобы нанести на график только коэф-
столбики? фициенты, превышающие -+2/n, вводите
(N/Y) N (Нет) или нажимаете ENTER.
Чтобы нанести на график все коэффи-
циенты, вводите Y (Да).
Введите количество Вводите число, чтобы указать сколь-
матриц на строку ко матриц вы хотите создать на каж-
(5): дой строке. Или нажимаете ENTER,
чтобы использовать значение, прини-
маемое по умолчанию (5).
ПРИМЕР
------
В этом примере мы воспользуемся данными по розничной
продаже продукта и по экономическому показателю
относительной ценности, рассматриваемому как потенциальный
опережающий индикатор (Бокс и Дженкинс, 1976). Так как
временные ряды не являются стационарными, мы будем ис-
пользовать не исходные значения данных, а разности.
При появлении на экране подсказки о вводе первого
временного ряда, введите:
DIFF units
При появлении на экране подсказки о вводе другого
временного ряда, введите:
DIFF leadind
В ответ на следующую подсказку введите:
ENTER
Затем введите:
12
чтобы указать максимальное 12-периодное отставание для
матриц коэффициентов взаимной корреляции. Введите Y (да),
чтобы указать, что на график нужно наносит все столбики.
Теперь введите 5, чтобы указать, что на каждой строке экрана
должно быть представлено пять матриц. На экране появится
график.
В каждой матрице коэффициент автокорреляции каждого
ряда показан относительно самого себя на основной диагонали.
Коэффициенты взаимной корреляции между рядами нанесены вне
диагонали. Столбик, нанесенный на графике в строке i,
столбце j при отставании k, является коэффициентом взаимной
корреляции между переменной i во время t и переменной j во
время t+k.
Сравните этот график с графиком коэффициентов взаимной
корреляции Влияние опережающего индикатора очевидно. В
отличие от графика коэффициентов взаимной корреляции эту
процедуру можно использовать для трех и большего количества
переменных.
Чтобы вернуться к меню "Анализ временных рядов",
нажмите ENTER.
.3460
Г Л А В А 24
АНАЛИЗ КАТЕГОРИЧЕСКИХ ДАННЫХ
Чтобы выполнить примеры, приводимые в этой главе,
считайте с вашего диска "Наборы выборочных данных" следующие
24.1 ВВЕДЕНИЕ
переменные:
Большинство процедур STATGRAPHICS предназначены для
Имя файла Переменная
анализа числовых переменных. Вместе с тем, многие
-----------------------------------------------------------
эксперименты предусматривают использование переменных
CARDATA year
качества и переменных, которые нельзя изменить
weight
(неметрических переменных). Например, в файлы, находящиеся
origin
на вашем диске "Наборы выборочных данных", мы включаем
make
переменные, в которых отражены страна "рождения" (страна-
производитель) автомобилей и групповой номер ряда
Команды по считыванию переменных в рабочую область есть
лабораторных экспериментов. С этими переменными не связаны
в разделе 9.6.
никакие натуральные числовые значения.
Процедуры анализа категорических данных можно
использовать для анализа данных, которые не соответствуют
непрерывной системе счисления. В этой главе "Анализ
24.2 ТАБЛИЦЫ СОПРЯЖЕННОСТИ
категорических данных" описываются пять процедур. Ниже
Быстрый доступ:р1
приводятся краткие сведения о процедурах. Подробно они
рассматриваются в разделах 24.2 - 24.6.
ОПРЕДЕЛЕНИЕ
-----------
Процедура Кол-во Тип Описание
Когда анализируемые вами данные состоят из таблицы
переменных данных
частот,склассифицированных по двум показателям (факторам),
------------------------------------------------------------
используя процедуру "Таблицы сопряженности", вы сможете
Таблицы 1 N Подсчитывает хи-квадрат,
непосредственно проанализировать частоты каждого показателя
сопряжен- (числовые) коэффициенты сопряженности
(фактора), не прибегая к построению комбинационных таблиц. В
ности и другие статистические
общем, вам интересно будет узнать, связаны ли два показателя
показатели для двухнаправ-
классификации, и если да, то насколько крепка эта связь.
ленной таблицы.
Чтобы проанализировать данные как таблицу
сопряженности, частоты необходимо поместить в матрицу. Это
Показатель 2 N Вычисляет хи-квадрат, что-
можно сделать, используя процедуру "Manipulate Variables in
хи-квадрат бы сравнить наблюдаемые и
workspace" (смотри раздел 9-4), процедуру "Создание матрицы
оценки ка- ожидаемые частоты.
данных" (смотри раздел 25-2), или непосредственно в ответ на
чества под-
запрос ваших данных, используя оператор RESHAPE.
бора
Как только вы введете матрицу, система вычислит
различные итоговые статистические показатели, включая:
Комбинацион- 2 C/N Вычисляет частоты и итого-
ная таблица или символь- вые статистические показа-
0 Показатель хи-квадрат, чтобы проверить гипотезу
3 ные/чис- тели для двух или трех по-
независимости показателей (факторов) строки и
ловые казателей (факторов).
столбца. На экран показатель вводится вместе со
степенями свободы (D.F) и уровнем значимости.
Числовое 1 C Преобразует символьную
кодирование матрицу в числовой вектор.
0 Коэффициент сопряженности (сходимости,
показателей
смежности, связности), лямбда-значения для
(факторов)
асимметричных и симметричных случаев и несколько
классификации
других показателей таблицы (табличных показателей).
Повторное 1 C/N Повторно кодирует символь-
ВВОД ДАННЫХ
кодирование ную или числовую перемен-
-----------
переменных ную.
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы, Вводите имя матрицы, содержащей резуль-
содержащей двухнап- таты подсчетов показателей двухнаправ-
равленную таблицу: ленной таблицы.
ПРИМЕР
------
В этом примере мы воспользуемся данными по успехам,
достигнутым в труде 400 служащими. Мера успеха была выведена
на основе комбинационного анализа производительности каждого
служащего, достигнутой ими во время курса обучения, который
они прошли перед тем, как приступить к работе.
Производительность при прохождении курса
обучения
Ниже Средний Выше
среднего среднего
-------------------------------------------------
Успех Низкий 23 60 29
в работе Средний 28 79 60
Очень хо- 9 49 63
роший
Когда на экране появится подсказка о вводе матрицы,
введите
3 3 RESHAPE 23 60 29 28 79 60 9 49 63
чтобы создать двухнаправленную таблицу для данных,
представленных выше. На экране появится следующие
статистические показатели:
Хи-квадрат = 20.1789 со степ.свободы (D.F) 4. Уровень значи-
мости = 04.60382
Коэффициент сопряженности = 0.219145
Лямбда (Асимметричный) = 0.0128755 с зависим. от строк
0.0660377 с зависимюот столбцов
Лямбда (Симметричный) = 0.0382022
Вывести дополнительные статистические показатели? (Нет):
Высокое значение хи-квадрата и очень низкий уровень
значимости позволяют предположить, что курс обучения показал
значительное различие между уровнями производительности
каждого служащего. Уровень значимости позволяет предположить
вероятность превышения значения хи-квадрата, если бы
показатели (факторы) были независимыми.
Введите
Y
(Да) в ответ на подсказку о вводе дополнительных
статистических показателей и на экране появятся следующие
результаты:
Cramer,s V = 0.158819
Коэффициент неопределенности = 0.0241177 с зависимостью от
(Ассиметр) строк
0.0259302 с зависимостью от
столбцов
Коэффициент неопределенности (Симметр.) = 0.0249911
Kendall,s Tau B = 0.19866 с уровнем значимости = .0000
Kendall,s Tau C = 0.188812
Условная Гамма = 0.310209
Somer,s D (Асимметр.) = 0.205611 с зависимостью от строк
0.191945 с зависимостью от столбцов.
Somer,s D (Симметр.) = 0.198543
Все эти статистические показатели иногда используются
для измерения связи (взаимосвязи) между строками и
столбцами.
Чтобы вернуться к меню "Анализ категорических данных",
нажмите ENTER.
24.3 ПОКАЗАТЕЛЬ ХИ-КВАДРАТ ДЛЯ ОЦЕНКИ
КАЧЕСТВА ПОДБОРА
Быстрый доступ:р2
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Показатель хи-квадрат оценки качества
подбора" позволяет рассчитать показатель хи-квадрат, с
помощью которого можно сравнить наблюдаемые частоты с
ожидаемыми. Хи-квадрат определяется как сумма наблюдаемых
частот минус возведенные в квадрат ожидаемые частоты, причем
каждая делится на ожидаемое значение.
Если не одна из ожидаемых частот не будет слишком
маленькой, полученный в результате статистический показатель
будет соответствовать распределению хи-квадрат. Этот
показатель также высчитывается с помощью процедуры "Подбор
распределения" (смотри раздел 16-2).
Вместе с тем, если у вас уже есть переменные,
содержащие наблюдаемые и ожидаемые частоты, с помощью
процедуры, описанной здесь, вы сможете непосредственно
вычислить показатель хи-квадрат.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
-----------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,со-
содержащей наблюдаемые держащего наблюдаемые частоты.
значения:
Введите имя переменной, Вводите имя числового вектора,со-
содержащей ожидаемые держащего ожидаемые частоты.
значения:
Введите минимальное Вводите минимальное значение, ко-
ожидаемое значение торое может иметь класс до того,
для группирования как он будет объединен с другим
классов (5): классом. Если класс слишком ма-
ленький, критерий хи-квадрат мо-
жет оказаться недействительным.
Чтобы устранить эту проблему, сис-
тема будет объединять небольшие
классы в соответствии с указаниями.
Значение, принимаемое для минимума
по умолчанию, показано в подсказке
в скобках.
ПРИМЕР
------
Гатмен, Уилкс и Хантер (1982) сообщили результаты
эксперимента, проводимого с целью подсчета количества
альфа-частиц, излучаемых ураном. Количество излучаемых
альфа-частиц было подсчитано для 100 интервалов, а
результаты были представлены в виде таблицы. Согласно теории
распределение подсчитанных результатов излучения
соответствует пуассоновскому распределению. Таким образом,
используя среднее 4.2 подсчетов, можно вычислить ожидаемые
значения.
Кол-во излучае- Наблюдаемое число Ожидаемое число
мых частиц временных интервалов временных интервалов
------------------------------------------------------------
0 1 1,5
1 5 6,3
2 16 13,2
3 17 18,5
4 26 19,4
5 11 16,3
6 9 11,4
7 9 6,9
8 2 3,6
9 1 1,7
10 2 0,7
11 1 0,4
----------------------------------------------------------
В этом примере мы воспользуемся приведенными выше
данными, чтобы определить, соответствуют ли подсчеты
наблюдаемой частоты ожидаемым частотам.
При появлении на экране первой подсказки, введем
1 5 16 17 26 11 99 2 1 2 1
чтобы указать числовой вектор, содержащий наблюдаемые вами
значения.
При появлении второй подсказки введем:
1,5 6,3 13,2 18,5 19,4 16,3 11,4 6,9 3,6 1,7 0,7 0,4
чтобы определить числовой вектор, содержащий ожидаемые
значения.
При появлении подсказки об объединении классов введем:
5
чтобы сообщить системе о том, что она должна объединить
любые классы, имеющие 5 значений или меньше.
Будут подсчитаны следующие статистические показатели:
ОЖИДАЕМЫЕ И НАБЛЮДАЕМЫЕ ЗНАЧЕНИЯ, РАЗМЕЩЕННЫЕ В ПЕРВЫХ ДВУХ
СТОЛБЦАХ: EXPOBSMAT
ПОДСЧИТАННЫЙ ХИ-КВАДРАТ = 6,54804 С 7 D.F.(D.F.
-степень свободы)
ВЕРОЯТНОСТЬ ПРЕВЫШЕНИЯ 6,54804 = 0,477402
Классы 0 и 1 были объединены в одну группу, также как и
классы 8,9,10 и 11. Показатель хи-квадрат рассчитывался на
основе групп, полученных в результате объединения классов.
Он выведен на экран вместе с уровнем вероятности. Этот
показатель не является значимым, в результате чего можно
предположить, что пуассоновское распределение обеспечивает
хороший подбор данных.
Обратите внимание на то, что степени свободы не были
скорректированы с учетом оцененных параметров. В примере у
подсчитанного показателя 6,54 было бы 6 степеней свободы,
так как было образовано 8 классов, и оценивался 1 параметр.
В случае необходимости, используя процедуру "Вероятности
хвоста распределения" (раздел 16-4), можно вычислить
исправленную вероятность. В этом случае показатель остается
незначимым, опять указывая на хороший подбор для
пуассоновского распределения.
Чтобы вернуться к меню "Анализ категорических данных",
нажмите ENTER.
24.4 КОМБИНАЦИОННАЯ ТАБЛИЦА
Быстрый доступ:р3
ОПРЕДЕЛЕНИЕ
-----------
При анализе данных, содержащих несколько показателей
классификации, первой процедурой, которой вы, вероятно,
захотите воспользоваться, будет процедура "Комбинационная
таблица". Эта процедура выполняет операции над
необработанными данными с целью подсчета частот и генери-
рует таблицы, в которых частоты и проценты подразделены по
двум или по трем показателям.
Эта процедура обеспечивает те же выходные данные, что и
процедура "хи-квадрат", если не считать того, что она
табулирует данные, тогда как процедура хи-квадрат
предполагает, что данные уже представлены в виде таблиц.
ВВВОД ДАННЫХ
-------------
Подсказка Ответ
------------------------------------------------------------
Введите имя первой Вводите имя символа или числовой пере-
переменной с дан- менной, содержащей первый набор ваших
ными: данных.
Введите матрицу с Вводите имя матрицы, содержащей метки
метками класса класса для каждого однозначного значе-
(принимаемые по ния вашего первого набора данных. Чтобы
умолчанию): использовать метки, принимаемые по умол-
чанию (CL1, CL2 и т.д.), нажмите ENTER.
Введите имя второй Вводите имя символа или числовой пере-
переменной с дан- менной, содержащей второй набор ваших
ными: данных.
Введите матрицу с Вводите имя матрицы, которая содержит
метками класса метки класса для второй переменной,
(принимаемые по если таковая имеется.
умолчанию):
Введите имя треть- Вводите имя третьей переменной, если
ей переменной с таковая имеется.
данными, если та-
ковая имеется:
Постолбцовое,пост- Чтобы выбрать постолбцовый подсчет про-
рочное или потаб- центов, вводите C (или нажмите ENTER).
личное вычисление Чтобы указать построчный подсчет, вводи-
процентов? те R. И, наконец, чтобы указать потаб-
(C/R/T): личный подсчет, вводите T. От этого бу-
дет зависеть, как будут подсчитываться
проценты отдельной ячейки
ПРИМЕР
------
В этом примере мы воспользуемся данной процедурой,
чтобы построить комбинационную таблицу по двум показателям
на основе выборки данных о 155 машинах. Этими двумя
показателями будут: страна рождения (страна-производитель) и
год производства.
Когда на экране появится подсказка об указании первой
переменной, введите:
origin
Когда на экране появится подсказка о метках, нажмите:
ENTER
чтобы выбрать метки, принимаемые по умолчанию. Когда на
экране появится подсказка о вводе второй переменной,
введите:
year
Затем нажмите
ENTER
в ответ на две следуюшие подсказки, чтобы выбрать метки для
второй переменной (принимаемые по умолчанию) и чтобы
указать, что вы не хотите определять третью переменную.
Когда на экране появиться подсказка о том, что вам
необходимо указать постолбцовый, постраничный или
потабличный подсчет процентов, нажмите
ENTER ,
чтобы указать, что система должна подсчитывать проценты на
постолбцовой основе.
На экране появится комбинационная таблица.
Процедура выводит на экран количество наблюдений,
которые подразделяются на классы, а также процент, который
составляет каждая ячейка от общего количества наблюдений,
указанных в столбце. Кроме того на экран выводятся для
каждого столбца и строки общее количество наблюдений и
соответствующие проценты, которые составляют каждый столбец
и строка от общего количества наблюдений, указанных в
строках и столбцах
Если вы хотите опять сгенерировать комбинационную
таблицу, но уже с описательными метками, сначала вам
необходимо создать матрицу меток. Проще всего это можно
сделать с помощью процедуры "Переменные повторного
кодирования", описанной в разделе 24-6. Пример, приводимый в
этом разделе, показывает, как можно создать матрицу из трех
столбцов со значениями "США", "Европа" и "Япония". Затем эту
матрицу можно использовать в процедуре "Комбинационная
таблица", когда система напомнит вам о необходимости ввести
матрицу меток.
Комбинационная таблица стран-производителей
по годам.
Год проис- ---------------------------------------- Общие
хождения класс 1 класс 2 класс 3 класс 4 класс 5 данные по
78 79 80 81 82 строкам
----------------------------------------------------
OL 1 22 23 7 13 20 85
1 61.1 79.3 24.1 43.3 64.5 54.8
----------------------------------------------------
OL 2 6 4 9 5 2 26
2 16.7 13.8 31.0 16.7 6.5 16.8
----------------------------------------------------
OL 3 8 2 13 12 9 44
3 22.2 6.9 44.8 40.0 29.0 28.4
----------------------------------------------------
Общие данные 36 29 29 30 31 155
по столбцам 23.2 18.7 18.7 19.4 20.0 100.0
Чтобы после просмотра таблицы вывести на экран итоговые
статистические показатели, нажмите
ENTER
На экране появится следующая информация:
хи-квадрат = 24.6933 с 8 D.F.
Уровень значимости = 1.75183Е-3
Коэффициент сопряженности = 0.370701
Лямбда (Асимметр.) = 0.0857143 с зависимостью от строк
0.0756303 с зависимостью от столбцов
Лямбда (Симметр.) = 0.0793651
Вывести дополнительные показатели? (Нет):
В ответ на подсказку о вводе дополнительных показателей
введите
Y
и на экране появятся итоговые статистические показатели.
Итоговые статистические показатели, приведенные выше,
остаются такими же независимо от того, какой подсчет
процентов вы укажите: постолбцовый, построчный или
потабличный.
Если бы для комбинационной таблицы мы указали три
переменных, для каждого уровня третьего показатея (фактора)
были бы сгенерированы отдельная таблица и итоговые
статистические показатели.
Чтобы вернуться к меню "Анализ категорических данных",
нажмите ENTER.
24.5 ЧИСЛОВОЕ КОДИРОВАНИЕ ПОКАЗАТЕЛЕЙ
КЛАССИФИКАЦИИ
Быстрый доступ:р4
ОПРЕДЕЛЕНИЕ
-----------
Многие процедуры STATGRAPHICS требуют, чтобы показатели
классификации определились с помощью числовых векторов,
которые нумеровали бы показатели. Эта процедура позволяет
вам преобразовать символьные матрицы в чмсловые вектора. Это
происходит так: процедура берет символьную матрицу, нумерует
каждый однозначный элемент этой матрицы и создает числовой
вектор, содержащий коды уровней. Процедуру можно
использовать при подготовке данных для таких процедур, как
анализ дисперсии.
ВВОД ДАННЫХ
------------
Подсказка Ответ
-----------------------------------------------------------
Введите имя матри-Вводите имя символьной матрицы, кото-
цы содержащей рую вы хотите преобразовать в числовой
коды символов: вектор.
Верхняя граница Это поле указывает, как надо рассматривать
верхнюю границу каждого интервала. Если вы
хотите включить значения, равные верхней
границе, введите LE (меньше или равно).
Если вы хотите включить только те значения
которые меньше верхней границы, введите
LT (меньше чем).
Вводя значения, соответствующие вашим данным, вы
сможете с помощью клавиши табуляции обратиться к любому
полю, указанному в табло. Закончив ввод значений, нажмите
ENTER, чтобы выполнить повторное кодирование.
Эта процедура берет значения входной переменной и для
каждого класса преобразует значение в интервале в новое
указанное значение. Любые входные значения, которые не
попадают в определенный класс в выходной переменной
опускаются.
Чтобы подойти под рамки какого-либо класса, входное
значение должно быть больше (больше или равно) нижней
границы и меньше (меньше или равно) верхней границы. Если в
вашей схеме кодирования какое-либо значение входит в более
чем один интервал, это значение будет включено в последний
указанный класс. Например, если класс 1 меньше или равен
2000, а класс 2 больше или равен 2000, все значения, равные
2000, будут включены в класс 2. Для символьных переменных
порядок сортировки - A-Z, за которыми следует a-z, за
которыми следуют любые специальные символы.
Вы заметите, что в нижней части табло "Повторное
кодирование переменных" определяются функциональные клавиши
этой процедуры. F1 и F10 сохраняют свои обычные определения
(HELP и QUIT). F2 действует в соответствии с приводимым ниже
описанием.
F2 Если и входная и выходная переменные
(REPEAT) являются числовыми, а ваша схема повторного
кодирования придерживается той же модели, вы
можете сэкономить время, затрачиваемое на
ввод, используя клавишу F2. Введите нижнюю и
верхнюю границы, введите новое значение для
первых двух классов и затем нажмите F2, чтобы
повторить все действия по этой модели для
всего табло. Это свойство описывается во
втором из приводимых здесь примеров.
ПРИМЕР
------
Сначала мы покажем на простом примере, как можно
сгенерировать символьную матрицу для указания места
"рождения" (страны-производителя) машин.
Когда на экране появится подсказка об указании
переменных, подлежащих повторному кодированию, введем
1 2 3
так как место рождения (страны-производителей) машин
определяются, как 1 = США, 2 = Европа и 3 = Япония.
Когда на экране появится табло "Повторное кодирование
переменных", заполните его.
------------------------------------------------------------
Процедура "Повторное кодирование переменных"
Нижняя Верхняя Новое Нижняя Верхняя Новое
граница граница значение граница граница значение
1 1 США 2 2 Япония
3 3 Европа
Входн.перемен: 1 2 3 Нижняя гр. LT Скорректируйте экран,
Выходн.перемен: страна Верхняя гр. LE затем нажмите enter,
чтобы выполнить повторное кодирование.
*1HELP 2REPEAT 3 4 5 6 7 8 9 10QUIT
INPUT FRI MAR 15 1985 11:47:00 AM VERSION 1.0 REC:OFF
------------------------------------------------------------
Чтобы выполнить повторное кодирование, нажмите ENTER. В
результате символьная матрица в три строки - страна- будет
создана как псевдо-переменная в рабочей области. В матрице
будут содержаться следующие данные:
США Европа Япония
Теперь матрицу можно будет использовать в других
процедурах (например, в качестве меток для процедур
"Комбинационная таблица" или "Столбиковая диаграмма").
Процедуру "Повторное кодирование переменных" можно
также использовать для объединения данных.
Чтобы продемонстрировать это, рассмотрим другой пример.
В этом примере мы воспользуемся клавишей F2, чтобы показать
вам, как работает средство повтора.
Чтобы вернуться к меню "Анализ категорических данных",
нажмите F10.
Выберите опять процедуру "Повторное кодирование
переменных".
В этом примере мы сгруппируем машины по их виду,
используя следующую схему кодирования:
1 - 1000 фунтов код = 1
1001 - 2000 фунтов код = 2
2001 - 3000 фунтов код = 3
и т.д.
Когда на экране появится подсказка об указании
переменной, подлежащей повторному кодированию, введите
weight
Когда на экране появится табло "Повторное кодирование
переменной" введите следующие значения в 1-ую строку табло:
0 1000 1 1000 2000 2
Затем нажмите
F2 ,
и система запомнит остальную часть табло, повторяя
установленную вами схему в соответствии.
Процедура "Повторное кодирование переменной"
Нижняя Верхняя Новое Нижняя Верхняя Новое
граница граница значение граница граница значение
0 1000 1 1000 2000 2
2000 3000 3 3000 4000 4
4000 5000 5 5000 6000 6
6000 7000 7 7000 8000 8
9000 9000 9 9000 10000 10
10000 11000 11 11000 12000 12
12000 13000 13 13000 14000 14
14000 15000 15 15000 16000 16
16000 17000 17 17000 18000 18
18000 19000 19 19000 20000 20
20000 21000 21 21000 22000 22
22000 23000 23 23000 24000 24
24000 25000 25 25000 26000 26
26000 27000 27 27000 28000 28
28000 29000 29 29000 30000 30
Входная перем:вес Нижн.гр.: LT Скорректируйте экран,затем
Выходн.перем.: Верхн.гр.: LE нажмите ENTER, чтобы выпол-
нить повторное кодирование.
*1HELP 2REPEAT 3 4 5 6 7 8 9 10QUIT
INPUT FRI MAR 15 1985 11:50:00 AN VERSION 1.0 REC:OFF
-----------------------------------------------------------
С помощью клавиши табуляции обратитесь к полю "Выходная
переменная" и введите в качестве выходной переменной
wgtclass
Значение LT в поле "Нижняя граница" и значение LE в
поле "Верхняя граница" не противоречат нашим целям, поэтому
мы можем нажать
ENTER
чтобы выполнить повторное кодирование.
В этом примере числовой вектор wgtclass создается в
рабочей области в качестве псевдопеременной. Вектор содержит
155 значений. Значение 2 появляется в позиции, где вес
машины превышает 1000 фунтов, но не достигает или равняется
2000 фунтам. Значение 3 появляется в той позиции, где вес
машины больше 2000 фунтов и меньше или равняется 3000 фунтов
и т.д.
Чтобы вернуться к меню "Анализ категорических данных",
нажмите F10.
.3460
Г Л А В А 25.
МНОГОМЕРНЫЕ МЕТОДЫ
25.1. ВВЕДЕНИЕ
Процедуры, описываемые в главе "Многомерные методы",
обеспечивают числовые и графические методы изучения данных,
которые состоят из наборов результатов измерений, сделанных
на основе изучения ряда лиц или случаев. Основной
математической моделью данных является многомерное
нормальное распределение, благодаря чему данные можно
описать с помощью k средних и с помощью матрицы ковариации
kхk.
Статистические задачи, решаемые с помощью этих
процедур, включают в себя следующие:
- оценка параметров модели;
- уменьшение размерности путем формирования линейных
комбинаций исходных переменных;
- проверка гипотезы о среднем и ковариационной матрице.
Данные следует расположить в виде матрицы размером n
строк на k столбцов, в которой каждая строка содержит набор
измерений, сделанных для одного случая.
При работе с некоторыми процедурами пользователю не
обойтись только знаниями основ статистических методов.
Работы Андерсена (1958), Татсуоки (1971) и Моррисена (1967)
дадут общее представление о многомерном анализе. Чтобы
получить подробные сведения о некоторых графических методах,
используемых в этих процедурах, обратитесь к работе Чамберса
и др. (1983).
В главе "Многомерные методы" описываются 15 процедур.
Краткие сведения о процедурах даны ниже. Подробно они
рассматриваются в разделах 25.2 - 25.16.
Процедура Кол-во пе- Тип Описание
ременных данных
------------------------------------------------------------
Создание 2 и более N Позволяет пользователю создать
матрицы матрицу числовых данных,на ос-
данных нове набора векторов.
Стандартиза- 1 N Стандартизует матрицу числовых
ция переменных данных.
Генерация кор- 1 N Создает матрицу коэффициентов
реляционной корреляции.
матрицы
Генерация ко- 1 N Создает матрицу коэффициентов
вариационной ковариации.
матрицы
Основные ком- 1 N Выделяет из корреляционной или
поненты ковариационной матрицы основ-
ные компоненты.
Факторный 1 N Выполняет факторный анализ на
анализ основе корреляционной матрицы.
Сдвиги 1 N Сдвигает матрицу факторов.
факторов
Кластерный 1 N Генерирует кластеры точек
анализ данных.
Дискриминант- 1 N Выполняет линейный дискрими-
ный анализ нантный анализ.
Канонические 2 N Вычисляет канонические корре-
корреляции ляции между двумя матрицами
данных.
Расширение 1 N Расширяет симметричную матри-
сжатой цу,которая была сжата.
матрицы
Звездооб- 1 N Представляет каждое наблюдение
разное пред- набора данных в виде звездооб-
ставление разного символа.
Представле- 1 N Представляет каждое наблюдение
ние в виде набора данных в виде символа
солнечных типа солнечного луча.
лучей
График чер- 3 и более N Генерирует ряд двухпеременных
тежника графиков разброса,используя
все комбинации переменных.
Створчатый 3 или 4 N Генерирует набор двухперемен-
график ных графиков разброса для
классов других переменных.
Чтобы выполнить примеры, рассматриваемые в этой главе,
считайте с вашего диска "Наборы выборочных данных" следующие
переменные:
Имя файла Переменные
------------------------------------------------------------
CARDATA origin
mpg
price
make
horsepower
weight
cylinders
displace
accel
Команды по считыванию переменных в вашу рабочую область
даны в разделе 9.6.
Обратите внимание, что многие процедуры, описываемые в
этой главе, дают результаты, которые можно использовать в
качестве входных данных для других процедур STATGRAPHICS.
Необходимо, чтобы приводимые здесь примеры выполнялись
последовательно. Необходимо также, чтобы вы использовали
имена переменных, указанных в примерах. Если вам не удастся
выполнить все примеры за один сеанс работы со STATGRAPHICS,
вы можете записать переменные в файл STATGRAPHICS, используя
процедуры, описанные в разделе 9.7.
25.2. СОЗДАНИЕ МАТРИЦЫ ДАННЫХ
Быстрый доступ:Q1
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура позволяет создать матрицу в интерактивном
режиме посредством ввода имени каждого числового вектора
данных, который образует столбец матрицы, или посредством
прямого ввода значений для каждого столбца матрицы. Все
вводимые вами векторы должны быть одинаковой длины.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя первого Вводите имя числового вектора данных,
вектора данных: который вы хотите поместить в первый
столбец матрицы.
Введите имя следую- Вводите имя числового вектора данных,
щего вектора данных: который вы хотите поместить в следую-
щий столбец матрицы.Все вектора должны
быть одинаковой длины.Продолжайте вво-
дить имена векторов,пока не заполнится
матрица. Затем нажмите ENTER,не указы-
вая имени переменной,чтобы положить
конец подсказкам.
Введите имя перемен- Вводите имя переменной, которую вы хо-
ной в которой будет тите использовать для сохранения вашей
храниться матрица матрицы данных. Если вы нажмете ENTER,
данных не указывая имени переменной, резуль-
таты не сохранятся.
ПРИМЕР
------
В этом примере мы создадим 5-мерную матрицу, содержащую
наборы данных выборки, собранных на основе анализа
характеристик 155 автомобилей.
При появлении на экране первой подсказки введите:
weight
В ответ на следующие четыре подсказки введите следующие
числовые векторы, соблюдая указанный порядок:
cylinders
accel
displace
horsepower
Когда на экране появится еще одна подсказка, нажмите
ENTER
чтобы прекратить появление подсказок о векторах данных.
Затем в ответ на подсказку об указании имени переменной
введите
carmat
Система выведет на экран следующее сообщение:
155 5 ЗНАЧЕНИЯ СОХРАНЕНЫ В ПЕРЕМЕННОЙ carmat
Переменная carmat содержит 155 строк и 5 столбцов и
хранится в псевдопеременной в вашей рабочей области.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.3. СТАНДАРТИЗАЦИЯ ПЕРЕМЕННОЙ
Быстрый доступ:Q2
Эта процедура стандартизует матрицу с тем, чтобы ее
можно было использовать в других процедурах STATGRAPHICS,
которые требуют стандартизованной матрицы. В результате
процесса стандартизации из каждого столбца вычитается
среднее и наблюдаемые значения делятся на среднее
квадратическое отклонение.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
-----------------------------------------------------------
Введите имя матрицы Вводите имя числовой матрицы, которую
данных, которую нужно вы хотите стандартизовать.
стандартизировать:
Введите имя перемен- Вводите имя переменной, в которой вы
ной, в которой будет хотите сохранить стандартизованную
храниться стандарти- матрицу данных. Если вы нажмете ENTER,
зованная форма мат- не указывая имени переменной,результа-
рицы: ты выполнения процедуры не сохранятся.
ПРИМЕР
------
В этом примере мы стандартизируем матрицу carmat,
которую мы создали в разделе 25-2.
Когда на экране появится подсказка об указании матрицы
данных, введите:
carmat
Когда на экране появится подсказка об указании имени
переменной, введите
scarmat
Система выведет на экран следующее сообщение:
155 5 ЗНАЧЕНИЯ ХРАНЯТСЯ В ПЕРЕМЕННОЙ scarmat.
Переменная scarmat содержит 155 строк и 5 столбцов и
хранится в вашей рабочей области как псевдопеременная.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.4. ГЕНЕРАЦИЯ КЕОРРЕЛЯЦИОННОЙ МАТРИЦЫ
Быстрый доступ:Q3
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура анализирует матрицу числовых данных и
генерирует матрицу, состоящую из коэффициентов кореляции
наблюдаемых значений. Корреляционные матрицы часто
обеспечивают предварительное представление об отношениях
между переменными. Кроме того, результаты выполнения этой
процедуры являются необходимыми входными значениями для та-
ких процедур, как "Факторный анализ".
Корреляционные матрицы обеспечивают стандартизованную и
независимую от масштаба меру связи между двумя переменными.
Значения коэффициентов варьируются в диапазоне -1 и +1.
Положительная корреляция указывает на то, что переменные
отклоняются (изменяются) в одном и том же направлении, тогда
как отрицательная корреляция указывает на то, что переменные
отклоняются в противоположном направлении. У статистически
независимых переменных коэффициент предполагаемой корреляции
равен нулю.
Эта процедура сохраняет корреляционную матрицу, но не
выводит ее на экран. Чтобы результаты вывести на экран и
распечатать, используйте "Редактор данных" (смотри Раздел
9.5) или выполните процедуру "Корреляционная матрица"
(смотри Раздел 19.2).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя матрицы числовых данных,
данных: которую вы хотите проанализировать.
Введите имя переменной, Вводите имя переменной, которую вы
в которой будут хранить-хотите использовать для сохранения
яции: корреляционой матрицы.Если вы наж-
мете ENTER, не указывая имени пере-
менной, результаты не сохраняются.
ПРИМЕР
------
В этом примере мы создадим корреляционную матрицу,
используя переменную carmat, которую мы создали в Разделе
25.2.
Когда на экране появится подсказка о вводе матрицы
данных, введите:
carmat
При появлении подсказки о вводе имени переменной
введите:
corcarmat
чтобы указать имя новой корреляционной матрицы. Система
выведет на экран следующее сообщение:
5 5 ЗНАЧЕНИЯ СОХРАНЕНЫ В ПЕРЕМЕННОЙ corcarmat
Имейте в виду, что система создала новую матрицу
размером 5х5, которая содержит коэффициенты корреляции
наблюдаемых значений исходной матрицы.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.5. ГЕНЕРАЦИЯ КОВАРИАЦИОННОЙ МАТРИЦЫ
Быстрый доступ:Q4
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура анализирует матрицу числовых данных и
создает матрицу, содержащую ковариации наблюдаемых значений.
Ковариация измеряет линейную связь между двумя
переменными. Если обе переменные в одно и тоже время имеют
тенденцию к тому, чтобы выпасть выше или ниже своих средних,
тогда ковариация будет положительной. Если же одна
переменная превышает свое среднее, тогда как другая не
достигает, ковариация будет отрицательной. Значения ковариа-
ции зависит от масштабирования, так как оно придерживается
единиц измерения исходной матрицы.
Процедура сохраняет ковариационную матрицу, но на экран
ее не выводит. Чтобы результаты вывести на экран и
распечатать, используйте"Редактор данных"(смотри Раздел 9.5)
или выполните процедуру "Ковариационная матрица" (смотри
Раздел 19.3).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
-----------------------------------------------------------
Ввести имя матрицы Вводите имя числовой матрицы данных,
данных: которую вы хотите проанализировать.
Введите имя перемен- Вводите имя переменной,которую вы хоти-
ной в которой будут те использовать для сохранения ковариа-
сохранены ковариа- ционной матрицы. Если вы нажмете ENTER,
ции не указывая имени переменной, результа-
ты не сохранятся.
ПРИМЕР
------
В этом примере мы создадим ковариационную матрицу,
используя переменную carmat, которая была создана в разделе
25.2.
Когда на экране появится подсказка о вводе матрицы
данных, введите:
carmat
При появлении второй подсказки введите:
covcarmat
чтобы указать имя новой ковариационной матрицы. Система
выведет на экран следующее сообщение:
5 5 ЗНАЧЕНИЯ СОХРАНЕНЫ В ПЕРЕМЕННОЙ covcarmat
Имейте в виду,что система создала новую ковариационную
матрицу размером 5х5, которая содержит ковариации
наблюдаемых значений исходной матрицы. Эта матрица будет
зависеть от разницы в масштабе 5 векторов, которые
составляют исходную матрицу. Ковариационную матрицу можно
использовать в качестве входных значений для процедуры
"Основные компоненты (смотри Раздел 25-6) или для других
процедур STATGRAPHICS.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.6. ОСНОВНЫЕ КОМПОНЕНТЫ
Быстрый доступ:Q5
ОПРЕДЕЛЕНИЕ
-----------
Анализ основных компонентов - эффективный метод
сокращения числа переменных в наборе данных путем поиска
линейных комбинаций тех переменных, которые в большей
степени, чем другие объясняют изменчивость. Например, в
наборе данных об автомобилях, который хранится в перемен-
ной carmat (смотри Раздел 25-2), содержится информация о
весе, количестве цилиндров, разгоне, замене двигателя и
мощности каждого автомобиля, указанного в выборке. Так как
между этими переменными существует высокая корреляция,
возможно, что у переменных есть одна или две функции,
которые можно было бы сформировать, чтобы провести различие
между автомобилями настолько же эффективно, как если бы это
было сделано с помощью целого набора данных.
Процедура "Основные компоненты" позволяет найти
основные компоненты при условии наличия корреляционной или
ковариационной матрицы. Вычисляя сначала собственные
значения матрицы, процедура находит коэффициенты каждого
основного компонента.
Процедура выводит на экран процент общего отклонения,
каждого компонента. Если после этого вы укажете имя
стандартизованной матрицы данных, на основе которой была
вычислена корреляционная или ковариационная матрица,
процедура создаст новую матрицу, содержащую основные
компоненты.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы, Вводите имя ковариационной или корреля-
содержащей коэффици- ционной матрицы, которую вы хотите про-
енты корреляции или анализировать.
ковариации:
Хотите ли вы ввести Вводите Y (Да) или нажимаете ENTER в
матрицу данных, ко- том случае, если вы хотите умножить
торая будет умноже- стандартизованную версию исходной мат-
на в обычном поряд- рицы на веса компонентов в обычном по-
ке (Y/N): рядке. Если вы не хотите выполнять этот
шаг, вводите N (Нет).
Введите имя матрицы Если на предыдущую подсказку,вы ответи-
данных: и Y (Да),вас попросят указать имя стан-
дартизованной матрицы.
Введите имя перемен- Вводите имя переменной, которой вы хоти
ной,в которой будут те воспользоваться для сохранения ре-
храниться основные зультатов умножения в обычном порядке.
компоненты
Введите имя перемен- Вводите имя переменной, которую вы хо-
ной в которой будут тите использовать для сохранения весов
храниться веса ком-
понентов
ПРИМЕР
------
В этом примере в качестве входных данных мы будем
использовать корреляционную матрицу, которая была создана в
Разделе 25.4.
Когда на экране появится подсказка о вводе матрицы,
введите:
corcarmat
На экране будет выведена следующая информация:
------------------------------------------------------------
Вычисление собственных значений ...
Собственные значения находятся в переменной: EIGENVALS
Номер Процент
компонентов отклонения
1 72.48331
2 20.86790
3 4.28847
4 1.64126
5 .71906
Теперь основные компоненты можно получить путем
умножения в обычном порядке стандартизованной версии матрицы
данных на вес компонентов.
Обратите внимание на то, что первый компонент
составляет от общего отклонения 72&, тогда как второй
компонент составляет 20&. Таким образом, у этих первых двух
линейных компонентов вы обнаружили 92& от общего отклонения.
Затем система спросит вас, хотите ли вы умножить в
обычном порядке стандартизованную версию матрицы на вес
компонентов. Введите
Y
Затем введите имя стандартизованной матрицы данных:
scarmat
Система выполнит умножение и спросит имя переменной,
которую вы хотите использовать для сохранения компонентов.
Введите
pccarmat
чтобы указать имя вашей новой матрицы с основными
компонентами. Система выведет на экран следующее сообщение:
155 5 ЗНАЧЕНИЯ СОХРАНЕНЫ В ПЕРЕМЕННОЙ pccarmat
Обратите внимание на то, что размер этой матрицы тот
же, что и у исходной. Первый основной компонент содержится в
первом столбце матрицы, второй - во втором столбце и т.д.
Затем система попросит вас указать имя переменной, в
которой будут храниться значения веса компонентов. Введите:
compwgts
чтобы сохранить вес компонентов.
Система ответит следующим образом:
5 5 ЗНАЧЕНИЯ СОХРАНЕНЫ В ПЕРЕМЕННОЙ compwgts
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER
Теперь посмотрим на результаты выполнения процедуры и
изучим только что созданную матрицу compwgts.
Если вы хотите проверить результаты, представленные
ниже (ради краткости их округлили до трех десятичных
разрядов), используйте процедуру (смотри раздел 9.4).
compwgts
.484 .281
.490 .126
-.179 .914
.508 .143
.485 .221
Значения, находящиеся в столбцах матрицы,
представленной выше, обозначают вес линейных комбинаций,
образующих основной компонент. Например, первый компонент
равняется:
.484х1 + .490х2 - .179х3 + .508х4 + .485х5 ,
где х1, х2, х3, х4 и х5 - стандартизованные значения
weight, cylinders, accel, displace, horsepower .
Эта линейная комбинация помогает измерить фактор,
связанный с массой или размером автомобилей. Она почти
равновзвешена у всех переменных за исключением acceleration
(разгон). Второй компонент, который является ортогональным
по отношению к первому, составляют
.281х1 + .126х2 + .914х3 + .143х4 - .221х5 .
Основную роль в этом компоненте играет переменная
"разгон".
Обратите внимание, что коэффициенты каждого компонента
были стандартизованы, так что сумма их квадратов равна 1.0.
Чтобы получить графическое представление о
распределении данных, посмотрим на закодированный график
разброса весовых множителей. Введите E2 (средство быстрого
доступа к Закодированному графику разброса Х-У) и смените
диски с программой STATGRAPHICS в случае получения такой
подсказки.
При появлении на экране подсказки об оси Х введите:
compwgts [:1]
чтобы извлечь из матрицы весов компонентов первый столбец
[:1].
При появлении на экране подсказки об оси У введите:
compwgts [:2]
чтобы извлечь из матрицы второй столбец данных.
Затем вас попросят указать имя переменной, содержащей
коды ваших точек. Введите
wcadh
Обязательно включите апострофы ("), чтобы сообшить
процедуре, что в ответ на подсказку вы вводите не имя
переменной, а символьные данные. Процедура воспользуется
этими символами точек, чтобы представить переменные
следующим образом:
w - вес
c - цилиндры
a - разгон
d - смена двигателя
h - мощность
В ответ на подсказку о цвете точек введите:
1 2 3 4 5
(Если вы работаете с одноцветным монитором и не собираетесь
пересылать график на перьевой графопостроитель, можно нажать
ENTER).
На экране появится закодированный график разброса.
Обратите внимание, что переменные weight, cylinders,
displacement и horsepower (все меры массы машины)
сгруппированы вместе, тогда как acceleration находится в
верхнем левом углу графика.
Теперь посмотрим на первый и второй линейные компоненты
данных. Закончив изучение графика нажмите ENTER и из меню
"Функции графопостроителя" опять выберите "Закодированный
график разброса Х-У".
Когда на экране появится подсказка об оси Х введите:
pccarmat [:1]
чтобы из созданной нами матрицы извлечь первый столбец
основных компонентов. При появлении подсказки об оси У
введите
pccarmat [:2]
чтобы извлечь второй столбец данных. В ответ на третью
подсказку введите:
origin
чтобы закодировать каждый символ точки в соответствии со
страной-производителем. (1=США, 2=Европа, 3=Япония).
В ответ на подсказку о цветах введите
origin
чтобы раскрасить символы точек в соответствии с
происхождением (Если вы работаете с одноцветным монитором, в
ответ на эту подсказку можно нажать ENTER). На экране
появится график.
Обратите внимание, что два основных компонента дают
широкий разброс по обеим осям, что и предполагалось, так как
по отношению к друг другу эти компоненты ортогональны.
Машины, производимые в США, широко распределены по всему
графику. Японские машины славятся своим единообразием;
большей частью они небольшие, но отличаются хорошим
разгоном. Переменная accel измеряет время, необходимое для
разгона с нулевой скорости до скорости 60 миль в час.
Некоторые европейские машины (2) разгоняются довольно
медленно для своего размера.
Дальнейшее изучение покажет, что точки с большими
значениями второго основного компонента содержат большое
количество дизельных автомобилей.
Закончив работу с графиком, нажмите дважды F10, чтобы
вернуться к основному меню.
25.7. ФАКТОРНЫЙ АНАЛИЗ
Быстрый доступ:Q6
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Факторный анализ" извлекает из
корреляционной матрицы основные компоненты. Она аналогична
процедуре "Основные компоненты" за исключением того, что
весы факторов масштабируются так, чтобы сумма их квадратов
равнялась связанным с ними собственным значением и таким
образом была связана с общим отклонением, объясняемым этим
фактором.
Процедура также вычисляет оцененные коэффициенты
"коммунальности" (communality-относительная дисперсия
простых факторов) для каждой переменной, используя
квадратичную множественную корреляцию между этой переменной
и всеми другими переменными. Прежде чем приступить к выпол-
нению этой процедуры, вы можете заменить диагональные
элементы корреляционной матрицы этими оцененными
коэффициентами относительной дисперсии простых факторов
"коммунальности" или своими собственными оценками. При
работе с некоторыми математическими моделями эти коэффи-
циенты относительной дисперсии простых факторов
"коммунальности" сообщат вам, какой процент изменчивости
каждой переменной приходится на долю других переменных в
данных.
Затем процедура позволяет вам выбрать количество
факторов, которые будут сохранены в окончательном варианте,
после чего матрицу факторов можно сдвигать, используя либо
методы varimax, equimax, либо quartimax.
Матрица переходов (сдвигов) распечатывается, так же как
и оценки.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя корреляционной Вводите имя корреляционной ма-
матрицы: Хотите ли вы заме- трицы,которую вы хотите про-
нить диагональные элементы анализироваю Если вы не хотите
коэффициентами относитель- изменять корреляционную матри-
ной дисперсии простых фак- цу вводите N(нет) или нажимае-
торов "коммунальности" те ENTER. В противном случае
(N/Y) вводите Y(Да).
Введите оценки относитель- Если в ответ на предыдущую
ной дисперсии простых фак- подсказку вы ввели Y(Да), вас
торов "коммунальности" просят указать оценки относи-
(значения, принимаемые тельной дисперсии простых фак-
по умолчанию): торов "коммунальности".Чтобы
использовать оценки относите-
льной дисперсии простых фак-
торов "коммунальности", под-
считанные процедурой,
нажмите ENTER. Или вводите
свои оценки, которые должны
быть больше нуля, но меньше
или равны 1.
Введите количество фак- Вводите количество факторов,
торов, которое следует которое следует выделить, или
выделить (1): нажимаете ENTER чтобы исполь-
зовать значение, принимаемое
по умолчанию(1)
Укажите тип сдвига Чтобы указать тип сдвига, вво-
(VARIMAX/EQUIMAX/ дите V,E или Q. При чередова-
QUARTIMAX): нии Varimax делается попытка
упростить столбцы матрицы
факторов путем приближения
всех значений либо к 1 либо к
нулю. При сдвиге Equimax
делается попытка сбалансиро-
вать цели. При сдвиге
Quartimax упрощаются строковые
результаты.
Введите критерий Вводимое вами значение пред-
конвергенции ставляет критерий останова
(1E-5) для подсчета сдвига.Введите
значение, аналогичное 1E-5
(значение принимаемое по умол-
чанию), чтобы прекратить вычи-
сление тогда, когда между ите-
рациями будет меньше этого
значения. Эта подсказка не по-
явится в том случае, если вы
выберите сдвиг quartimax, так
как эта процедура неитера-
тивная.
Введите максимальное Вводите целое число в диапазо-
количество итераций не от 1 до 100, чтобы указать
(100): максимальное количество итера-
ций,которое система должна вы-
полнить, прежде чем останови-
ться.Эта подсказка не появится
в том случае, если вы выбери-
те сдвиг quartimax,так как эта
процедура неитеративная.
ПРИМЕР
------
В этом примере мы опять проанализируем факторы нашего
набора данных, содержащего результаты выборки, сделанной на
основе анализа 150 машин. Будем использовать корреляционную
матрицу, созданную нами в Разделе 25.4.
Когда на экране появится подсказка о вводе
корреляционной матрицы, введите:
corcarmat
имя созданной нами матрицы.
Столбец Оценка относительной дисперсии
простых факторов "коммунальности"
1 .91398
2 .87457
3 .63070
4 .93803
5 .86588
Когда вас спросят, хотите ли вы заменить диагональные
элементы оценками относительной дисперсии простых факторов
"коммунальности", введите: N
ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ . . .
СОБСТВЕННЫЕ ЗНАЧЕНИЯ ХРАНЯТСЯ В ПЕРЕМЕННОЙ: EIGENVALS
Фактор Собств. Процент Процент относительной дисперсии
знач. отклон. простых факторов "коммунальности"
1 3.62417 72.5 72.5
2 1.04339 20.9 93.4
3 .21442 4.3 97.6
4 .08206 1.6 99.3
5 .03595 .7 100.0
Собственные значения пропорциональны отклонению,
объясняемому каждым (приходящемуся на долю) из пяти
факторов. Выбирая самые большие собственные значения, вы
можете решить, какие факторы следует выделить для
дальнейшего анализа. В примере 93.4 изменчивости объяс-
няются первыми двумя факторами.
В ответ на просьбу указать количество факторов, которое
следует выделить, введите
2
чтобы выбрать два первых фактора. На экране появится
следующая матрица, которая будет помещена в псевдопеременную
FACTORMAT.
МАТРИЦА ФАКТОРОВ (НАХОДИТСЯ В ПЕРЕМЕННОЙ FACTORMAT)
0.922158 0.287178
0.932789 0.128617
-0.340345 0.933979
0.966648 0.146041
0.923826 -0.225249
Эти значения, по существу, те же, что и значения,
указанные в варианте решения задачи выделения основных
компонентов в Разделе 25.6 за исключением того, что сумма
квадратов значений каждого столбца сводится (равняется) к
связанному с ними собственному значению. Обратите внимание,
что первый основной фактор вводится с большим весом в пере-
менные 1, 2, 4, 5, тогда как второй фактор - только в
переменную 3.
Нажмите
ENTER
и на экране появятся следующие значения:
Переменная Коммунальность (Находится в переменной
COMMUNALS)
1 . 93285
2 . 88664
3 . 98815
4 . 95574
5 . 90419
В этой таблице представлены исправленные оценки
относительной дисперсии простых факторов "коммунальности",
которые хранятся в псевдопеременной COMMUNALS для
дальнейшего использования. В некоторых моделях анализа
факторов, значения коммунальности оценивают процент из-
менчивости каждого фактора, который основан на общих
факторах. Нажмите опять
ENTER
и система попросит вас указать тип сдвига
V
Тогда система попросит вас ввести критерий конвергенции
и максимальное количество итераций.
Чтобы выбрать значения, принимаемые по умолчанию,
дважды нажмите
ENTER
Система выведет на экран следующую таблицу и поместит
сдвинутую матрицу факторов в псевдопеременную FACTORMAT:
Окончательный вариант матрицы факторов, сдвинутой по
методу
VARIMAX (находится в FACTORMAT).
0.96537 0.0301149
0.933211 -0.125515
-0.078184 0.990978
0.970497 -0.117779
0.829943 -0.464096
В этом случае влияние сдвига незначительно, так как
исходные факторы были достаточно хорошо определены. В
некоторых случаях разница может оказаться более заметной.
Вместе с тем, некоторый интерес представляет изменение
последнего коэффициента второго фактора.
Переменная horsepower дана с большим коэффициентом.
Неудивительно, что horsepower отрицательно коррелируется с
временем разгона с нулевой скорости до скорости 60 миль в
час, и включение этой переменной уточняет значение этого
фактора.
Нажмите ENTER, чтобы вывести на экран окончательный
вариант матрицы переходов, которая использовалась для сдвига
исходных факторов. Эта матрица помещается в псевдопеременную
TRANSMAT.
Окончательный вариант матрицы переходов (помещена в
переменную TRANSMAT)
0.96358 -0.267421
0.267421 0.96358
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.8. СДВИГИ ФАКТОРОВ
Быстрый доступ: Q7
ОПРЕДЕЛЕНИЕ
-----------
После того, как вы выполните процедуру "Анализ
факторов" (Смотри раздел 25.7), вы можете использовать
процедуру "Сдвиги факторов", чтобы изучить воздействие
других сдвигов (varimax, equimax, quartimax) на исходную
матрицу. Процедура также исправит (пересмотрит) оценки
относительной дисперсии простых факторов "коммунальности".
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя матрицы, которую вы
факторов: хотите сдвинуть.
Введите имя вектора, Если вы хотите исправить оценки, вво-
содержащего оценки дите имя переменной, содержащей оцен-
относительной диспер- ки относительной дисперсии простых
сии простых факторов факторов "коммунальности" для ваших
"коммунальности": исходных факторов. В противном случае
вводите вектор ls
Укажите тип сдвига Чтобы указать тип сдвига, вводите V,E
(VARIMAX/EQIMAX/ или Q.При сдвиге Varimax столбцы мат-
QUARTIMAX): рицы факторов упрощаются путем при-
ближения всех значений либо к нулю,
либо к 1. При сдвиге Equimax
обеспечивается баланс целей. При
сдвиге Quartimax упрощаются резуль-
таты строк.
Введите критерий Вводимое вами значение представляет
конвергенции (1E-5): критерий останова для вычисления
сдвига. Вводите значение, аналогичное
значению, принимаемому по умолчанию
(1E-5), чтобы прекратить вычисление,
когда разность между итерациями мень-
ше этого значения. Эта подсказка не
появится, если вы выберите сдвиг
quartimax,так как эта процедура
неитеративная.
Введите максимальное Вводите целое число в диапазоне от 1
кол-во итераций (100): до 100, чтобы указать максимальное
количество итераций, которое должна
выполнить система до останова. Эта
подсказка не появится, если вы выбе-
рите сдвиг quartimax,так как эта про-
цедура неитеративная.
ПРИМЕР
------
В этом примере мы опять изучим факторы в нашем наборе
данных, содержащих информацию по выборке, сделанной на
основе анализа 155 машин. В разделе 25.4 мы создали
корреляционную матрицу для данных, а в разделе 25.7 мы
выполнили факторный анализ. Исходные факторы хранились в
переменной FACTORMAT, а исправленные оценки относительной
дисперсии простых факторов "коммунальности" хранились в
переменной COMMUNALS.
Чтобы выполнить другой тип сдвига данных, мы
воспользуемся этими двумя переменными.
При появлении подсказки о вводе матрицы факторов
введем:
FACTORMAT
Когда система попросит указать имя переменной
относительной дисперсии простых факторов "коммунальности",
введем:
COMMUNALS
При появлении подсказки об указании типа сдвига введем:
Q
чтобы выбрать сдвиг quartimax.
Вас не попросят указать критерий конвергенции и
количество итераций (максимальное), так как сдвиг quartimax
не является итеративным процессом.
Система выведет на экран следующую таблицу и поместит
сдвинутые факторы в псевдопеременную REACTORMAT:
Окончательный вариант матрицы факторов, сдвинутых по
методу QUARTMAX (помещена в REACTORMAT)
0.957011 0.130292
0.941203 -0.0278374
-0.180762 0.977484
0.977482 -0.0162683
0.873686 -0.375318
Обратите внимание, что в этом случае сдвиги,
выполненные по методу quartimax и varimax, очень схожи.
Нажмите
ENTER
и на экране появится следующая таблица:
Окончательный вариант матрицы переходов (помещена
в переменную TRANSMAT).
0.986156 -0.165818
0.165818 0.986156
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.9. КЛАСТЕРНЫЙ АНАЛИЗ
Быстрый доступ:Q8
Определение
-----------
Процедура "Кластерный анализ" позволяет вам
сгруппировать наблюдения из многомерного набора данных в
кластеры "схожих" (сходных) точек. (Под схожими мы понимаем
то, что если бы наблюдения были нанесены на график в
многомерном пространстве, они находились бы близко к друг
другу). Сначала процедура вычисляет между каждой парой точек
расстояние Евклида.
Во многих случаях у вас может появиться необходимость
стандартизовать вашу матрицу данных (смотри раздел 25-3) до
выполнения этой процедуры, так как решение будет зависеть от
того, как будут масштабированы переменные.
Эта процедура предлагает три варианта кластеризации.
Первый вариант предполагает использование начального набора
указанных вами начальных точек. Начальные точки - это
отдельные точки данных, которые будут использоваться для
начала кластеров. Все другие случаи будут затем
выравниваться по ближайшей начальной точке.
Второй и третий варианты кластеризации предполагают
использование иерархических алгоритмов. Они значительно
отличаются от первого варианта, при этом требуют большой
памяти, и на их выполнение затрачивается больше времени. Их
не рекомендуется использовать для больших наборов данных.
Если у вас n точек данных, эти варианты начнут работать с n
кластеров, и объединяя два ближайших кластера, они будут
уменьшать их количество на 1 кластер за раз. Вы укажете,
сколько кластеров должно быть в окончательном результате.
Варианты иерархической кластеризации (максимальное
расстояние и минимальное расстояние) отличаются только по
тому, как они вычисляют расстояние между двумя кластерами.
При методе максимального расстояния расстояние определяется
как максимальное расстояние между любыми двумя точками в
кластере. При методе минимального расстояния расстояние
определяется как наименьшее расстояние между любыми двумя
точками. Полное описание алгоритмов кластеризации дает
Джонсон (1967). В общем, эти два метода не дадут одинакового
решения.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя числовой матрицы,которая
данных для вычисления содержит ваши данные, по одному слу-
расстояния: чае на строке.
Вы можете сгенерировать кластеры, используя:
1. Ближайшее расстояние до начальных точек
2. Иерархический алгоритм = метод максимального расстояния
3. Иерархический алгоритм = метод минимального расстояния
Введите выбранный Вводите номер, соответствующий вари-
вами номер (1/2/3): анту кластеризации, который вы хоти-
те использовать.
Введите вектор Если вы выберите 1 вариант кластери-
начальных точек: зации, вас попросят указать началь-
ные точки. Выберите столько точек,
сколько вам требуется кластеров.
Введите нужное Если вы выберите 2 и 3 варианты кла-
количество клас- стеризации, вас попросят указать ко-
теров (n): личество кластеров, в которых вы хо-
тите сгруппировать данные.
Введите номер столб- Вводите номер столбца, соответствую-
ца, соответствующего щей переменной, которую вы хотите
переменной на оси представить на графике по оси Х.
Х(1):
Введите номер столб- Вводите номер столбца, соответствую-
ца,соответствующего щего переменной, которую вы хотите
переменной по оси представить на графике по оси У.
У(2):
Введите метку для Вводите метку, чтобы идентифицировать
переменной на оси переменную на оси Х.
Х:
Введите метку для Вводите метку, чтобы идентифицировать
переменной переменную на оси У.
на оси У:
Введите коды для Вводите ряд чисел или символов,кото-
представления n рые будут использоваться для иденти-
кластеров на гра- фикации кластеров на графике. За раз
фике (abc...): вводится 1 символ. Чтобы использовать
символы, принимаемые по умолчанию,
нажмите ENTER. Не делайте пробелы
между вводимыми символами.
Введите цвета, кото- Вводите коды цветов,которые будут ис-
рыми будут представле- пользоваться для идентификации клас-
ны на графике n клас- теров на графике, по одному коду для
теров(значения, прини- каждого кластера. Нажмите ENTER,чтобы
маемые по умолчанию) использовать коды, принимаемые по
умолнию, которые будут отличаться в
зависимости от графического адаптера.
Хотите ли вы окружить Вводите Y(Да) или нажимаете ENTER,
кластеры? если вы хотите, чтобы на графике каж-
(Y/N): дый кластер был окружен. В противном
случае вводите N(Нет).
Введите имя перемен- Вводите имя переменной, которую вы
ной в которой будет хотите использовать для сохранения
храниться матрица матрицы расстояний.Если вы не хотите
расстояний: сохранить матрицу, нажмите ENTER.
Введите имя перемен- Вводите имя переменной, которую вы
ной в которой будут хотите использовать для сохранения
храниться номера номеров кластеров. Если вы не хотите
кластеров сохранять их, нажмите ENTER.
ППРИМЕР
-------
В этом пример мы опять будем работать с переменными
набора данных о машинах. Мы будем использовать
стандартизованную матрицу scarmat, созданную в разделе 25.3,
и выберем для анализа только европейские машины (origin= 2).
Чтобы выбрать из матрицы данные по европейским машинам,
в ответ на подсказку о матрице введите:
scarmat SELECT origin EQ 2.
Чтобы выполнить процедуру, используя выбранный набор
начальных точек,в ответ на просьбу указать номер варианта
кластеризации введите:
1
Затем введите:
12
в ответ на подсказку о начальных точках. Они представляют
две первые машины в наборе данных: фольксваген и мерседес.
В ответ на подсказку о переменной по оси Х введите:
1
чтобы выбрать первую переменную (weight). В ответ на
подсказку о переменной по оси У введите:
3
чтобы выбрать третью переменную (accel). Пометьте ось Х
weight, а ось У accel.
Затем трижды нажмите ENTER, чтобы в ответ на остальные
подсказки выбрать значения, принимаемые по умолчанию.
После того, как вы нажмете ENTER в последний раз, на экране
появится график.
Обратите внимание, что данные содержат группу
малолитражных автомобилей (фольксваген и др.) и группу
многолитражных автомобилей (мерседес и БМВ). Нажмите
ENTER
и система попросит указать имена переменных, в которых будут
храниться матрица расстояний и номера кластеров. Нажмите
ENTER
в ответ на эти подсказки, чтобы указать, что вы не хотите
сохранить результаты. Вы вернетесь к меню "Многомерные
методы".
Обычно матрица расстояний слишком большая, чтобы ее
можно было использовать для других вычислений. Но "номера
кластеров" - вектор, содержащий список группирований 1 и 2
для n случаев, можно с успехом использовать и в других
процедурах.
25-10. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Быстрый доступ:Q9
ОПРЕДЕЛЕНИЕ
-----------
Процедуру "Дискриминантный анализ" можно использовать в
тех случаях, когда вы располагаете данными, подразделенными
на две или большее количество групп, и вам необходимо найти
одну или две функции количественных измерений, с помощью
которых вы сможете установить различие между группами. Как
правило, цель заключается в том, чтобы предоставить метод,
которым можно было бы воспользоваться для того, чтобы
предугадать, в какую группу попадет по всей вероятности
новый случай, или для того, чтобы получить небольшое
количество эффективных дискриминирующих переменных.
Процедура генерирует дискриминантные функции на основе
матрицы данных и выдает значения дискриминантных функций для
каждого случая.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя матрицы данных, содержащей
данных: ваши количественные факторы.
Введите имя вектора Вводите имя вектора, который классифи-
классификации групп: цирует все случаи по группам.
ПРИМЕР
------
В этом примере мы опять воспользуемся переменными
нашего набора данных по машинам. Для выполнения
дискриминантного анализа мы восполь зуемся матрицей carmat,
которую мы создали в разделе 25.2.
Когда на экране появится подсказка о вводе матрицы,
вводите
carmat
При появлении подсказки о вводе вектора классификации групп
введите:
origin
вектор, содержащий классификационные факторы для матрицы. На
экране появятся таблицы.
В таблицах представлены количество наблюдений в каждой
группе, а также средние групп и среднее квадратическое
отклонение для каждой переменной. Эта информация носит
справочный характер.
Число групп
кол-во набл. 83 24 44
Средние групп
Перемен.1 2846.3 2571.3 2226.5
Перемен.2 5.3976 4.375 4.1136
Перемен.3 15.873 17.854 16.111
Перемен.4 191.29 117.83 104.84
Перемен.5 98.325 78.458 77.159
Средние квадратические отклонения групп
Перемен.1 586.61 552.5 311.73
Перемен.2 1.5845 0.71094 0.59769
Перемен.3 2.2195 3.6643 1.9759
Перемен.4 78.638 28.193 23.281
Перемен.5 23.976 23.307 17.911
Изучив результаты, нажмите ENTER и на экране появится
таблица.
Матрица коэффициентов ковариации внутри групп.
Перем.1 2.663325 507.48 -8.6499 28018 8922.5
Перем.2 507.48 1.5536 0.52412 70.032 20.009
Перем.3 -8.6499 -0.58412 5.9504 -23.13 -26.6
Перем.4 28018 70.032 -23.13 3707.3 1049.3
Перем.5 8922.5 20.009 26.6 1049.3 496.12
Матрица коэффициентов корреляции внутри групп
Перем.1 1 0.78898 -6.8712E-3 0.89167 0.77622
Перем.2 0.78398 1. -0.17236 0.92278 0.72071
Перем.3 -6.8712E-8 -0.17238 1. -0.15573 -0.48956
Перем.4 0.89167 0.92278 -0.15573 1. 0.77373
Перем.5 0.77622 0.72071 -0.48856 0.77373 1.
В таблицах представлены матрицы коэффициентов
ковариации и корреляции внутри групп. Дискриминантный анализ
базируется на разнице между ковариацией внутри групп и
ковариацией среди групп.
Нажмите ENTER, и на экране появятся коэффициенты
функции классификации.
Коэффициенты функции классификации
Перем.1 -2.1922E-3 9.4837T-4 -4.1593E-3
Перем.2 9.1294 11.084 10.481
Перем.3 6.001 6.2422 6.1719
Перем.4 -3.30127 -0.3836 -0.34629
Перем.5 0.82861 0.84007 0.87094
Константа -80.943 -91.547 -82.095
На этой таблице представлены коэффициенты линейной
дискриминантной функции Фишера для трех групп. Коэффициенты
можно использовать для классификации каждого случая, причем
случай, приписанный к какой бы то ни было группе, дает
наибольшее значение. Нажав на ENTER увидим на экране
следующее:
Дискриминан- Собств.значен. Относит. Каноническая
тная функция процент. отн. корреляция
1 .6328719 79.91 .62256
2 .1591523 20.09 .37054
Производные Лямбда WILXS Хи-квадрат D.F. Уровень
функции значимости
0 .5283386 93.152278 10 .00000
1 .8626994 21.562588 4 .00024
Здесь представлена генерация канонических
дискриминантных функций Цель - получить небольшое количество
функций, которые можно использовать для установления
различия между тремя группами. i -дискриминантная функция
имеет вид
Di = di1Z1 + di2Z2 + ..... + dipZp ,
где Z1,....Zp - стандартизованные значения исходных p
переменных. Можно вывести максимум (количество групп - 1)
или p функций. В этом случае значимыми являются две функции.
Нажмите ENTER, чтобы вывести на экран следующую
таблицу, в которой представлены стандартизованные и
нестандартизованные коэффициенты дискриминантной функции.
В верхней части таблицы представлены стандартизованные
коэффициенты d.1, d.2 и т.д. Их можно использовать для
сравнения. В этом случае первая дискриминантная функция
(столбец 1) сравнивает, в основном, две переменные
displacement и cylinders (в таблице это переменные 2 и 4).
Эти переменные связаны с размером двигателя, по которому,
как мы предполагаем, будут отличаться машины трех
стран-производителей.
Стандартизованные коэффициенты дискриминантной функции.
Перем.1 0.0609611 -2.13952
Перем.2 -1.23455 -0.627597
Перем.3 -0.301225 -0.143597
Перем.4 2.23149 1.87566
Перем.5 -0.444191 0.55221
Нестандартизованные коэффициенты дискриминантной
функции.
Перем.1 1.18126E-4 -4.1458E-3
Перем.2 -0.990459 -0.50351
Перем.3 -0.123486 -0.0588667
Перем.4 0.0866495 0.0808054
Перем.5 -0.0199396 0.0247919
Константа 2.62098 7.53918
Вторая функция (столбец 2) сравнивает, в основном,
weight (переменная 1) и опять displacement. Представленные в
нижней части таблицы нестандартизованные коэффициенты даны в
исходных единицах переменных и включают константу.
Изучив эту таблицу нажмите ENTER, и на экране появится
заключительная таблица:
Центры групп
Группа 1 0.7128E 2.4625E-3
Группа 2 -0.85916 -0.79989
Группа 3 -0.87698 0.43168
Значения дискриминантной функции хранятся в переменной:
DSCRMAT.
В заключительной таблице для нестандартизованных
дискриминантных функций показывается местоположение центра
каждой группы. Обратите внимание, что первая функция
(столбец 1) проводит заметное различие между автомобилями
США (1 группа) и автомобилями других стран, тогда как вторая
функция (столбец 2) проводит различие между европейскими
автомобилями (2 группа) и японскими (группа 3). Значения
каждой функции хранятся в столбце псевдопеременной DSCRMAT,
которая представляет собой матрицу, в которой для каждого
случая отведена строка.
Чтобы получить графическое представление о результатах
выполнения этой процедуры, сначала нажмите ENTER, чтобы
вернуться к меню "Многомерные методы". Затем воспользуйтесь
средством быстрого доступа к процедуре "Закодированный
график разброса Х-У" - средством E2. (Вас могут попросить
сменить диски с программой).
Когда вас попросят ввести переменную, которую вы хотите
представить на оси Х, введите:
DSCRMAT [;1]
чтобы выбрать из матрицы, содержащей значения
дискриминантной функции, первый столбец данных. При
появлении подсказки об оси У введите:
DSCRMAT [;2]
чтобы выбрать второй столбец данных.
В ответ на подсказки об указании кодов точек и цветов
точек введите:
origin
Обратите внимание на значительное различие между этими
переменными. Чтобы вернуться к меню "Графическое
представление функций", нажмите дважды ENTER. Затем нажмите
F10, чтобы вернуться к Основному меню.
25.11. КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ
Быстрый доступ:Q10
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Канонические корреляции" позволяет вам
изучить отношение между двумя наборами переменных. Процедура
идентифицирует линейные комбинации переменных в одном
наборе, которые наиболее точно (тесно) коррелируются с
линейными комбинациями другого набора. Во многих случаях
один набор представляет зависимые переменные, а второй набор
представляет независимые переменные.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя первой матрицы данных
с первым набором
переменных:
Введите имя матрицы Вводите имя второй матрицы данных.
со вторым набором Во второй матрице должно быть столько
переменных: же строк,сколько и в первой.Она долж-
на иметь такое же или меньшее количе-
ство столбцов, чем первая матрица.
ПРИМЕР
------
В этом примере мы воспользуемся матрицей carmat,
которую мы создали в разделе 25-2 (она содержит переменные
weight, cylinders, accel, displace и horsepower).
Мы рассмотрим соотношение этих переменных и матрицы
переменных, которую мы создадим на основе данных о пробеге -
mpg (mileage). и цене (price).
Выберите из меню "Многомерные методы" процедуру
"Создание матрицы данных". Затем введите:
mpg
в ответ на подсказку о вашем первом векторе данных. В ответ
на вторую подсказку введите:
price
затем нажмите
ENTER
чтобы остановить появление подсказок, и введите:
pricemat
в ответ на подсказку об имени переменной, в которой будет
храниться матрица. Теперь, используя переменные carmat и
pricemat, можно выполнить каноническую корреляцию.
Нажмите ENTER, чтобы вернуться к меню "Многомерные
методы". Выберите процедуру "Канонические корреляции" и в
ответ на первую подсказку введите:
carmat
При появлении второй подсказки введите:
pricemat
чтобы указать матрицу, содержащую данные о пробеге и цене.
На экране появится таблица.
------------------------------------------------------------
Собственные значения помещены в перемен.: EIGENVALS
Собственные значения помещены в перемен.: EIGENVALS
Номер Собств. Канон. Лямбда Хи-квадрат D.F. Уров.
значения коррел. WILXS значимости
1 .7818 .8842 .1956 236.56 10 .0000
2 .1032 .3213 .8968 15.80 4 .0033
Коэффициенты канонич. перемен. первого набора помещены
в COEFFA:
1.24589 2.7186
-0.063874 -0.0115204
-0.179474 -0.347541
-0.41538 -2.04385
0.177671 -1.0863
Коэффициенты канонич. перемен. второго набора помещены
в COEFFB:
-0.967657 0.252495
0.262834 0.9649
------------------------------------------------------------
В верхней части таблицы представлены оцененные
коэффициенты канонической корреляции и стандартный критерий
значимости, основанный на этих коэффициентах. Как и в других
процедурах, небольшие уровни значимости соответствуют
значимым результатам.
Внизу даны коэффициенты, которые показывают, как
соотносится каждая исходная переменная с каждой канонической
переменной.
Обратите внимание, что в этом примере значимыми
являются два коэффициента. Первый представляет, в основном,
обратную зависимость между mpg и weight, тогда как второй
отражает более сложную зависимость между price, weight,
displace и horsepower.
25.12. РАСШИРЕНИЕ СЖАТОЙ МАТРИЦЫ
Быстрый доступ:Q11
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура позволяет вам расширить симметричную
матрицу посредством добавления нижней диагонали. Ее особенно
целесообразно использовать в тех случаях, когда вы вводите
большую корреляционную или ковариационную матрицу и хотите
избежать ввода дублирующих значений.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя сжатой Вводите имя вектора, содержащего
матрицы, которую значения верхней части симметри-
нужно расширить: чной матрицы
Введите имя переменной, Вводите имя переменной, которую
в которой будет хранить- вы хотите использовать для сох-
ся расширенная форма нения расширенной матрицы. Если
матрицы: вы нажмете ENTER,не указывая
имени переменной, результаты не
сохранятся.
ПРИМЕР
------
Предположим, что мы хотим создать матрицу размером 4х4,
представленную ниже.
1.000 0.939 0.266 0.178
0.939 1.000 0.424 0.358
0.266 0.424 1.000 0.835
0.178 0.358 0.835 1.000
Обратите внимание, что по диагонали матрица содержит 5
единиц. Еще пять других значений встречаются в матрице
дважды.
Вместо того, чтобы с целью создания матрицы ввести все
16 значений, мы можем создать матрицу, введя только 10
чисел, которые находятся в верхней части диагонали (то есть,
4 числа в первой строке, последние 3 числа во второй строке,
последние два числа в третьей строке и последнее число в
четвертой строке).
В ответ на подсказку о сжатой матрице введите:
1 0.939 0.266 0.178 1 0.424 0.358 1 0.835 1
Когда вас попросят указать имя переменной, в которой
будет храниться расширенная матрица, введите:
newmat
Система выведет на экран сообщение, подтверждающее
создание матрицы 4х4.
Чтобы вернуться к меню "Многомерные методы" нажмите
ENTER.
25.13. ЗВЕЗДООБРАЗНОЕ ПРЕДСТАВЛЕНИЕ
Быстрый доступ:Q12
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Звездообразное представление" - интересный
способ графического представления многомерных данных,
который позволяет визуально (наглядно) сравнить различные
наблюдения.
Каждая звезда представляет одно наблюдение вашего
набора данных. Звезда состоит из ряда лучей, исходящих от
центральной точки, причем каждый луч представляет одну
переменную матрицы. Наименьшее значение каждого столбца
матрицы дает луч нулевой длины, тогда как наибольшее
значение дает самый длинный луч.
Так как эта процедура строит звезду для каждого
наблюдения, наилучшие результаты будут в тех случаях, когда
используются небольшие наборы данных или поднаборы набора
данных. Также рекомендуется использовать графический адаптер
с высокой разрешающей способностью.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя числовой матрицы, содержа
данных: щей ваши данные.
Введите имя матрицы, Вводите имя матрицы, которая содержит
содержащей легенды метки для точек наблюдения первой ма-
(принимаемые по трицы. Чтобы использовать метки, при-
умолчанию): нимаемые по умолчанию(CL1,CL2 и т.д.)
нажмите ENTER.
ПРИМЕР
------
В этом примере мы рассмотрим поднабор данных об
автомобилях, выбрав из переменной carmat, которую мы создали
в Разделе 25.2, только европейские машины.
При появлении первой подсказки введите:
carmat SELECT origin EQ 2
Это выражение ограничит графическое представление только
европейскими машинами, (origin = 2). При появлении второй
подсказки введите:
make
чтобы ввести названия машин в качестве меток всех
звездообразных форм. На экране появятся символы звезд.
Лучи представляют пять факторов матрицы, причем начало
положено горизонтальным лучом, соответствующим часовой
стрелке в положении 3-х часов. Этот луч означает weight.
Другие лучи,двигаясь против часовой стрелки, представляют
остальные переменные (cylinders, accel, displace и
horsepower), находясь соответственно на отметках 1, 10, 7 и
5 часов.
Обратите внимание, что у четырех фольксвагенов очень
длинные лучи, представляющие третью переменную -
acceleration, и очень короткие лучи, представляющие другие
переменные. Это означает, что у этих фольксвагенов
относительно медленный разгон и все же небольшой размер.
Фактически, это дизельные автомобили. Volvos, Peugeots и
Mersedes - самые тяжелые машины, на графике их факторы веса
представлены длинными лучами.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25.14. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ В ВИДЕ
СОЛНЕЧНЫХ ЛУЧЕЙ
Быстрый доступ:Q13
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура очень схожа с процедурой "Звездообразное
графическое представление" за исключением следующего: при
графическом представлении в виде солнечных лучей значения
каждой переменной определяются не лучами, а местоположением
сторон многоугольника. Каждый луч масштабируется так, что
если переменная в точности равна среднему выборки, сторона
многоугольника пересечет его посередине. Центр и крайняя
точка каждого луча представляют три значения сигмы. Как и
звездообразные символы, солнечные лучи позволяют вам
сравнить наблюдения визуально (наглядно).
Так как эта процедура строит солнечный луч для каждого
наблюдения, ее рекомендуется использовать для небольших
наборов данных или поднаборов. Также рекомендуется
использовать графический адаптер с высокой разрешающей
способностью.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя матрицы Вводите имя матрицы, содержащей ваши
данных: данные.
Введите имя матрицы, Вводите имя матрицы, которая содержит
содержащей легенды метки для точек наблюдений первой ма-
(легенды, принимае- трицы. Или можете использовать значе-
мые поумолчанию): ния,принимаемые по умолчанию (CL1,CL2
и т.д.). В этом случае нажмите ENTER.
Введите имя вектора, Вводите имя числового вектора,содержа-
содержащего средние щего средние значения каждого столбца
столбцов (значения матрицы.Эти значения используются для
по умолчанию): позиционирования центра каждого луча.
Если вы нажмете ENTER, система будет
использовать выборочные средние.
Введите имя вектора, Вводите имя числового вектора,который
содержащего сигмы содержит среднее квадратическое откло-
столбцов (значения, нение каждого столбца матрицы.Эти зна-
принимаемые по чения используются для масштабирования
умолчанию): длины каждого луча. Если вы нажмете
ENTER,система будет использовать выбо-
рочные средние квадратические отклоне-
ния.
ПРИМЕР
------
В этом примере мы рассмотрим поднабор данных об
автомобилях, выбрав из переменной carmat, созданной в
Разделе 25-2, только данные о европейских автомобилях.
При появлении первой подсказки введите:
carmat SELECT origin EQ 2
С помощью этого выражения мы ограничим действия
процедуры только представлением характеристик европейских
автомобилей (origin = 2).
При появлении второй подсказки введем:
make
чтобы ввести названия автомобилей в качестве меток каждого
солнечного луча. Нажмите:
ENTER
в ответ на следующие две подсказки, чтобы выбрать для
средних столбцов и сигм столбцов значения, принимаемые по
умолчанию. На экране появится график.
С помощью этого графика можно легко выбрать машины,
имеющие аналогичные характеристики. Лучи представляют пять
факторов матрицы, причем начало положено горизонтальным
лучом, представляющим weight. Луч соответсвует часовой
стрелке в позиции 3 часов. Другие лучи, двигаясь от этой
позиции против часовой стрелки, представляют остальные
значения (cylinders, aceel, displace и horsepower), находясь
соответственно в позиции 1, 10, 7 и 5 часов.
Чтобы вернуться к меню "Одномерные методы", нажмите
ENTER.
25.15. ГРАФИК ЧЕРТЕЖНИКА
Быстрый доступ:Q14
ОПРЕДЕЛЕНИЕ
-----------
Процедура "График чертежника" создает двухпеременные
графики разброса для всех комбинаций этих или большего
количества переменных. Графики генерируются таким образом,
что одна и та же переменная появляется на оси Х в данном
столбце и на оси У в данной строке.
Так как эта процедура выводит на один и тот же экран
несколько небольших графиков, наилучшие результаты
достигаются при использовании ограниченного числа
переменных. Также рекомендуется использовать адаптер с
высокой разрешающей способностью.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя вектора, Вводите имя первого числового вектора,
содержащего первую который вы хотите представить на графи-
переменную: ке. Он появится на графике как ось Х в
столбце 1.
Введите имя вектора, Вводите имя второго числового вектора,
содержащего следую- который вы хотите представить на графи-
щую переменную: ке. Этот вектор появится как ось Х в
столбце 2 и ось У в строке 1 (считать
от верхней части).
Введите имя вектора, Вводите имя третьего числового вектора,
содержащего следую- который вы хотите представить на графи-
щую переменную: ке. Этот вектор появится как ось Х в
столбце 3 и как ось У в строке 2.
Продолжайте вводить переменные, пока
не введете все. Затем нажмите ENTER,
чтоб прекратить появление подсказок.
ПРИМЕР
------
В этом примере еще раз проанализируем некоторые данные
по автомобилям.
При появлении первой подсказки введите:
horsepower
В ответ на следующие две подсказки введите:
weight
mpg
Затем нажмите: ENTER, чтобы прекратить появление
подсказок. На экране появится график.
В данном случае график, созданный на основе этих же
данных с помощью процедуры "Трехмерный график разброса"
(смотри раздел 13.9), представлен с точки зрения чертежника,
открывая пользователю вид сверху, вид спереди и вид сбоку.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
25-16. СТВОРЧАТЫЙ ГРАФИК
Быстрый доступ:Q15
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Створчатый график" генерирует ряд
двухпеременных графиков разброса для двух основных
переменных в группах, определенных с помощью значений
третьей и/или четвертой переменных. Графики разброса
содержат только те точки, которые попадают в области,
охватываемые третьей и/или четвертой переменными. В случае
четырехпеременного створчатого графика графики разброса
также генерируются и на полях экрана и содержат все точки
данной строки или столбца. График в верхнем правом углу
экрана содержит все точки. Более подробную информацию о
створчатых графиках найдете у Чамберса и др. (1983).
Для получения наилучших результатов рекомендуется
использовать графический адаптер с высокой разрешающей
способностью.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
Введите имя вектора, Вводите имя первого числового вектора,
содержащего первую который вы хотите представить на графи-
переменную: ке. Этот вектор появится на всех графи-
ках разброса как пероеменная оси Х.
Введите имя вектора, Вводите имя второго числового вектора,
содержащего вторую который вы хотите представить на графи-
переменную: ке. Этот вектор появится на всех графи-
ках разброса как переменная оси У.
Введите имя вектора, Вводите имя третьей переменной, которую
содержащего третью вы хотите использовать для разбиения
переменную: графиков разброса.
Введите имя вектора, В случае необходимости вводите имя чет-
содержащего четвер- вертого числового вектора. Он будет ис-
тую переменную пользоваться для разбиения графиков раз
(отсутствует): броса.
Введите число Вводите число групп, которое вы хотите
разделений (3): использовать для разделения третьей и
четвертой переменных. По умолчанию при-
нимается число 3.
ПРИМЕР
------
В этом примере мы проанализируем данные по автомобилям,
организованные в группы связанных с друг другом переменных.
При появлении первой подсказки введите:
mpg
В ответ на следующие две подсказки введите:
weight
horsepower
В ответ на четвертую подсказку нажмите ENTER, чтобы
сообщить системе, что вы хотите работать с тремя
переменными.
Когда система попросит вас указать число разделений,
нажмите ENTER, чтобы выбрать значение, принимаемое по
умолчанию - 3. На экране появится створчатый график.
На этом графике представлены три графика разброса
зависимости weight от mpg, причем один график сделан для
низких значений horsepower, другой - для средних значений,
и, наконец, еще один - для высоких значений. Диапазон
значений horsepower делится на три части с помощью
стандартного масштабирования в соответствии с тем, как это
проиллюстрировано в разделе 25.15.
Теперь проанализируем данные по автомобилям, используя
четырехпеременный створчатый график. Нажмите ENTER, чтобы
вернуться к меню "Многомерные методы" и опять выберите
процедуру "Створчатый график". В ответ на подсказки введите
следующие переменные:
mpg
weight
horsepower
displace
Для того, чтобы использовать число разделений,
принимаемое по умолчанию - 3, нажмите:
ENTER
На экране появится график.
Обратите внимание, что на основном графике horsepower и
weight разделены на три группы. В пределах каждой из
результирующих девяти областей график разброса зависимости
weight от mpg показан для всех значений данных, попадающих в
эти области.
Графики разброса, данные на полях, показывают все
точки, которые попадают в данную строку или столбец, тогда
как график, представленный на поле экрана в верхнем правом
углу содержит все точки.
Чтобы вернуться к меню "Многомерные методы", нажмите
ENTER.
.3460
Г Л А В А 26
НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ.
26.1. ВВЕДЕНИЕ
Большинство статистических процедур с системе
STATGRAPHICS основываются на предложении, что данные,
которые вы хотите проанализировать, соответствуют
гауссову распределению. Хотя данное предложение
означает, что ваши результаты будут точными, если ваши
данные являются гауссовы (нормальными) данные, ваши
результаты будут только приблизительными и, возможно,
вводящими в заблуждение, если ваши данные следуют
распределению, которое не является гауссовым.
Для негауссовых (ненормальных) данных часто бывает
более эффективным использовать процедуры, в которых не
предполагается конкретное лежащее в основе
распределение. Такие процедуры называются непараметри-
ческими.
Кроме описанных в данной главе непараметрических
процедур система STATGRAPHICS включает в себя еще
несколько непараметрических процедур. Например, часть
"Дисперсионный анализ" включает в себя две непарамет-
рические процедуры, основанные на рангах (см. Части 18.5
и 18.6).
Часть "Непараметрические методы" содержит 12
процедур, которые кратко представлены ниже и подробно
описаны в частях с 26.2 по 26.13. Все процедуры в данной
части выполняют автоматическую коррекцию связей
Процедура Количество Тип данных Описание
переменных
---------------------------------------------------------
Основной 1 C/N Проверяет случа-
критерий чайность в упо-
серий рядоченной пос-
ледовательности
результатов
наблюдений, ко-
торые содержат
уникальные зна-
чения
Критерий 1 N Проверяет слу-
восходящих чайность, осно-
и нисходя- ванную на коли-
щих серий честве раз пос-
ледовательность
данных повыша-
ется или пони-
жается
Критерий 1 N Проверяет слу-
серий вы- чайность, осно-
ше или ни- ванную на коли-
же медианы честве серий
полностью выше
или ниже медиа-
ны
Основной 1 C/N Проверяет, явля-
критерий ются ли вероят-
знаков ности случая для
двух цифровых
или символьных
значений иден-
тичными
Критерий 1 N Проверяет, может
знаков для ли конкретное
положения значение быть
приемлемой аль-
тернативной для
медианы распре-
деления
Критерий 2 N Определяет, име-
знаков для ет ли две выбор-
спаренных ки одну и ту же
выборок медиану
Критерий 1 или 2 N В критериях ран-
рангов со гов со знаками
знаками Вильконсона ис-
Вильконсона пользуются толь-
ко ранги (а не
фактические вели-
чины) значений
данных для про-
верки гипотез,
касающихся пара-
метров положения
Критерий поло-
жения определя-
ет, является ли
гипотетическая
медиана прием-
лемой в свете
наблюдаемых
данных. Крите-
рий спаренных
выборок опреде-
ляет, имеют ли
две выборки од-
ну и ту же ме-
диану
Критерий 2 N Определяет, яв-
Манна- ляются ли меди-
Витни- аны одинаковыми
Вилкоксона для двух цифро-
вых переменных,
в которых резу-
льтаты наблюде-
ний не являются
спаренными
(парными)
Коэффициент 2 N Измеряет отно-
ранговой сительное сог-
корреляции ласие или не-
Кендалла согласие между
двумя перемен-
ными
Коэффициент 2 N Измеряет отно-
ранговой сительное сог-
корреляции ласие или не-
Спирмана согласие между
двумя перемен-
ными
Критерий 1 N Проверяет об-
Колмогорова- щее согласие с
Смирнова, тем, чтобы оп-
основанный ределить, соот-
на одной ветствует ли
выборке выборка задан-
ной кумулятив-
ной функции
распределения
Критерий 2 N Проверяет общее
Колмогорова- согласие с тем,
Смирнова, чтобы определить
основанный могут ли две вы-
на двойной борки с достаточ-
выборке ным основанием
происходить от
одного и того
же распределе-
ния
Чтобы выполнить примеры данной главы, следует
прочитать следующие переменные из вашего диска, где
находятся примеры наборов данных:
Имя файла Переменные
--------------------------------------------------------
CARDATA mpg
horsepower
weight
origin
TSDATA ibm
IRONORE newprocess
oldprocess
Инструкции по считыванию переменных в вашу рабочую
область можно найти в части 9.6. Дополнительную информацию
по непараметрическим методам смотрите у Холландера и Вольфе
(1973), а также Гиббонса (1976).
26.2. ОСНОВНОЙ КРИТЕРИЙ СЕРИЙ
Быстрый доступ:F1
ОПРЕДЕЛЕНИЕ
-----------
Критерии серий предназначены, главным образом, для
проверки случайности упорядоченной последовательности
результатов наблюдений.
Критерий серий позволяет определить, случайно или нет
упорядочена упорядоченная последовательность, содержащая
только два уникальных значения. Например, вы неоднократно
подбрасываете монету и записываете результаты в виде
последовательности символов H для обозначения орла и
символов T для обозначения решки. Подсчитав количество серий
последовательных символов H и T, можно определить, является
ли последовательность случайной.
Согласно нулевой гипотезе, последовательность является
случайной. Согласно другим гипотезам, данные являются или
неслучайными (двусторонними), или они имеют тенденцию к
кластеризации, или являются смешанными (односторонними).
Основной критерий серий (критерий серий
Вальда-Волфовица) проверяет упорядоченную последовательность
содержащую два уникальных значения. Можно вводить или
цифровую или буквенную переменную.
Выход из процедуры включает в себя:
0 Количество серий в последовательности.
0 Количество серий, ожидаемых в случайной
последовательности данной длины.
0 Тестовая статистика большой выборки для проверки
нулевой гипотезы.
0 Для двусторонней альтернативы вероятность
получения тестовой статистики такой же экстремаль-
ной,как и статистики, вычисленной, когда последова-
тельность является истинно случайной.
(Если вам нужна односторонняя альтернатива, то эту
вероятность следует поделить на два.)
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕН- Введите имя цифрового или буквенного
НОЙ, СОДЕРЖАЩЕЙ ВАШИ вектора, который нужно исследовать.
ДАННЫЕ: Этот вектор должен содержать только два
уникальных значения.
ПРИМЕР
-------
В данном примере будем проверять распределение
иностранных и собственных автомобилей в цифровом векторе
origin. Мы заинтересованы в определении, перечислена ли
последовательность в случайном порядке по происхождению или
и та и другая классификация (иностранные или собственные)
показывают тенденцию к кластеризации.
Когда появится подсказка, введите:
origin EQ 1
В данном выражении используется оператор EQ для проверки
каждого значения в цифровом векторе origin и создается новый
вектор, содержащий единицы и нули, которые соответствуют
истинности или ложности выражения. В данном случае выражение
возвратит значение, равное 1 (истинный) для собственных
автомобилей (origin EQ 1) и значение, равное 0 (ложный) для
всех других значений.
Будут воспроизведены следующие выходные данные:
Количество серий = 42
Ожидаемое количество = 77.7742
Тестовая статистика для большой выборки Z = -5.73917
Двусторонняя вероятность равенства или превышения
Z = 9.54237E-9
Выходные данные говорят о том, что последовательность
состоит из 42 серий нулей и единиц, которая значительно ниже
77.8 серий, ожидаемых, если бы последовательность была
случайной.
Тестовая статистика будет следовать приблизительно
нормальному распределению для больших выборок. Поскольку ее
уровень значимости значительно ниже 0.01, то можно сделать
вывод, что классификации автомобилей не происходят в
случайном порядке, а показывает тенденцию к кластеризации.
26.3. КРИТЕРИЙ ВОСХОДЯЩИХ И НИСХОДЯЩИХ
СЕРИЙ
Быстрый доступ:R2
ОПРЕДЕДЕНИЕ
-----------
Для цифровых данных для подсчета количества раз
последовательность повышается или понижается можно
использовать критерий восходящих и низходящих серий.
Количество повышающихся и понижающихся серий равно на
единицу больше, чем количество поворотных пунктов. Данная
процедура является более чувствительной для
последовательностей с относительно длительными циклами, в
которых количество поворотных пунктов меньше, чем в
случайной последовательности.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового вектора,содер-
СОДЕРЖАЩЕЙ ВАШИ ДАННЫЕ жащего ваши данные.
ПРИМЕР
------
В данном исследовании будем использовать данные,
касающиеся курса акций фирмы IBM на момент закрытия биржи в
течение 120 дней. Когда появится подсказка, введите:
ibm
Будут воспроизведены следующие результаты:
ПРИМЕЧАНИЕ: 9 смежных значений игнорируются.
Количество серий = 50
Ожидаемое количество = 73.6667
Тестовая статистика для большой выборки Z = -5.25822
Двусторонняя вероятность равенства или превышения
Z = 1.45752E-7
Результаты показывают совокупность из 50 серий, которая
значительно меньше, чем ожидалось бы в случайной
последовательности. В девяти случаях последовательные
значения в последовательности были одинаковыми и были
выпущены из вычислений. Тестовая статистика следует
приблизительно нормальному распределению для больших
выборок. Поскольку ее уровень значимости значительно ниже
0.01, то можно сделать вывод, что курс акций фирмы IBM не
происходит в случайном порядке.
26.4. КРИТЕРИЙ СЕРИЙ ВЫШЕ И НИЖЕ МЕДИАНЫ
Быстый доступ:R3
ОПРЕДЕЛЕНИЕ
-----------
Критерий серий выше и ниже медианы позволяет
подсчитывать количество серий, которые полностью выше или
полностью ниже медианы. Данная процедура в особенности
чувствительна к трендам в данных.
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового вектора,содер-
СОДЕРЖАЩЕЙ ВАШИ ДАННЫЕ: жащего ваши данные.
ПРИМЕР
------
В данном примере будем использовать данные по курсу
акций фирмы IBM на момент закрытия биржи в течение 120 дней.
Когда появится посказка, введите:
DIFF ibm
По оператору DIFF берется курс акций и формируются
разности (изменения день ото дня), путем вычисления разницы
между каждым последовательным значением в векторе ibm.
Воспроизводятся следующие результаты:
Количество серий = 52
Ожидаемое количество = 60.395
Тестовая статистика для большой выборки Z = -1.45622
Двусторонняя вероятность равенства или превышениz
Z = 0.14533
Как показывают результаты, последовательность разностей
пересекала медиану 51 раз (в 1 раз меньше, чем количество
серий), незначительно ниже того, что ожидалось бы, если бы
разности были случайными. Данное доказательство служит в
пользу часто утверждаемой гипотезы, о том, что курс акций
следует случайному блужданию.
26.5. ОСНОВНОЙ КРИТЕРИЙ ЗНАКОВ
Быстрый доступ:R4
ОПРЕДЕЛЕНИЕ
-----------
Основной критерий знаков предоставляет статистики,
полезные для определения, генерирует ли совокупность,из
которой была взята выборка, два значения в выборке с
одинаковой вероятностью. Данный критерий основывается на том
факте, что распределение случайной выборки,содержащей два
уникальных значения, является биномиальным. Ваша выборка
может содержать цифровые или буквенные значения, но она
должна содержать только два уникальных значения.
Система STATGRAPHICS также предоставляет критерий
знаков для положения (смотрите Раздел 26.6) и критерий
знаков для спаренных выборок (смотрите Раздел 26.7).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового или буквенного
СОДЕРЖАЩЕЙ ВАШИ ДАННЫЕ: вектора,который вы хотите исследо-
вать.Этот вектор должен содержать
только два уникальных значения.
ПРИМЕР
------
В данном примере будут использоваться данные по курсу
акций фирмы IBM на момент закрытия биржи в течение 120 дней.
Когда появится подсказка, введите
0 LT DIFF ibm
Данное выражение формирует цифровой вектор, содержащий
0 каждый раз, когда курс акций не повышался от одного дня к
другому и 1 каждый раз, когда он повышался. Это
осуществляется, путем использования оператора DIFF для
вычисления разностей между последовательными значениями в
векторе, а также оператора LT для определения, является ли
вычисленная разность меньше, чем (LT) нуль.
Воспроизводятся следующие результаты:
Количество элементов на высокой стороне = 62
Ожидаемое количество = 59.5
Тестовая статистика для большой выборки Z = 0.366679
Вероятность равенства или превышения Z = 0.713855
Данная процедура выдает следующие результаты:
0 Количество появлений большего значения.
0 Ожидаемое количество появлений каждого значения,
если бы вероятность для каждого была одинаковой.
0 Тестовая статистика нулевой гипотезы о том, что
каждое значение появляется с одинаковой вероятностью.
0 Двусторонняя вероятность получения тестовой статистики
такой же экстремальной, какая была бы вычислена, если
бы вероятности были одинаковыми. (Если нужно использо-
вать одностороннюю гипотезу, то тогда это число следует
поделить на 2).
Разбивка на нули и единицы, показанная в результатах,
значительно не отличается от того, что мы ожидали бы, если
бы вероятность появления каждого значения равнялась 0.5. Это
свидетельствует о том, что вероятность курса акций,
повышающегося день ото дня, была такой же как и вероятность
курса, понижающегося.
26.6. КРИТЕРИЙ ЗНАКОВ ДЛЯ ПОЛОЖЕНИЯ
Быстрый доступ:R5
ОПРЕДЕЛЕНИЕ
-----------
Критерий знаков для положения предоставляет статистики,
полезные для определения, является ли заданное значение
приемлемым вариантов для медианы распределения, лежащего в
основе выборки результатов наблюдений.
Система STATGRAPHICS также предоставляет основной
критерий знаков (смотрите Раздел 26.5) и критерий знаков для
спаренных выборок (смотрите Раздел 26.7).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового вектора,со-
СОДЕРЖАЩЕЙ ВАШИ ДАННЫЕ: держащего данные вашей выборки.
ВВЕДИТЕ ГИПОТЕТИЧЕСКОЕ Введите гипотетическое значение
ЗНАЧЕНИЕ ДЛЯ МЕДИАНЫ (n): для медианы. Фактическая медиана
для выборки отображается в круглых
скобках с подсказкой.
ПРИМЕР
------
В данном примере будут исследоваться оценки пробега
автомобиля в милях для того, чтобы определить, может ли
истинная медиана совокупности, из которой были взяты в
качестве выборки автомобили, быть до 25, даже если среднее
расстояние в милях, пройденное на 1 галлон, в векторе данных
mpg равно 28.9.
Когда появится первая подсказка, введите:
mpg
Когда появится вторая подсказка, введите:
25
для гипотетического значения медианы. (Обратите внимание,
что фактическая медиана, 28.9, воспроизводится с
подсказкой). Воспроизводятся следующие результаты:
ПРИМЕЧАНИЕ: Единичные значения, равные медиане,игнорируются.
Количество элементов на высокой стороне = 102
Ожидаемое количество = 76.5
Тестовая статистика для большой выборки Z = 4.04226
Вероятность равенства или превышения Z = 5.29647E-5
Данная процедура отбросила одно значение, которое точно
равнялось медиане. По этой процедуре затем было обнаружено,
что 102 результатов наблюдений из mpg были выше 25,
значительно больше, чем ожидаемые 76.5. При односторонней
гипотезе, когда значения mpg имеют тенденцию к тому, что они
больше, чем 25, отображаемую вероятность необходимо поделить
на 2 для того, чтобы получить только область в верхней стро-
ке (выше Z = 4.04).
26.7. КРИТЕРИЙ ЗНАКОВ ДЛЯ СПАРЕННЫХ
ВЫБОРОК
Быстрый доступ:R6
ОПРЕДЕЛЕНИЕ
-----------
Критерий знаков для спаренных выборок предоставляет
статистики, полезные для определения, имеют ли две спаренные
выборки одну и ту же медиану. Ваши выборки должны содержать
цифровые значения, и эти две выборки должны быть одинаковой
длины.
Cистема STATGRAPHICS также предоставляет основной
критерий знаков (смотрите Раздел 26-5) и критерий знаков для
положения (смотрите Раздел 26-6).
ВВОД ДАННЫХ
-----------
Подсказка Ответ
------------------------------------------------------------
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового вектора,содер-
СОДЕРЖАЩЕЙ ВАШ ПЕРВЫЙ жащего первый набор результатов на-
НАБОР ДАННЫХ: блюдений.
ВВЕДИТЕ ИМЯ ПЕРЕМЕННОЙ, Введите имя цифрового вектора,содер-
СОДЕРЖАЩЕЙ ВАШ ВТОРОЙ жащего второй набор результатов на-
НАБОР ДАННЫХ: блюдений. Этот вектор должен иметь
такую же длину, как и первый вектор.
ПРИМЕР
------
В данном примере будут использоваться данные,
измеряющие содержание железной руды в двух выборках.
(Гуттман, Вилкс и Хантер, 1976). Эти две выборки, каждая
содержащая 21 результат наблюдений, были переработаны при
использовании двух различных процессов.
Когда появится подсказка для вашего первого набора
данных,введите
oldprocess
Когда появится подсказка для вашего второго набора
данных,введите
newprocess
Воспроизводятся следующие результаты:
ПРИМЕЧАНИЕ: 2 объединенные пары игнорируются.
Количество элементов на высокой стороне = 8
Ожидаемое количество = 9.5
Тестовая статистика для большой выборки Z = 0.458831
Вероятность равенства или превышения Z = 0.646352
Данная процедура сравнивает выборки, путем вычитания
каждой пары, а затем подсчета количества раз, результаты
наблюдений в oldprocess были больше, чем результаты
наблюдений в newprocess.
Абсолютная величина чисел игнорируется, для критерия
важны только знаки разностей.
Процедура выдает статистику испытаний, которая при
больших размерах выборки имеет тенденцию к стандартному
распределению, если обе выборки имеют одинаковую медиану. В
этом случае статистика испытаний не покажет существенного
различия между выборками. Но размер выборки (21) небольшой и
для проверки этого вывода следует использовать стандартные
ошибки.
26.8. КРИТЕРИИ РАНГОВ СО ЗНАКОМ УИЛКИНСОНА
Быстрый доступ:R7
ОПРЕДЕЛЕНИЕ
-----------
В критериях рангов со знаком Уилкинсона, описанных в
данном разделе, используются только ранги (не действительные
величины) распределения для проверки гипотез в отношении
параметров наложения.
С помощью критериев знаков, описанных в разделах с 26.5
по 26.7, также проверяются гипотезы для параметров
положения. Но можно потерять часть полезной информации, т.к.
они несут знаки различия только гипотетической медианы или
между парными выборками. Стандартные t-критерии оперируют
непосредственно величинами разностей, но они чувствительны к
выбросам или распределениям с длинным шлейфом. Критерии
рангов, которые заменяют значения данных на их ранг перед
тестированием, менее чувствительны к выбросам и являются
непараметрическими критериями. Процедура Уилкинсона
выполняет проверку положения, если вы вводите только одну
цифровую переменную. Такая проверка дает статистику, которая
нужна для выяснения того, обоснована ли гипотетическая
медиана в свете наблюдаемых данных. При таком тесте
рассматривается разность между значениями данных и
гипотетической медианой, а также ранжируются абсолютные
значения разностей. Путем сравнения суммы рангов для
наблюдений выше медианы с наблюдениями ниже медианы,
процедура формирует тестовую статистику для гипотезы.
Процедура Уилкинсона выполняет проверку парных выборок,
если вы вводите две числовые переменные одинаковой
длины.Такая проверка дает статистику, которая нужна для
определения того, есть ли у двух выборок одна и та же
медиана. Этот критерий является прямым расширением критерия
знаков для парных выборок (см.раздел 26.7), за исключением
того, что ранжируются абсолютные разности между каждой парой
и рассчитываются средние ранги.
ВВОД ДАННЫХ
------------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,
содержащей ваш первый содержащего ваши данные. Если вы
набор данных: выполняете проверку положения, то
вы будете вводить только
переменную типа данных. Если вы-
полняется проверка для парных
выборок, то вводится первая из
двух спаренных выборок.
Введите имя переменной, Если вы выполняете проверку для
содержащей ваш второй парных выборок, то введите имя
набор данных (если такой числового вектора, содержащего
имеется) второй набор данных. Этот вектор
должен быть такой же длины, что
и первый. Если выполняется прове-
рка положения, то нажмите ENTER.
Введите гипотетическое Зта подсказка появится в том слу-
значение для медианы чае, если вы выполняете проверку
(n): положения. Введите гипотетическое
значение для медианы. Действите-
льная медиана для выборки выводи-
тся на экран в круглых скобках
вместе с подсказкой.
ПРИМЕР
------
Для иллюстрации критерия ранга со знаком Уилкинсона
рассмотрим показатели пробега в милях на галлон топлива для
выборки в 155 машинах. После появления первой подсказки,
введите
mpg
После появления второй подсказки нажмите на
ENTER
поскольку мы выполняем проверку положения. После третьей
подсказки вводим
25
в качестве гипотетического значения медианы. (Отметим,что
действительное значение медианы, 28,9, появляется вместе с
подсказкой). На экране появятся следующие результаты:
ПРИМЕЧАНИЕ: одно значение равное 25 игнорируется.
51 значение ниже 25 имеют средний ранг = 55.098
102 значения выше 25 имеют средний ранг = 87.9118
Тестовая статистика z по большой выборке = 10.5447
Двусторонняя вероятность приравнивания или превышения
z= 0.
Значения выше 25 имеют намного более высокий средний
ранг, чем те значения, которые ниже 25, что приводит к
значимой тестовой статистике и отрицанию гипотезы того, что
медиана равна 25. Нажмите на
ENTER
для возврата к меню непараметрических методов и снова
выберите процедуру Уилкинсона. На этот раз рассмотрим тест
для парных выборок, используя при этом данные замеров
содержания железной руды в двух выборках (Гутман, Уилкс и
Хантер, 1976). Две выборки, каждая содержащая по 21
наблюдению, были получены с помощью двух разных процессов.
После появления подсказки на выш первый набор данных введите
ddprocess
После появления подсказки на ваш второй набор данных введите
newprocess
На экран будут выведены следующие результаты:
ПРИМЕЧАНИЕ: 2 связанные пары игнорируются.
Количество положительных разностей = 8
со средним рангом = 8.0625
Количество отрицательных разностей = 11
со средним рангом = 11.4091
Тестовая статистика z для большой выборки = 1.20727
Двусторонняя вероятность уравнивания с z или превышения
ее = 0.227329
Отметим, что 8 положительных разностей имеют ранг 8,06,
а 11 отрицательных разностей - 11.4. Как и критерий знаков
(см.раздел 26.7) рассчитанная статистика не является
значимой,что приводит к выводу, что у двух выборок может
быть одна и таже медиана.
26.9. КРИТЕРИЙ МАННА-УИТНИ-УИЛКИНСОНА
Быстрый доступ: R8
ОПРЕДЕЛЕНИЕ
-----------
Критерий Манна-Уитни-Уилкинсона следует использовать в
том случае, когда вы работаете с данными из независимых двух
выборок, возможно,даже разного размера. Данная процедура
об"единяет и ранжирует данные из двух независимых выборок.
Затем ранги суммируются по всем наблюдениям в каждой выборке
и рассчитывается статистика для сравнения сумм рангов. Если
статистика обширная, то мы должны отключить гипотезу, что у
выборок одинаковые параметры положения.
ВВОД ДАННЫХ
-------------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной Вводите имя числового вектора, в ко-
содержащей ваш первый тором содержится ваш первый набор
набор данных: данных
Введите имя переменной Вводите имя числового вектора, со-
содержащий ваш второй держащего ваш второй набор данных
набор данных:
ПРИМЕР
------
В данном примере по-другому рассмотрим распределение
показателей пробега в милях на галлон топлива для
машин,выпущенных в США и за границей.
После того, как появится первая подсказка введите
mpg SELECT origin EQ1
для того, чтобы выбрать только те автомобили, которые
выпущены в США (1). После появления второй подсказки введите
mpg SELECT origin NE1
для того, чтобы выбрать все остальные машины
(т.е.изготовленные в Японии или в Европе). На экране
появятся следующие результаты:
Средний ранг по первой группе = 56.1353 для 85 значений
Средний ранг по второй группе = 103.819 для 69 значений
Тестовая статистика z по большой выборке = 6.59659
Двусторонняя вероятность приравнивания или превышения z
= 4.22915E-11.
Данная проверка показывает, что из 85 американских
автомобилей средний ранг равен 56.1, что значительно ниже
среднего ранга 103.8 для иностранных автомобилей. Можно
сделать вывод, что показатели пробега в милях на галлон
топлива для иностранных машин имеют более высокую медиану.
26.10. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАНГОВ КЕНДАЛЛА
Часто когда у вас есть две связанные переменные, первым
выполняется корреляционный анализ. Но поскольку коэффициент
корреляции моментов произведения очень восприимчив к крайним
точкам, здесь могут быть предпочтительны другие меры связи.
В разделе непараметрических методов системы
STATGRAPHICS есть две непараметрические процедуры для
тестирования корреляции двух числовых переменных. Эти методы
- процедуры определения коэффициентов корреляции рангов
Кендалла и Спирмана - используют ранги значений данных, а не
сами значения.
С помощью процедуры Кендалла (также называемая Тау
Кендалла) измеряют относительную степень согласия или
несогласия между двумя переменными. Расчет коэффициента
начинается с упорядочивания первой переменной от наименьших
значений к наибольшим, затем выполняется повторное
упорядочивание второй переменной по рангам первой переменной
и в конце определяется насколько точно ранги второй
переменной совпадают с их естественным порядком. Диапозон
коээфициента от -1 (полное несогласие) до +1 (полное
согласие).
ВВОД ДАННЫХ
------------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,со-
содержащей первый набор держащего ваш первый набор данных
данных:
Введите имя переменной, Вводите имя числового вектора,со
содержащей второй набор держащего ваш второй набор данных.
данных: Этот вектор должен быть такой же
длины, как и первый
ПРИМЕР
------
В данном примере рассмотрим корреляцию между весами и
лошадиной силой для выборки в 155 автомобилей. Когда
появится первая подсказка введите
weight
После второй подсказки введите
horsepower
На экране появятся следующие результаты:
Оценка коэффициента = 0.630781
Тестовая статистика по большой выборке z = 11.6489
Двусторонняя вероятность уравнивания или превышения z = 0
Заметим, что тестовая статистика коэффициента
корреляции большая, что указывает на положительную
корреляцию между weight и horsepower для автомобилей из
нашей выборки.
26.11. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАНГОВ СПИРМАНА
Быстрый доступ:R10
ОПРЕДЕЛЕНИЕ
------------
В процедуре определения коээфициента корреляции рангов
Спирмана как и в процедуре Кендалла, используются ранги
данных вместо действительных значений данных. Во-первых,
каждая переменная ранжируется отдельно. Затем рассчитываются
разности между рангами парных наблюдений для определения
несогласия между парами. Несогласия в квадрате по всем парам
суммируются, и рассчитывается относительная величина
несогласия. Диапозон коэффициента от -1 (полное несогласие)
до +1 (полное согласие).
Процедура Спирмана равноценна отдельному рассматриванию
каждой переменной и расчету коэффициента корреляции по
рангам.
ВВОД ДАННЫХ
-----------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора, со-
содержащей ваш первый держащего ваш первый набор данных
набор данных:
Введите имя переменной, Вводите имя числового вектора, со-
содержащий ваш второй держащего ваш второй набор данных.
набор данных: Длина этого вектора должна быть
равна длине первого вектора
ПРИМЕР
------
В данном примере рассмотрим корреляцию между
показателями пробега в милях на галлон топлива и весами для
выборки в 155 автомобилей. Когда появится первая подсказка,
введите
mpg
На вторую подсказку введите
weight
На экране появятся следующие результаты:
Оценка коэффициента = - 0.845885
Тестовая статистика по большой выборке z = - 10.463
Двусторонняя вероятность превышения или приравнивания к z =
Отметим, что коэффициент -0.85 указывает на
относительно сильное несогласие, т.е. это отрицательная
корреляция. С помощью процедуры рассчитывается большая
статистика по выборке, которая показывает, что коэффициент
не является 0 и что существует значимая отрицательная корре-
ляция между mpg и weight.
26.12. КРИТЕРИЙ ОДНОЙ ВЫБОРКИ КОЛМОГОРОВА-СМИРНОВА
Быстрый доступ:R11
ОПРЕДЕЛЕНИЕ
-----------
Когда вы пытаетесь подобрать распределение для набора
данных, то вы обычно имеете дело с полным распределением, а
не только с его центральным значением. Критерий
Колмогорова-Смирнова дает возможность проверить общее
согласие набора данных для того, чтобы определить, следует
ли выборка наблюдений указанному распределению.
Процедура подбора распределения, описанная в разделе
16.2, дает возможность подобрать любое из 18 различных
распределений к набору данных. Одним из диагностических
средств, представляемых этой процедурой, является статистика
Колмогорова-Смирнова по согласию. С помощью этой статистики
сравнивается эмпирическая функция распределения, используя
гипотетического распределения, используя при этом
максимально абсолютное расстояние между двумя этими
функциями для проверки соответствия двух функций
распределения.
Прочитав этот раздел вы можете сразу же выполнить этот
тест, если у вас есть функция распределения. Вы должны
указать значение для теоретической функции распределения в
соответствии с каждым значением ваших данных.
ВВОД ДАННЫХ
------------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора,
содержащей ваши данные: содержащего ваши данные
Введите имя переменной Вводите имя числового вектора,
содержащей накопленные содержащего гипотетическую накоп-
вероятности: ленную вероятность, соответствую-
щую каждому значению в вашем на-
боре данных. Этот вектор должен
быть одинаковой длины с вектором,
содержащим ваши данные
ПРИМЕР
------
В данном примере мы проверим показатели пробега в милях
для выборки в 155 автомобилей для того, чтобы определить
были ли данные равномерно распределены в интервале от 15 до
47. После появления подсказки относи- тельно ваших данных
введите:
mpg
После подсказки по накопленным вероятностям введите:
(mpg MINUS 15) DIVIDE 32
Это выражение задает функцию распределения гипотетического
равномерного распределения. Затем на экране появится график.
После окончания работы с графиком нажмите ENTER и на
экране появятся следующие результаты:
Оценка статистики Колмогорова DPLUS = 0.200203
Оценка статистики Колмогорова DMINUS = 0.0398945
Оценка общей статистики DN = 0.200203
Приблизительный уровень статистической значимости = 8.7028E-
Статистический вывод показывает, что эмпирическая
функция распределения превышает гипотетическую как максимум
на 0.200 и ниже ее как максимум на 0.040. Общее максимальное
значение (0.200) очень показательно значительно ниже 0.01,
что указывает на то, что гипотетическое распределе- ние
неправильно. Из графика видно, что гипотетическая функция
распределения значительно преувеличила прогнозируемое число
автомобилей с очень высокими показателями пробега в милях на
галлон топлива.
26.13. КРИТЕРИЙ ДВУХ ВЫБОРОК КОЛМОГОРОВА-СМИРНОВА
Быстрый доступ:R12
ОПРЕДЕЛЕНИЕ
-----------
Критерий двух выборок Колмогорова-Смирнова дает
возможность определить, вышли ли две выборки из одного и
того же распределения. С помощью этой процедуры можно
начертить функции распределения двух выборок и рассчитать
максимальное расстояние между ними. Если расстояние
достаточно большое, то будет отклонена гипотеза, что
распределения одни и те же.
ВВОД ДАННЫХ
------------
ПОДСКАЗКА ОТВЕТ
------------------------------------------------------------
Введите имя переменной, Вводите имя числового вектора, со-
содержащей ваш первый держащего ваш первый набор данных
набор данных:
Введите имя переменной, Вводите имя числового вектора, со-
содержащей ваш второй держащего ваш второй набор данных
набор данных:
ПРИМЕР
------
В этом примере сравниваются показатели пробега в милях
155 европейских и японских машин. После появления первой
подсказки введите
mpg SELECT origin EQ 2
для того, чтобы отобрать показатели пробега европейских
машин (origin=2) из набора данных. После появления второй
подсказки введите
mpg SELECT origin EQ 3
для выборки показателей прогона японских машин (origin=3) из
набора данных На экране появится график.
После работы с графиком нажмите на ENTER и на экран
будут выведены следующие результаты:
Оценка общей статистики DN = 0.201818
Приблизительный уровень статистической значимости = 0.534721
DN обозначает максимальное стандартное расхождение между
двумя функциями распределения. Если уровень значимости
падает ниже 0.05, то два распределения значительно
отличаются друг от друга на уровне 5%. В данном примере
нельзя сделать вывод, что распределения разные. Тем не
менее, этот тест не очень эффективный и было бы неразумно
использовать незначащие результаты для выводов о том, что
распределения полностью идентичны.
.3460
.34
Г Л А В А 27
В Ы Б О Р К А
27.1. ВВЕДЕНИЕ
При работе с прикладной статистикой перед выполнением
обширного эксперимента или примера программы важно знать,
что ваш выборочный план соответствует исследуемой проблеме.
В частности, при оценке параметров распределения вы должны
убедиться, что размер выборки достаточно большой для того,
чтобы можно было получить достаточно точную оценку этих
параметров. Если вы убеждены в том, что ваш план выборки
подходит в достаточной степени к исследуемой вами ситуации,
то вам удается избежать дорогой и требующей много времени
повторной выборки.
В данный раздел включены три процедуры создания плана
фиксированной или последовательной выборки. Краткое описание
этих процедур дается ниже, а более подробно они описаны в
разделах с 27.2 по 27.4.
ПРОЦЕДУРА ОПИСАНИЕ
------------------------------------------------------------
Размер выборки - Создает выборочный план для оценки сре
обычные средние днего значения обычного распределения
значения
Размер выборки - Создает выборочный план для оценки па-
биноминальные про- раметра биномиинального распределения
порции
Размер выборки - Создает план выборки для оценки сред-
частоты Пуассона него значения распределения Пуассона
В процедурах для биноминального распределения и
распределения Пуассона используется обычное приближение, их
не следует использовать для очень маленьких выборок.
С помощью процедур получения выборки можно рассчитать
два типа планов выборки:
- фиксированный
- последовательный
Работая с планом для выборки фиксированного размера,
нельзя выбирать выбирать одну из двух "конкурирующих"
гипотез до тех пор, пока не будут получены все результаты.
При работе с последовательным планом выборки сделать такой
выбор быстрее.
Наблюдения следует записывать последовательно. После каждого
наблюдения можно прийти к одному из трех решений:
* Существует достаточно данных для принятия нулевой
гипотезы
* Существует достаточно данных для отклонения нулевой
гипотезы
* Перед принятием решения необходимо иметь дополни-
тельные данные, указывающие, что следует продолжать
выборку
При нефиксированном объеме выборки из конечной совоку
пности
можно принимать решения, используя намного меньше данных,
чем при плане выборки с фиксированным объемом.
Для выполнения примеров, приведенных в
этой главе,
считайте следующие переменные с диска наборов выборочных
данных:
Имя файла Переменные
---------------------------------------
RANDOM выборка 50
выборка 55
выборка 25
Указания по передаче переменных в рабочую область см. в
разд.9-6.
27.2. ОБЪЕМ ВЫБОРКИ -- ОБЫЧНЫЕ СРЕДНИЕ ЗНАЧЕНИЯ
Быстрый доступ: S1
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Обычные средние значения" подсчитывает планы
последовательной выборки и выборки с фиксированным объемом
для данных с нормальным распределением. Кроме вычисления
объема необходимой выборки для испытания интересующей
гипотезы, эта процедура вычисляет критические значения,
требующие отклонения нулевой гипотезы.
ВВОД ДАННЫХ
-----------
Если вы выбираете процедуру "обычные средние значения",
то будет отображена панель выборочного плана.
Вводы для полей на этой панели описываются ниже.
Поле Описание
------------------------------------------------------------
HO Введите гипотетическое значение параметра, которое
вы хотели бы использовать для установления ошибки
типа 1 (альфа) критерия (HO). Это значение
формирует нулевую гипотезу.
HA Введите альтернативное значение параметра, которое
вы хотели бы использовать для установления ошибки
типа 11 (бета) критерия (HA). Это значение форми-
рует альтернативную гипотезу.
При двустороннем тесте это значение не может равняться
нулевой гипотезе (H0).
При правостороннем тесте это значение должно быть больше
нулевой гипотезы (H0).
При левостороннем тесте это значение должно быть
меньше
нулевой гипотезы (H0).
ALPHA = Введите число между 0- и 1 (обычно оно меньше или
равно 0.1), которое специфицирует вероятность откло-
нения нулевой гипотезы, если она истинна
BETA = Введите число между 0 и 1 (обычно оно меньше и
ли
равно 0.1), которое специфицирует вероятность приня-
тия нулевой гипотезы, если она ложная
ASSUMED
SIGMA = Введите число больше нуля для обозначения допускае-
мого значения стандартного отклонения. Это значение
необходимо только при оценке среднего значения нор-
мального распределения
ALT.HYP.: Укажите тип теста, который необходимо выполнить,
вводя одно из следующих: N или = двусторонний тест G
или > правостороний тест L или < левосторонний тест Путем
нажатия клавиши табуляции можно перейти к любому полю на
панели, вводя при этом данные, соответствующие выборочному
плану. После того, как вы ввели соответствующие значения во
всех полях, нажмите ENTER. Панель будет заново изображена;
она будет включать следующую информацию для теста выборки с
фиксированным объемом:
* Количество наблюдений
* Критические значения для отклонения HO
В строке состояния панели вы заметите, что во время этой
процедуры задействованы функциональные клавиши процедуры. F1
и F10 сохраняют свои обычные определения (HELP и QUIT). F1 и
F3 определяются для работы, как описано ниже.
F2 Вычерчивает операционную характеристическую кривую
(POWER) для выборочного плана с фиксированным объемом. Этот
граф показывает, как меняется вероятность отклоне-
ния нулевой гипотезы при тестировании истинн
ого
значения параметра. Вслед за отображением графа
нажмите ENTER для возврата к панели "Выборочный
план".
F3 Вычерчивает ряд значений необходимых для эквивален-
(SEQUEN) тного последовательного выборочного плана.
При выборе этой версии вам подсказывается имя
переменой, содержащей выборочные данные.
Если вы уже начали выборку,ответьте на эту подсказ-
ку вводом существующих данных. STATGRAPHICS нанесет
ваши данные на границы принятия гипотезы в этом
графе.
Если вы не начинали сбор данных, нажмите ENTER.
Граф покажет только границы принятия гипотезы.
После отображения графа нажмите ENTER для возврата
к панели "Выборочный план".
Теперь панель содержит информацию о выборке с
ожи-
даемым объемом для последовательного теста.
Чтобы проверить воздействие изменения любого уровня гипотезы
или ошибки, нажмите клавишу табуляции соответствующего поля,
измените желаемое значение и нажмите ENTER. В ответ на эти
изменения будет скорректирован необходимый объем выборки.
Обязательно нажмите ENTER после внесения изменения на
панели, чтобы вычисленные значения и отображения графической
информации точно отражали самые последние входные данные.
Для прекращения процедуры нажмите F10, когда будет
отображена панель "Выборочный план".
ПРИМЕР
------
В следующем примере мы решим, равно или не равно 50
среднее значение нормального распределения. Для прогона
этого примера введите следующие значения в поля на панели
"Выборочный план".
HO = 50
HA = 55
ALPHA = 0.05
BETA = 0.1
ASSUMED SIGMA = 15
ALT.HYP = N
Затем нажмите клавишу:
ENTER
и будет вновь отображено табло с информацией для выборочного
плана с фиксированным объемом:
FIXED SAMPLE SIZE TEST
NUMBER OF OBSERVATIONS = 95
CRITICAL VALUES FOR REJECTING HO=46.9768 53.0232
Результаты показывают, что для теста нужна выборка 95
наблюдений. Нулевая гипотеза будет отклонена, если среднее
значение выборки выходит за пределы диапазона от 46.98 до
53.02.
Теперь вычертим операционную характеристическую кривую
для выборочного плана с фиксированным объемом. Нажмите
клавишу
F2
и будет отображен график.
В графе видно, что имеется 90 % возможность отклонения HO,
когда среднее значение равно 55. Это было определено, когда
вы специфицировали ошибку типа 11 на табло "Выборочный план"
С другой стороны, имеется лишь примерно 50 % возможность
отклонения HO, когда среднее значение равно 53. Нажмите
клавишу ENTER, чтобы вернуться к табло "Выборочный план".
Теперь мы вычислим диапазон значений, необходимых для
эквивалентного последовательного выборочного плана.
Допустим, мы уже начали выборку и наши существующие данные
хранятся в переменной ВЫБОРКА 50. Нажмите
F3
и введите
выборка 50
в ответ на подсказку вашим данным. Будет отображен граф.
На нем будут показаны границы принятия гипотезы
для
последовательного выборочного плана. Для двустороннего (N)
теста напротив числа выборок вычерчивается накопленная сумма
отклонений от значения, которое было специфицировано нулевой
гипотезой. По мере увеличения объема выборки, при условии,
что нулевая гипотеза истинна, накопленная сумма
будет
перемещаться вдоль центральной горизонтальной линии. Если
нулевая гипотеза неистинна, накопленная сумма
будет
перемещаться выше или ниже горизонтальной линии. Как только
выборка начинает двигаться выше верхней линии или
ниже
нижней, она прекращается, а нулевая гипотеза отклоняется.
Также выборка прекращается, а нулевая гипотеза прини
мается,
когда линия накопленной суммы входит в верхнюю правую
V-образную область.
Для тестирования выборочного плана вам следовало бы
прекратить выборку и принять нулевую гипотезу после того,
как сделано приблизительно 54 выборки. Это точка, в которой
кривая входит в V-образную область справа от графа.
Теперь разберем пример, который приводит к отклонению
HO.
Нажмите клавишу
ENTER
для возврата к табло "Выборочный план". Затем нажмите
F3
и введите
выборку 55
в ответ на подсказку данных. Будет отображен граф.
Для тестирования выборочного плана вам следовало бы
прекратить выборку и отклонить нулевую гипотезу после того,
как сделано приблизительно 39 выборок. Это точка, в которой
накопленная сумма переместилась выше верхней линии. Когда
граф закончится нажмите
ENTER
для возврата к табло "Выборочный план". Будут отображены
выборки с ожидаемым объемом для последовательного
выборочного плана; предполагается, что нулевая и
альтернативная гипотезы истинны.
SEQUENTIAL TEST:
EXPECTED SAMPLE SIZES UNDER HO AND HA =
= 38.35 53.95
Выборки с ожидаемым объемом указывают, что последовательный
выборочный план остановится на среднем значении после сбора
39 наблюдений при условии, что HO были истинны. План
ограничится средним значением после сбора 54 наблюдений при
условии, что HA были истинны. Это значительная экономия 95
наблюдений, необходимых для выборочного плана с
фиксированным объемом.
Нажмите клавишу F10 для возврата к выборочному меню.
27.3. ОБЪЕМ ВЫБОРКИ - БИНОМИАЛЬНЫЕ ПРОПОРЦИИ
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Биномиальные пропорции" вычисляет
фиксированные и последовательные выборочные планы для оценки
параметра биномиального распределения.
ВВОД ДАННЫХ
-----------
Когда вы выбираете процедуру "Биномиальные пропорции",
отображается табло "Выборочный план". Это табло похоже на
табло, отображаемое процедурой "Обычные средние значения"
(см.раздел 27.2), за исключением того, что не включается
поле для предполагаемой сигмы. Предполагаемая сигма
необходима лишь при оценке среднего значения нормального
распределения.
Дополнительную информацию по вводу данных и
использованию процедурных функциональных клавиш см. в
разделе 27.2.
ПРИМЕР
------
В следующем примере мы попытаемся решить, равен или не
равен 0.5 параметр биномиального распределения. Для
выполнения этого примера введите следующие значения в поля
на табло "выборочный план":
HO = 0.50
HA = 0.52
ALPHA = 0.05
BETA = 0.05
ALT.HYP = N
Затем нажмите клавишу
ENTER
и будет заново отображено табло со следующей информацией для
выборочного плана с фиксированным объемом:
FIXED SAMPLE SIZE TEST
NUMBER OF OBSERVATIONS = 8122
CRITICAL VALUES FOR REJECTING HO = 0.489126 0.510874
Чтобы вычислить эквивалентный последовательный выборочный
план, нажмите клавишу
F3
а затем нажмите
ENTER
в ответ на подсказку данных. Будет отображен граф.
Нажмите ENTER
для возврата к табло "Выборочный план" и вы увидите
следующую информацию о последовательном выборочном плане:
SEQUENTIAL TEST:
EXPECTED SAMPLE SIZES UNDER HO AND HA=3503.71 4132.88
Графы и данные из процедуры "Биномиальные пропорции" можно
интерпретировать так же, как из процедуры "Обычные средние
значения". Дополнительную информацию см. в разд.27.2.
Из этих рисунков и из графа ясно, что число наблюдений,
необходимое для последовательного выборочного плана,
значительно меньше числа, необходимого для выборочного плана
с фиксированным объемом.
Нажмите клавишу F10 для возврата к выборочному меню.
27.4. ОБЪЕМ ВЫБОРКИ -- ЧАСТОТЫ ПУАССОНА
Быстрый доступ
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Частоты Пуассона" рассчитывает фиксированные
и последовательные выборочные планы для оценки среднего
значения распределения Пуассона.
ВВОД ДАННЫХ
-----------
Когда вы выбираете процедуру "Частоты Пуассона",
отображается табло "Выборочный план". Это табло похоже на
табло, отображаемое процедурой "Обычные средние значения"
(см.раздел 27.2), за исключением того, что не включается
поле для предполагаемой сигмы. Предполагаемая сигма
необходима только при оценке среднего значения нормального
распределения.
Дополнительную информацию по вводу данных и
использованию процедурных функциональных клавиш см.в
разд.27.2.
ПРИМЕР
------
Чтобы рассмотреть пример выборочного плана с
фиксированным объемом, созданного для оценки
среднего
значения распределения Пуассона, введите следующие данные на
табло "Выборочный план":
HO = 25
HA = 23
ALPHA = 0.01
BETA = 0.01
ALT.HYP = L
Затем нажмите клавишу
ENTER
и табло будет заново отображено с необходимым объемом
выборки для исследования гипотез для выборочного плана с
фиксированным объемом. В этом случае мы оцениваем среднее
значение, используя левосторонний тест с альфа и бета
риском, рассчитанным на 1%. Результаты показывают, что тест
требует 136 наблюдений. Нулевая гипотеза будет отклонена,
если среднее значение выборки опускается ниже 24.
Для расчета эквивалентного последовательного
выборочного плана, нажмите на
F3
и введите выборку
25
в ответ на подсказку данных. Будет отображен граф.
Нажмите
ENTER
для возврата к табло "Выборочный план". Теперь вы видите,
что табло включает данные о последовательном выборочном
плане.
Графы и данные из процедуры "Частоты Пуассона" можно
интерпретировать так же, как из процедуры "Обычные средние
значения". Дополнительную информацию см. в разд. 27.2.
В нашем примере линия накопленной суммы пересекает
верхнюю границу в выборке 47. Таким образом, можно было бы
завершить выборку в этой точке и принять нулевую гипотезу. В
этом случае, фактическое число наблюдений, ведущее к
принятию HO, было меньше ожидаемого значения 59, показанного
в последовательном выборочном плане.
Теперь нажмите
F2
чтобы вычерчить операционную характеристическую кривую для
теста.
Нажмите ENTER, а затем два раза F10 для возвращения к
главному меню.
.3460
Г Л А В А 28
ЭКСПЕРИМЕНТАЛЬНЫЙ ПЛАН
28.1. ВВЕДЕНИЕ
Процедуры экспериментального плана применяются для
выбора экспериментальной стратегии до начала сбора данных. В
этом отношении, можно поручиться, что статистические анализы
данных имеют реальную возможность правильной идентификации
влияния коэффициентов.
Функции в этом разделе разработаны с тем, чтобы помочь
в выборе экспериментальных серий. Дополнительную информацию
по экспериментальному плану см. у Бокса, Хантера и Хантера
(1978г.)
В раздел "Экспериментальное проектирование" входят
четыре процедуры, информация о которых дана ниже, а более
подробно дается в разделах 28.2--28.5.
Процедура Число Тип Описание
переменных данных
------------------------------------------------------------
Целый и 0 или 1 N Создает проектную матрицу
дробный для двухуровневого факто-
факториалы риального проекта и оцени-
вает влияние коэф-тов.
Основные na na Создает проектную матрицу
компози- для основного композици-
ционные онного проекта второго
проекты порядка.
Создание na na Создает матрицу поверхнос-
поверхнос- ти отклика для использо-
ти отклика вания в трехмерных графи-
ках поверхности и контуров
Структура 1 N Определяет образцы сниже-
смещений ния двухфакторного взаимо-
действия из матрицы плана.
------------------------------------------------------------
28.2. ЦЕЛЫЙ И ДРОБНЫЙ ФАКТОРИАЛЫ
Быстрый доступ: T1
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Целый и дробный факториалы" помогает
организовать и проанализировать двухуровневые факторные
эксперименты. Эти экспериментальные планы используются для
изучения влияния количественных коэффициентов. Они позволяют
оценить основное влияние каждого коэффициента, а также
взаимодействие коэф-тов. В целом факторном
эксперименте точка плана создается для всех комбинац
ий двух
уровней каждого коэф-та. Если имеются коэф-ты k, то для
проекта необходимы экспериментальные серии 2 в степени k.
Дробные факторные эксперименты позволяют исследовать
k-коэф-ты менее, чем в 2 в степени k сериях путем
намеренного разрушения избранных взаимосвязей.
Эта процедура позволяет построить эксперимент,
включающий до 11 коэф-тов и 128 серий. Экспериментальные
серии кодируются как (-) для нижнего уровня и (+) для
верхнего уровня коэф-та. Система также создает ряд
случайных чисел, которые можно использовать для выбора
порядка, в котором будут выполняться эксперименты.
Если вы даете для анализа вектор данных, система
оценивает основное воздействие и влияние взаимосвязей и
вычерчивает обычный график вероятности.
Последняя созданная проектная матрица расположена в
переменной DESIGMAT. Номера блоков расположены в первом
столбце, а уровневые коды - в дополнительных столбцах.
Для исследования смещения структуры конечного
эксперимента, можно прогнать процедуру,"структура смещения",
описанную в разделе 28-5.
ВВОД ДАННЫХ
-----------
Когда вы введете процедуру, будет отображено табло
"Факторное проектирование".
Начальная матрица плана на табло предназначена для
полного факторного плана на 1 блок, 4 коэф-та и 16 серий.
Самый левый столбец отображает случайно выбираемые
номера серий между 1 и 16, пораждающие случайный порядок
выполнения экспериментов. Серии даются в стандартном порядке
Йетса. Экспериментальные серии кодируются посредством (-)
для нижнего уровня и (+) - для верхнего уровня коэф-та.
Чтобы изменить план, используйте клавишу табуляции для
перемещения к тому полю, которое вы хотите изменит
ь; это
описано ниже. Не забудьте нажать ENTER после того, как
изменены поля, чтобы сделать пересчет матрицы плана.
Поле Описание
------------------------------------------------------------
BLOCKS Введите число блоков для использования в экспе-
риментальном плане. Это число должно быть коэф-
фициентом два (1,2,4 и т.д.)
FACTORS Введите число коэф-тов, которое планируется ис-
следовать. Максимальное число 11. Если число
коэффициентов больше, чем может быть в целом
факторном плане, автоматически пораждается час-
тичный план
RUNS Введите число серий, которое вы планируете вы-
полнить. Допустимый ввод колеблется от 4 до 128
Если выбранного вами плана нет в готовом виде из-за
слишком большого кол-ва блоков или коэф-тов для данного
количества серий, будет отображено сообщение о том, что
необходимого плана нет в готовом виде.
Если вы хотите использовать более одного блока, система
автоматически оптимально разделит блоки. Цель блокирования -
исключить из анализа изменчивость, возникающую в результате
внешних факторов, которые невозможно проконтролировать,
таких как постоянные разногласия.
Если вы вводите число коэф-тов, которое слишком велико
для целого факторного эксперимента, автоматически будет
создан частичный план. Частичные планы важны на ранних
стадиях изучения, когда вы хотите исследовать поверхностно
большое число коэф-тов, нежели глубоко - несколько коэф-тов.
Вы увидите в нижней части табло "Факторный план", что
для этой процедуры описаны процедурные функциональные
клавиши. F1 (HELP) и F10 (QUIT) сохраняют свои обычные
определения. Другие клавиши определяются так, как описано
ниже.
Клавиша Определение
------------------------------------------------------------
F2 (RANDOM) Порождает новый набор случайных чисел для
упорядочения серий. Случайное упорядочение
серий помогает уменьшить влияние неизвест-
ных коэф-тов
F3 (AHEAD) Если проектная матрица большая, она распро-
F4 (BACK) странится на несколько экранов (страниц).
Текущая страница и общее количество страниц
показано в верхнем правом углу табло.
Используйте клавиши F3 и F4 для перемещения
между страницами
F5 (ESTIM) Оценивает основное влияние и влияние взаи-
модействия на целый или частичный факторный
эксперимент. Вам будет предоставлена воз-
можность вводить новые наблюдения в стан-
дартном порядке Йейтса.
Система заполнит столбец отклика на табло
вашими наблюдениями.
Будет отображен нормальный график, который
помогает определить, какие результаты зна-
чительно отличаются от нуля, когда невоз-
можно получить оценку дисперсии.
После отображения графика показывается таб-
лица оценок влияния коэф-тов. Когда вы ос-
тавляете процедуру, дается возможность сох-
ранить оцененные коэф-ты.
Нажмите клавишу F10, когда отображается табло, чтобы
оставить процедуру. Окончательная проектная матрица будет
сохранена в структуре смещения, называемой DESIGNMAT. Номера
блоков хранятся в первом столбце, а уровень k переменных - в
дополнительных столбцах.
ПРИМЕР
------
С целью создания факторного плана для эксперимента,
содержащего три коэф-та и восемь серий, введите
3
в поле FACTORS и
8
в поле RUNS. Оставьте поле BLOCKS на 1 и нажмите
ENTER
Будет создан полный факторный план, подобный следующему
примеру. Последовательность серий будет изменяться в
зависимости от созданного случайного порядка.
FACTORIAL DESIGNS
BLOCK: 1 FACTORS: 3 RUN: 8 PAGE: 1 из 1
серия блок отклик a b c d e f g h i j k
( 7) 1 0 - - -
( 5) 1 0 + - -
( 1) 1 0 - + -
( 8) 1 0 + + -
( 6) 1 0 - - +
( 3) 1 0 + - +
( 4) 1 0 - + +
( 2) 1 0 + + +
Обратите внимание на порядок серий на экране. Затем нажмите
F2
для создания новой последовательности случайных чисел. Табло
образуется с новой последовательностью серий.
Для создания частичного плана введите
4
в поле FACTORS и
8
в поле RUNS. Оставьте поле BLOCKS на 1 и нажмите
ENTER
Создается частичный факторный план, подобный следующему
примеру. Последовательность серий будет изменяться в
зависимости от созданного случайного порядка.
FACTORIAL DISIGNS
BLOCK: 1 FACTORS: 4 RUN: 8 PAGE: 1 из 1
серия блок отклик a b c d e f g h i j k
( 6) 1 0 - - - -
( 3) 1 0 + - - +
( 2) 1 0 - + - +
( 7) 1 0 + + - -
( 1) 1 0 - - + +
( 8) 1 0 + - + -
( 5) 1 0 - + + -
( 4) 1 0 + + + +
Теперь оценим влияние коэф-тов для этого частичного плана.
Нажмите клавишу
F5
Если вас спрашивают, хотите ли ввести новые наблюдения,
введите
Y
Затем вас попросят ввести имя переменной с наблюдениями в
стандартном порядке Йуйтса. Для этого примера введите
6.25 8 6 9.5 8 15 9 17
Система оценит основные результаты взаимодействия и
сформирует обычный вероятностный график. В общем,
незначимые рез-ты будут направляться вдоль прямой линии,
проходя через положение X=0. Из этого примера можно сделать
вывод, что имеются три значимых положительных результата.
Когда вы нажимаете клавишу ENTER отображаются следующие
оценки воздействия коэф-тов:
AVER 9.84375
A 5.0625
B 1.0625
AB 0.6875
C 4.8125
A C 2.4375
BC 0.4375
ABC -0.1875
Обратите внимание, что три больших результата - это основной
результат A, основной результат C и взаимодействие AС.
Таблица показывает идентификаторы результатов для полного
факторного плана. Структуру смещения или модель смешивания
можно определить, анализируя матрицу проекта
путем
применения процедуры "Структура смещения", описанной в
разделе 28-5.
Нажмите клавишу
ENTER
для возврата к табло "Факторное проектирование". Нажмите
клавишу
F10
и вам будет дана подсказка переменной, в которой
нужно
сохранять оцененные коэффициенты. Нажмите
ENTER
чтобы указать, что вы не хотите их сохранять. Система
отобразит сообщение, где говорится о том, что окончательная
матрица плана была сохранена в переменной RAM, называемой
DESIGMAT. Нажмите
ENTER
чтобы оставить процедуру.
28.3. ОСНОВНЫЕ СВОДНЫЕ ПЛАНЫ
Быстрый доступ: T2
ОПРЕДЕЛЕНИЕ
-----------
Процедура "Центральные сводные планы" создает матрицу
плана для центрального связного плана второго порядка; эта
матрица содержит до восьми переменных. В последующем эти
пункты плана можно использовать для моделей второго п
орядка,
имеющих и линейные и квадратные результаты. В большинстве
случаев система блокирует план в виде треугольника. Чтобы
проанализировать результаты этого типа экспериментального
плана, используйте процедуры множественной регрессии.
Дополнительную информацию о сводном плане см. у Бокса и
Хантера (1957 г.)
Матрица плана, возникающая в результате этой процедуры,
помещается в переменной DESIGNMAT. Номера блоков находятся в
первом столбце, а уровневые коды - в дополните
льных
столбцах.
ВВОД ДАННЫХ
-----------
Подсказка Отклик
------------------------------------------------------------
ENTER NUMBER OF Введите число коэф-тов (2-8), ко-
VARIABLES (3): торое вы планируете исследовать
ПРИМЕР
------
Когда появляется подсказка о числе переменных, введите
2
чтобы найти в сводном плане две переменные.
Будут отображены следующие результаты:
1 -1 -1
1 -1 1
1 1 -1
1 1 1
1 0 0
1 0 0
1 0 0
2 1.41421 0
2 -1.41421 0
2 0 1.41421
2 0 -1.41421
2 0 0
2 0 0
2 0 0
DESIGN POINTS PLACED IN MATRIX: DESIGNMAT
BLOCK NUMBERS ARE IN THE FIRST COLUMN, FOLLOWED BY
DESIGN POINTS FOR EACH OF THE 2 VARIABLES
Получающийся в результате график содержит 14 строк и 3
столбца и является восьмиугольным планом, в котором
наблюдения равномерно расположены вокруг центральной точки.
Номера блоков находятся в первом столбце, а уровневые коды
для X1 и X2 - в дополнительных столбцах. Значение 1.41421
равно квадратному корню из двух. Верхняя половина
(кубический блок) матрицы - это двухуровневый факторный план
с дублированной центральной точкой. Нижняя половина (осевой
или вращающийся блок) - это звездообразная конструкция,
окружающая центр.
Обратите внимание, что этот эксперимент требует, чтобы
каждая переменная была установлена на 5 различных уровнях во
всех 14 сериях. Первые 7 серий должны быть выполнены как
группа, составленная в случайном порядке из 7 серий. Другие
7 серий тоже должны быть выполнены как группа в случайном
порядке.
Если мы используем процедуру "Структура смещения"
(см.раздел 28.5), мы можем создать матрицу корреляции из
матрицы этой конструкции. В ответ на подсказку введите
DESIGNMAT
и ответьте Y, когда спрашивают, содержит ли матрица номера
блоков. Будет создана следующая симметричная матрица
корреляции:
CORRELATION MATRIX
CONST A B AA BB AB
CONST. .00 .00 .00 .00 .00 .00
A .00 1.00 .00 .00 .00 .00
B .00 .00 1.00 .00 .00 .00
AA .00 .00 .00 1.00 -.08 .00
BB .00 .00 .00 -.08 1.00 .00
AB .00 .00 .00 .00 .00 1.00
Результаты показывают, что в этом плане, результаты AA и BB
полностью ортогональны основным результатам A и B, а также
взаимодействию AB с двумя коэф-ми. Они совместно используют
незначительную отрицательную корреляцию.
Нажмите клавишу ENTER, чтобы вернуться к меню
"Экспериментальный план".
28.4. ФОРМИРОВАНИЕ ПОВЕРХНОСТИ ОТКЛИКА
Быстрый доступ: T3
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура формирует матрицу поверхности отклика в
той форме, которую требуют функции вычерчивания поверхности
и контуров, описанные в разделе "Функции вычерчивания" (см.
разделы 13.10 -- 13.14). Процедура сформирует матрицу для
двух типов поверхности: 1) многочлен второй степени в X и Y,
определяемый
Z=B)+B1(X)+B2(Y)+B11(X**2)+B22(Y**2)+B12(XY)
2) функция нормальной двумерной плотности с выборочными
средними значениями, дисперсиями и кодисперсией.
ВВОД ДАННЫХ
-----------
Подсказка Отклик
------------------------------------------------------------
SURFACE AVAILABLE:
1) SECOND-ORDER POLYNOMIAL IN X и Y
2) BIVARIATE NORMAL DENSITY
ENTER YOUR Введите 1 или нажмите ENTER, чтобы выбрать
SELECTION (1): в X или Y многочлен второй степени.
Введите 2, чтобы выбрать двумерную плот-
ность.
Появится другой набор подсказок, в зависи-
мости от выбранной вами поверхности. Смот-
рите примеры, которые следуют за подсказка-
ми и возможными ответами.
ПРИМЕР
------
Сначала мы посмотрим график трехмерной поверхности
Z=70+4.5x+3.1Y+2.0X(**2)+OY(**2)-2.5XY
где -2<=X<=2
-2<=Y<=2
Введите следующие значения в ответ на подсказки:
ENTER YOUR SELECTION (1):1
ENTER MINIMUM VALUE ALONG X-AXIS (-3): -2
ENTER MAXIMUM VALUE ALONG X-AXIS (2): 2
ENTER NUMBER OF INTERVALS ALONG X-AXIS (10): 10
ENTER MINIMUM ALONG Y-AXIS (-3): -2
ENTER MAXIMUM VALUE ALONG Y-AXIS (2): 2
ENTER NUMBER OF INTERVALS ALONG Y-AXIS (10): 10
ENTER VALUE FOR THE CONSTANT TERM BO (0): 70
ENTER VALUE FOR THE LINEAR COEFFICIENT B1 91): 4.5
ENTER VALUE FOR THE LINEAR COEFFICIENT B2 (1): 3.1
ENTER VALUE FOR THE QUADRATIC COEFFICIENT B11 (0): 2
ENTER VALUE FOR THE QUADRATIC COEFFICIENT B22 (0): 0
ENTER VALUE FOR THE INTERACTION TERM B12 (0): -2.5
Система сформирует матрицу поверхности отклика и отобразит
следующие сообщения в подтверждение того, что эта матрица и
значения X и Y сохранялись в переменной ОЗУ в рабочей
области:
SURFACE PLACED IN VARIABLE: SURFACEMAT
X VALUES PLACED IN VARIABLE: XVALUES
Y VALUES PLACED IN VARIABLE: YVALUES
Матрица поверхности содержит значение Z для всех комбинаций
X и Y; она содержит столько строк, сколько значений X , и
столько столбцов, сколько значений Y.
Если мы используем процедуру "График основной
поверхности" (см.раздел 13-10), мы можем построить график
поверхности переменной SURFACEMENT. Для переменной оси X
введите
XVALUES
а для переменной оси Y введите
YVALUES
Для переменной X-Y введите
SURFACEMAT
Чтобы вычерчить линии, параллельные и оси X и оси Y,
ответьте на последнюю подсказку, нажав клавишу
ENTER
Будет отображен трехмерный график.
Теперь сформируем матрицу поверхности отклика для
функции вычисления нормальной двумерной плотности. Чтобы
вычерчить две переменные, имеющие нормальной двумерной
плотности. Чтобы вычерчить две переменные, имеющие
нормальное распределение (нормальную двумерную плотность),
необходимо специфицировать среднее значение каждой
переменной, стандартные отклонения и корреляцию между X и Y.
В качестве примера допустим, что оба средних значения равны
0, оба стандартных отклонения равны 3, а коэф-т корреляции
равен 0.5. Теперь выведем функцию плотности в этом
диапазоне:
-10<=X<=10
-9<=Y<=9
Снова выберем процедуру "Формирование поверхности отклика" и
введем следующие значения в ответ на подсказки:
ENTER YOUR SELECTION (1):2
ENTER MINIMUM VALUE ALONG X-AXIS (-3): -10
ENTER MAXIMUM VALUE ALONG X-AXIS (2): 10
ENTER NUMBER OF INTERVALS ALONG X-AXIS (10): 10
ENTER MINIMUM ALONG Y-AXIS (-3): -9
ENTER MAXIMUM VALUE ALONG Y-AXIS (2): 9
ENTER NUMBER OF INTERVALS ALONG Y-AXIS (10): 10
ENTER THE MEAN FOR X (0): 0
ENTER THE STANDARD DEVIATION FOR X (1):3
ENTER THE MEAN FOR Y (0): 0
ENTER THE STANDARD DEVIATION FOR Y (1): 3
ENTER THE CORRELATION BETWEEN X AND Y (0): .5
Система сгенерирует матрицу поверхности отклика и отобразит
следующие сообщения в подтверждение того, что эта матрица и
значения X и Y сохранялись в переменной ОЗУ в рабочей
области:
SURFACE PLACED IN VARIABLE: SURFACEMAT
X VALUES PLACED IN VARIABLE: XVALUES
Y VALUES PLACED IN VARIABLE: YVALUES
Матрица поверхности содержит значение Z для всех комбинаций
X и Y; она содержит столько строк, сколько значений для X, и
столько столбцов, сколько значений для Y.
28.5. СТРУКТУРА СМЕЩЕНИЯ
Быстрый доступ: T4
ОПРЕДЕЛЕНИЕ
-----------
Эта процедура позволяет определить модель смещения для
взаимодействия двух коэф-тов, данных матрицей плана,
содержащей в своих столбцах уровни экспериментальных
коэф-тов. В качестве входа в эту процедуру
можете
использовать матрицу плана из процедур "Полные и дробные
факториалы" или "Центральные сводные планы".
ВВОД ДАННЫХ
-----------
Подсказка Отклик
-----------------------------------------------------------
ENTER NAME FOR YOUR Введите имя матрицы, содержащей
DESIGN MATRIX: уровни экспериментальных коэф-тов в
своих столбцах.
DOES THE FIRST Введите Y или нажмите клавишу ENTER,
COLUMN OF YOUR если первый столбец матрицы содержит
MATRIX CONTAIN номера блоков.
BLOCK NUMBERS? Матрица, порожденная процедурой
(Y/N): "полные дробные факториалы" или
"Основные композиционные проекты",
следует за этим форматом.
Введите N, если матрица не включает
коэф-ты блоков.
ПРИМЕР
-------
Сначала прогоним процедуру "Полные и дробные факториалы"
(см.раздел 28.2), выбирая BLOCK=1, FACTORS=4 и RUNS=8, чтобы
сгенерировать проектную матрицу DESIGNMAT. Затем выполним
процедуру "Структура смещения".
Когда появится подсказка проектной матрицы, введите имя
проектной матрицы, созданное процедурой "Полные и дробные
факториалы":
DESIGNMAT
В ответ на подсказку номеров блока откликнитесь
Y
так как матрица содержит номера блоков в первом столбце.
Появится матрица корреляции.
Результатом является матрица корреляционных коэф-тов
между основными результатами и результатами взаимодействия.
При интерпритации этой матрицы обратите внимание, что строки
и столбцы, помеченные A, B, C и D, имеют значение 1.0 по
диагонали и 0.0 в любом другом месте. Это означает, что
основные результаты не смешиваются ни с каким другим
основным результатом или со взаимодействием любых двух
факторов.
В каждом столбце, обозначенном взаимодействие двух
факторов по диагонали, а также еще в одном другом
местоположении появляется 1.0. Например, столбец,
обозначенный AB, содержит 1.0 в строке AB, а также в строке
CD. Это говорит о том, что взаимодействия результатов AB и
CD полностью смешивается в сгенерированном плане. Подробное
рассмотрение результатов смешивания дано у Бокса, Хантера и
Хантера (1978 г.)
В разделе 28.3 описано другое применение этой проце
дуры,
использующей матрицу плана второго порядка.
.3460
.34
|
|