ru_spss

SPSS в психологии и социальных науках

Сообщество пользователей SPSS

Памятка всем

ПРАВИЛА СООБЩЕСТВА:
  1. Приветствуются публикации, касающиеся статистического анализа вообще и в программе SPSS в частности; касающиеся анализа данных и интерпретации его результатов в науках о поведении; касающиеся любых технических вопросов о программе SPSS.
  2. Не приветствуются публикации, касающиеся технических вопросов других программ и языков, если это не связано с SPSS.
  3. Запрещается обсуждение взломов программы SPSS, поиска "пиратских" копий, "кряков" и т.п.
  4. Запрещается публикация сообщений с просьбой о помощи за деньги, о вакансиях на работу.
  5. Запрещается публикация рекламных сообщений (о платных курсах по SPSS, консультаций, вакансий и т.п.). Реклама в сообществе может быть опубликована лишь с разрешения модератора - LJ-user: propulsive (e-mail: uralakme(at)mail.ru).
Сообщения с нарушением вышеуказанных правил будут удаляться без предупреждения.

ОФОРМЛЕНИЕ ПУБЛИКАЦИЙ:
  1. Длинные записи прячьте частично под врезку ("под кат").
  2. Озаглавливать вашу запись необходимо информативно (посты без указания темы - отклоняются).
  3. Если вы задаете вопрос, позаботьтесь дать "ключи" ответить на него: вероятно, что вам следует привести данные, синтаксис ваших команд, сообщить вашу версию SPSS (данные, синтаксис рекомендуем помещать между html-символами <pre> и </pre>).
  4. Если вы вставляете в запись рисунок как ссылку на где-то хранимое изображение, то обеспечьте пожалуйста, чтобы изображение хранилось там постоянно, а не временно, иначе ваша запись однажды потеряет свой рисунок и вместе с ним смысл.
  5. Старайтесь дать своей записи метки (теги) из предлагаемого сообществом списка таковых. Если хотите предложить метку, какой нет в списке, укажите ее в конце записи: возможно, мы сочтем ее полезной и включим в список.
  6. Пожалуйста, соблюдайте русские правописание и пунктуацию, чтобы донести мысль верно: ведь это сообщество ученых.
  7. Употребляя принятые сокращения названий процедур, пожалуйста, при первом упоминании в записи сопроводите и расшифровкой, например: дисперсионный анализ (ANOVA).


Квантили. Поиск "выбросов".
noocrat_dict
У меня 2 вопроса (один технический, второй консультационный).

1. Столкнулся с проблемой нахождения 1/2 1/4 3/4 квантилей, и математическими действиями с ними. Вообщем если б была б такая функция для нахождения квантилей Q() можно б было написать что то типа :

COMPUTE filter1=Q(1/2,y)+3*(Q(3/4,y)-Q(1/4,y)).
(Хотя у меня много груп и так что надо наверно добавить еще и групирующую переменную)

Функции такой я не нашел, мучаюсь с настраеваемыми таблицами, експортирую их в Эксель, потом открываю СПССом и сливаю по ключу. А процесс надо автоматизировать. Со средним квадратичным отклонением функции тоже нету (ожидал найти SD() - не нашел ), но там спасает "агригация". Помогите :(

2. Как вы ищите выбросы ? Я применял метод "3-сигма", тоесть выброс если (у-mean(y))>3*SD(y) (без модуля, так как бизнес статистика). Этот метод статистически обьясним неравенством Чебышева и неравенство Высочанского-Петунина, но проявлял себя отвратно в бизнес статистике. Увидел что на западе использывают медиану + утроеный межквартильный размах вместо среднего и утроеного стандартного отклонения. Также очень популярны цыклы которые ранжируют и относят самые высокие значения к нетипичным, пока коефициент вариации в групе не упадет до 200% (с предприятиями бывают групы и с 9000% Коеф. Вар.) Цикл я написал, а вот с квартилями загвостка.
Ну собственно вопрос : Какой метод для поиска выбросов используете Вы ?

Нетрадиционный факторный анализ
Клаус_Лави_Взлет
shura_shurov
Здравствуйте Коллеги!

Был у нас с коллегами такой вот случай/спор, суть в следующем:
1. Есть регионы России (где их ключевой признак - климатическая зона, но это потом)
2. Есть объём потребляемых видов продукции в тоннах, причем объем в тоннах можно сравнивать только внутри вида, но никак не между видами.

Решили сделать вот что:
1. Привели ряды продуктов из абсолютных в относительный значения внутри вида по регионам, например:
Новосибирск: 10% Продукта "А"
Красноярск: 20% Продукта "А" и так далее
2. Считаем что виды продуктов с их потреблением - это факторы (их 12 видов), как если бы Регионы(их больше 100) выбирали значимость потребления продукта от 0 до 100% (т.е. якобы "оценивали" значимость).
3. Затем взяли и в SPSS провели процедуру факторного анализа.

Что характерно, так это то, что наши результаты хорошо легли в наши представлениях, но вот вопрос насколько корректно так было делать?
Именно с точки зрения статистики.

Характер распределения. Какие виды анализа допустимы?
Пионерка
strider_o
Добрый день, друзья. Хочу спросить совета.
Есть вот такое вот распределение величины. Это уровень стрессовых реакций. В принципе, сам вид распределения вполне ожидаем. Выборка достаточно большая и характер распределения в подвыборках практически не отличается.
Вопрос собственно в том, какие виды анализа применимы в данном случае, если рассматривать эту переменную как зависимую от ряда факторов? Есть ли смысл в каком-то преобразовании? Если да, то как это обосновать в рамках научно-исследовательской работы?
q

Новости сервиса онлайн-опросов VirtualExs: выгрузка массива ответов в SPSS
приводящий в движение, поддерживающий
propulsive

Многие пользователи сервера VirtualExS обрабатывают статистическую информацию своих маркетинговых исследований и опросов с помощью программы SPSS. Эта программа позволяет работать с различными типами данных, которые собираются в интернет-исследованиях наших пользователей автоматически. При этом, функция выгрузки собранных данных и ответов респондентов в SPSS была востребована, но решалась до недавнего времени с помощью простого CSV-массива и ручной настройки параметров переменных непосредственно в SPSS. В настоящий момент эта рутинная работа выполняется на VirtualExS автоматически для каждого исследования.

Читать дальше...Свернуть )

Множественная линейная регрессия Cochrane-Orcutt
Михаил Ткачёв
Здравствуйте, коллеги !

При построении регресии МНК (десятки факторов) обнаружилась мультиколлинеарность и автокорреляция остатков.
Для устранения мультиколлинеарности предлагается воспользоваться REGRESSION/METHOD=STEPWISE.
Для устранения автокорреляции предлагается применять метод Cochrane-Orcutt, который, если я правильно понял пребразует исходные ряды данных в новые (без автокорреляции остатков), по которым иожно строить регрессию обычным МНК.
В SPSS метод Cochrane-Orcutt реализован в команде AREG/METHOD=CO, но исходные ряды она не пересчитывает.
Применять метод REGRESSION/METHOD=STEPWISE при неустранённой автокорреляции остатков вроде бы тоже неправильно.
Подскажите, пожалуйста, правильную последовательность действий в SPSS.

Метод "Монте Карло" со сложными выборками и "ненормальное распределение"
noocrat_dict
Хотелось задать вопрос по поводу синтаксиса "репликаций". Условия :

1) Генеральная совокупность полностью известна (более 1 000 000 единиц). Выборка - 10%. Для репликаций используются значения за прошлый период.

2) Выборка стратифицируется, отбираются нетипичные единицы (выбросы), оставшийся размер распределяется по стратам "Неймановским способом" и т.д. Потом используется "CSSELECT". После этого выборка распространяется на ген совокупность стандартной оценкой (HT) и оценкой по регресии (GREG). Считается сумма по всему включая нетипичные (у них вероятность попадания - 1).

3) Задача - оценить качество выборки используя 10 000 репликаций из ГС для оценки точности Root Mean Squared Error (RMSE), RRMSE, MSE (приравнивается к дисперсии), ARB (относительное смещение) и тд. По каждой страте и по каждой оценочной функции отдельно так и по всем стратам вместе.

Вопросы :

1) Я не могу сделать синтаксис для 10000 репликаций. Если есть у кого опыт создания "цикла" для сложных выборок ? Может он реализован в новых версиях ? (У меня 18я)

Я помещаю "CSSELECT" в "DEFINE" работает плохо (в нем еще ж распространение), вечно какие то ошибки. Не получается настроить нормальный вывод - что бы сделана репликация - появился новый файл с 1 наблюдением и 402 переменными (оценки*страты+вместе) с распространенными данными, следующая репликация - 2е наблюдение и т.д. В конце файл : 402 переменные 10000 наблюдений из которых потом считаются оценки точности.

2) Абсолютно "ненормальное" распределение. В некоторых стратах CV доходит до 9000%. (0,0,...,0,10, 100, 100000,...) После отбора нетипичных (сильно большие значения) - CV=300%. Тест К-С дает 0,0000%, графика частоты не видно - он прилип к осям :). Из за этого ничего нормально не работает, ни "правило 3 сигма" ни то же "неймановское распределение", все надо докручивать руками, пересматривать каждую страту, если книги по такому распределению ? Кто то имел с таким дело ? (статистика предприятий, а не людей/хозяйств).

3) Может синтаксис SPSS не нужен ? Может попробовать на "R" и "Python" ? Какие тогда библиотеки и функции существуют, которые подойдут для сложных выборок ? Я смотрел, там есть что то наподобие "из N элементов отобрать простым отбором n единиц, сделать k репликаций" (функция "rmse" в "R" ). Неподходит.

4) Можно как то ускорить SPSS ? Это ж ненормально столько считать...

сори за делитантство. :(

Технический вопрос: приведение аутпутов к единому виду
yanka_s
Добрый день!
У меня возникла необходимость приводить к определенному виду аутпуты в SPSS, и не выходит.
Сделала пример: пусть у нас задан вопрос про частоту посещения магазинов, вопрос задан отдельно для каждого магазина. И если в Магазине 1 все ок, и респонденты распределились по всем ответам, и все ответы есть в выгрузке - то в Магазине 2 выбрали ответов меньше, и на выходе мы имеем сжатую таблицу.
Подробности внутри...Свернуть )

Синтаксис для фильтра по большому количеству переменных
Gendo smiles
simmons_fan
По совету gorgonops переношу сюда вопрос изначально заданный в комментариях у alexwin1961.

Я хочу построить Custom Table, в строках которой будут частоты (count) по переменным, содержащим психометрические высказывания со стандартной шкалой:

1 = полностью согласен;

2 = скорее согласен;

3 = ни то, ни другое;

4 = скорее не согласен;

5 = совершенно не согласен.

Для этого мне нужно выбрать только те значения переменных, которые выражают согласие с утверждением, т.е. либо имеют значение 1 либо значения 1 или 2.

Я думал сделать это через фильтр, однако его синтаксис выглядит очень громоздко если перечислять все переменные, которых всего 256, но выбрать для кросстабуляции нужно только 20-40.  Поэтому мне бы хотелось получить какой-то менее громоздкий вариант типа:
select if (Var614 to Var878 = 1).

Если бы синтаксис SPSS позволял использовать to в данной конструкции.

UPD.

Итоговый вариантСвернуть )


Русский перевод SPSS Statistics
balabanas
Коллеги, добрый день,

появилась разовая возможность без открытия множества кейсов в поддержке IBM повлиять на качество локализации свежих версий SPSS Statistics, проще говоря, убрать режущие глаз огрехи перевода как в части статистической терминологии, так и просто в интерфейсе.

Не факт, что непременно все будет учтено, но список желательных исправлений будет изучен. У тех пользователей, которые работают с русифициованным интерфейсом (речь идет и о редакторе данных, и о выводе, и о синтаксисе), наверняка есть хотя бы пара моментов, которые хотелось бы исправить. Опять же, я говорю только о переводе, а не о какой-либо функциональности.

Если такие вещи есть, поделитесь этими пожеланиями с минимальными комментариями, я постараюсь включить их в список желательных изменений.
Комментарий мог бы выглядеть так:
"В списке распределений в новом инструменте симуляции данных равномерное (uniform) распределение переведено как "Равные". А должно быть - равномерное." - этого будет вполне достаточно.

Спасибо!

Хи квадрат VS Отношение правдоподобия
hrm
hrmru
Столкнулся с тем, что в разных источниках разница между Хи квадрат и тестом отношения правдоподобия освещается по разному.
Выделяю два подхода:
1) Отношение правдоподобия "заточен" под определенный класс задач (если погуглить, то можно встретить такое на медицинских порталах, где разбираются примеры предсказания диагностики заболевания, действия лекарства и т.п..);
2) Отношение правдоподобия более точный тест, чем Хи квадрат (встретил такое утверждение в одном из руководств по R).
Какой подход все же ближе к правде?
Подозреваю, что все таки второй, но тогда подскажите (поделитесь пожалуйста ссылкой) - где границы Хи квадрат и Отношения правдоподобия?
спасибо!

Вы читаете ru_spss