Надоела реклама? Купите платный аккаунт и больше вы не увидите рекламы!
ru_spss

SPSS в психологии и социальных науках

Сообщество пользователей SPSS

Памятка всем

ПРАВИЛА СООБЩЕСТВА:
  1. Приветствуются публикации, касающиеся статистического анализа вообще и в программе SPSS в частности; касающиеся анализа данных и интерпретации его результатов в науках о поведении; касающиеся любых технических вопросов о программе SPSS.
  2. Не приветствуются публикации, касающиеся технических вопросов других программ и языков, если это не связано с SPSS.
  3. Запрещается обсуждение взломов программы SPSS, поиска "пиратских" копий, "кряков" и т.п.
  4. Запрещается публикация сообщений с просьбой о помощи за деньги, о вакансиях на работу.
  5. Запрещается публикация рекламных сообщений (о платных курсах по SPSS, консультаций, вакансий и т.п.). Реклама в сообществе может быть опубликована лишь с разрешения модератора - LJ-user: propulsive (e-mail: uralakme(at)mail.ru).
Сообщения с нарушением вышеуказанных правил будут удаляться без предупреждения.

ОФОРМЛЕНИЕ ПУБЛИКАЦИЙ:
  1. Длинные записи прячьте частично под врезку ("под кат").
  2. Озаглавливать вашу запись необходимо информативно (посты без указания темы - отклоняются).
  3. Если вы задаете вопрос, позаботьтесь дать "ключи" ответить на него: вероятно, что вам следует привести данные, синтаксис ваших команд, сообщить вашу версию SPSS (данные, синтаксис рекомендуем помещать между html-символами <pre> и </pre>).
  4. Если вы вставляете в запись рисунок как ссылку на где-то хранимое изображение, то обеспечьте пожалуйста, чтобы изображение хранилось там постоянно, а не временно, иначе ваша запись однажды потеряет свой рисунок и вместе с ним смысл.
  5. Старайтесь дать своей записи метки (теги) из предлагаемого сообществом списка таковых. Если хотите предложить метку, какой нет в списке, укажите ее в конце записи: возможно, мы сочтем ее полезной и включим в список.
  6. Пожалуйста, соблюдайте русские правописание и пунктуацию, чтобы донести мысль верно: ведь это сообщество ученых.
  7. Употребляя принятые сокращения названий процедур, пожалуйста, при первом упоминании в записи сопроводите и расшифровкой, например: дисперсионный анализ (ANOVA).


R и SPSS 20+ версии
noocrat_dict
Установил новую версию СПСС 20ю, раньше работал на 18й (еще называлась PASW). Чего то не могу найти плагин для того что б вставлять части R кода в синтаксис. С 18 версией вроде много проблем не было Хотя некоторые функции, как например "spssdictionary.GetUserMissingValues" не работали и выводило "Ошибка: PASW Statistics error: The error code is '32' With message 'Unknown Error.", тоже непонятно. Часто у вас такое ?
И хотелось бы узнать чего используют 2.х версию R ? Есть ли плагины для новой 3й версии и 20+ версии СПСС. Спасибо !

Norman H. Nie
inostrancevia1
gorgonops
Норман Ни, один из трех и главный создатель SPSS в далекие уже (и прекрасные) 60-е годы, умер вчера, на следующий день после своего 72-го дня рождения. В 1969 студент-социолог Норман Ни совместно с кибернетиками Дейлом Бентом и Хедлаем Халлом придумал и создал программу для автоматической статистической обработки множества анкет - SPSS, и написал об этом изобретении свою диссертацию.

Пишет ViAnn Beadle, один из старейших разработчиков в SPSS:

"Norman Nie, one of the principal creators of SPSS died today. I have known Norman since 1969 when I was a graduate student in Political Science at the University of Chicago. Norman gave me my first real job in 1972 and my life would not be what it is without his mentorship, encouragement, and support.

Norman was a graduate student at Stanford University in the ‘60s who had a big problem to solve: how to analyze thousands of political surveys conducted among residents of 7 nations with nominally Democratic governments. In those days, the tool of choice was an IBM counter-sorter which was used to tabulate punch cards. Norman along with Tex Hull and Dale Bent (also at Stanford) developed a program to run on an IBM 360 to do all the drudge work and called it the Statistical Program for the Social Sciences. It was later renamed SPSS. Norman was the first and most influential user of SPSS. Norman and Tex both took jobs at the University of Chicago, Norman in the Political Science Department and Tex at the Computation Center. Even before they came to Chicago, SPSS was being adopted by graduate schools and governmental agencies. I was hired to provide technical support to the rapidly expanding user base for SPSS and retired in 2007.

Norman was first and foremost, a talented and respected Political Scientist and probably more proud of his contributions to Political Science than SPSS.

There would be no SPSS without Norman and all former and current SPSSers who knew him, miss him today."

Вопрос новичка
рыба Баррамунди
makrina
Прошу прощения, если мой вопрос покажется странным или глупым. Мы делали проект с коллегой, она отвечала за spss, сейчас она из проекта вышла, а я осталась с базой и воспоминаниями об университетском курсе spss.

В базе ответы 576 респондентов. У нас есть порядковые переменные, которые принимают значения "нравится", "возможно(допустимо, приемлемо)", "не нравится" (1, 2, 3), и порядковые переменные "уровень образования", "уровень дохода". Меня интересуют корреляции переменных. Коэффициент корреляции Пирсона мне не подходит, потому что данные не метрические, я правильно понимаю? А какой коэффициент из оставшихся предлагаемых spss, Спирмена или Кендалла, лучше использовать? Заранее спасибо за ответ.

Сайт макросов снова в действии
inostrancevia1
gorgonops
Веб-страница с моими SPSS макросами (Kirill's SPSS macros page), существующая с 2005, переехала и открылась по адресу: http://www.spsstools.net/KO-spssmacros.htm.

Это славный сайт Рейналя Левека SPSS Tools (http://www.spsstools.net), ныне редактируемый Антоном Балабановым, которому я выражаю благодарность за приют.

Рекомендую всем пользователям, работающим в SPSS не с одним интерфейсом, а с программным языком, этот ресурс и мою страницу там.

Синтаксис для меток и multiple response sets для большого кол-ва брендов и их характеристик
Gendo smiles
simmons_fan
У меня появилась задача по оптимизации одного процесса и я пытаюсь понять, возможно ли её решить с помощью синтаксиса SPSS.

В анкете есть блок вопросов с множественным вариантом выбора, представляющий собой выбор из 12 характеристик по 33 брендам. Т.е. переменные имеют вид Q1_1_1, Q1_1_2, ... Q1_n_m, где n - число брендов и m - число характеристик.

Синтаксис при этом выглядит жуткими батареями вида:

Var lab Q1_1_1 "Brand 1".
Var lab Q1_1_2.
...
Var lab Q1_1_12
Var lab Q1_2_1 "Brand 2".
...
Var lab Q1_2_12

Val lab Q1_1_1 1 "Feature 1".
Val lab Q1_1_2 2 "Feature 2".
...
Val lab Q1_1_12 12 "Feature 12".

И дальше такая же пачка MRSETS под каждый из 33 брендов.

Для того, чтобы приделать метки к переменным и значениям приходится пользоваться костылём в виде сцепок в Excel. В принципе, я понимаю, как решить данную задачу с помощью циклов в R/Python, но меня интересует вопрос: можно ли это как-то оптимизировать средствами синтаксиса самого SPSS?

На http://www.spsstools.net/ и в книге автора данного сайта я ничего похожего не обнаружил.

То ли кейс-контроль, то ли repeated measures, то ли пре-пост данные?
лаба
tanchik
Здравствуйте. Простите если не точно по адресу, но надеюсь получить помощь. И юзаю SPSS. :)
У меня вот такой сабж - каким бы тестом вы считали такие данные (см рисунок)?

Объясняю: на этапе планирования мы предполагали, что у нас 30-40% шанс получить нужный тип клеток из крови пациента после того как он получил пересаженный орган. И у нас 80-90% шанс получить этот тип клеток у пациента до пересадки органа. Мы также знали набор из 5-6 факторов, которые точно влияют на состояние наших клеток (и эти факторы отвечают за variability наших клеток у разных пациентов). И наша задача была получить 2 группы образцов: до пересадки и после пересадки. Наш главный вопрос - меняются ли наши клетки после пересадки органа.
В итоге на этапе до пересадки, когда шансов получить клетки больше, мы сделали "гнезда" - группы пациентов по 3-4 человека, у которых значимые факторы сопоставимы. Получилось даже сопоставить по 9 факторам. То есть "matched" контроли такие, получается. А затем мы пытались выделить клетки у всех, кто получил пересадку органов. И если хотя бы один из "гнезда" давал нам эти клетки, мы получали этот один "case" из группы "после". Около половины "гнезд" пропали впустую - не удалось получить ни одного образца после пересадки. Ни в одном из "гнезд" два образца после пересадки выделить не получилось. Не все пациенты дождались свои органы, не все шло гладко и на этапе до пересадки, часть данных банально потеряли или не собрали и пришлось выключить соответствующие образцы, поэтому на этапе до пересадки в "гнезде" у нас по 3 или 2 образца. Вот такие данные.
И вопрос повторю - чем бы вы считали такие данные? Главный наш вопрос - различаются ли клетки "до" от клеток "после"? Признак количественный, распределение не нормальное, но может быть нормализовано. Если их просто в кучу сложить и сделать тупо Т-тест, не учитывая "гнезда" и не учитывая что это повторные измерения, то будет p value на грани, то есть 0.045. Но хотелось бы сделать правильнее и красивее, и из-за микроскопической величины группы после пересадки (всего 9 образов), и из-за "гнездности", и из-за того что технически это все-таки повторные обследования для одного человека из каждого "гнезда". Если просто взять те самые 9 человек из группы до и после, конечно никакой статистической разницы не будет - слишком мелкая группа со слишком большой дисперсией внутри группы.
Только пожалуйста, не нужно давать советы о том, как надо было проводить эту работу. Она уже сделана, и я не могу в этом изменить ничего, да и не могла особо повлиять и на этапе планирования. Ну то есть я выслушаю совет на будущее для других работ, но на сейчас это будет бесполезно. Нужен совет что сделать с данными. Разумное, чтоб доброе и вечное, а не выкинуть. :)
Спасибо!
Зы: теги расставлю, как только увижу запись в сообществе.

SPSS 20 Database Wizard не завершает процедуру подключения к MySQL
Gendo smiles
simmons_fan

Коллеги, в связи с производственными нуждами потребовалось подключить SPSS 20 (64bit) к MySQL (5.6.12). Для этого скачал и установил последнюю версию ODBC-драйвера, установил его и даже добавил соответствующие коннекторы в SPSS. Но он каждый раз зависает на шаге "Select Data":


После этого шага нажатие кнопок Finish и Next ни к чему не приводит. Количество выбранных галочек тоже ни на что не влияет.

Я пробовал 2 имеющихся коннектора: для ASCII и для Юникода, но результаты отличались только видами иероглифов и прочих символов перед названием таблиц, подчёркнутых на скриншоте красным. Поэтому у меня есть гипотеза, что дело в настройках системной локали (у меня сейчас стоит русская). Версии Windows (8.1) и драйвера также 64битные. Сейчас попробую повторить процедуру, сменив системную локаль на английскую и если это всё поправит, то удалю пост.

А если же нет, то так и останусь в раздумьях...

UPD. Поменял системную локаль Windows на ту, что "Match Windows display language (recommended)", т.е. English (United States). Иероглифы с картинки заменились на цифру "8" и процесс дальше не двинулся. Мои варианты закончились.

UPD 2. Под 32-битной Windows 7 Ultimate ровно те же драйвера + SPSS 20 (естественно, тоже 32-битные) сработали без проблем. Как выяснилось, это внутренний баг SPSS, исправленный в 22-й версии.


Квантили. Поиск "выбросов".
noocrat_dict
У меня 2 вопроса (один технический, второй консультационный).

1. Столкнулся с проблемой нахождения 1/2 1/4 3/4 квантилей, и математическими действиями с ними. Вообщем если б была б такая функция для нахождения квантилей Q() можно б было написать что то типа :

COMPUTE filter1=Q(1/2,y)+3*(Q(3/4,y)-Q(1/4,y)).
(Хотя у меня много груп и так что надо наверно добавить еще и групирующую переменную)

Функции такой я не нашел, мучаюсь с настраеваемыми таблицами, експортирую их в Эксель, потом открываю СПССом и сливаю по ключу. А процесс надо автоматизировать. Со средним квадратичным отклонением функции тоже нету (ожидал найти SD() - не нашел ), но там спасает "агригация". Помогите :(

2. Как вы ищите выбросы ? Я применял метод "3-сигма", тоесть выброс если (у-mean(y))>3*SD(y) (без модуля, так как бизнес статистика). Этот метод статистически обьясним неравенством Чебышева и неравенство Высочанского-Петунина, но проявлял себя отвратно в бизнес статистике. Увидел что на западе использывают медиану + утроеный межквартильный размах вместо среднего и утроеного стандартного отклонения. Также очень популярны цыклы которые ранжируют и относят самые высокие значения к нетипичным, пока коефициент вариации в групе не упадет до 200% (с предприятиями бывают групы и с 9000% Коеф. Вар.) Цикл я написал, а вот с квартилями загвостка.
Ну собственно вопрос : Какой метод для поиска выбросов используете Вы ?

Нетрадиционный факторный анализ
Клаус_Лави_Взлет
shura_shurov
Здравствуйте Коллеги!

Был у нас с коллегами такой вот случай/спор, суть в следующем:
1. Есть регионы России (где их ключевой признак - климатическая зона, но это потом)
2. Есть объём потребляемых видов продукции в тоннах, причем объем в тоннах можно сравнивать только внутри вида, но никак не между видами.

Решили сделать вот что:
1. Привели ряды продуктов из абсолютных в относительный значения внутри вида по регионам, например:
Новосибирск: 10% Продукта "А"
Красноярск: 20% Продукта "А" и так далее
2. Считаем что виды продуктов с их потреблением - это факторы (их 12 видов), как если бы Регионы(их больше 100) выбирали значимость потребления продукта от 0 до 100% (т.е. якобы "оценивали" значимость).
3. Затем взяли и в SPSS провели процедуру факторного анализа.

Что характерно, так это то, что наши результаты хорошо легли в наши представлениях, но вот вопрос насколько корректно так было делать?
Именно с точки зрения статистики.

Характер распределения. Какие виды анализа допустимы?
Пионерка
strider_o
Добрый день, друзья. Хочу спросить совета.
Есть вот такое вот распределение величины. Это уровень стрессовых реакций. В принципе, сам вид распределения вполне ожидаем. Выборка достаточно большая и характер распределения в подвыборках практически не отличается.
Вопрос собственно в том, какие виды анализа применимы в данном случае, если рассматривать эту переменную как зависимую от ряда факторов? Есть ли смысл в каком-то преобразовании? Если да, то как это обосновать в рамках научно-исследовательской работы?
q

Вы читаете ru_spss