Category: литература

Category was added automatically. Read all entries about "литература".

Метод "Монте Карло" со сложными выборками и "ненормальное распределение"

Хотелось задать вопрос по поводу синтаксиса "репликаций". Условия :

1) Генеральная совокупность полностью известна (более 1 000 000 единиц). Выборка - 10%. Для репликаций используются значения за прошлый период.

2) Выборка стратифицируется, отбираются нетипичные единицы (выбросы), оставшийся размер распределяется по стратам "Неймановским способом" и т.д. Потом используется "CSSELECT". После этого выборка распространяется на ген совокупность стандартной оценкой (HT) и оценкой по регресии (GREG). Считается сумма по всему включая нетипичные (у них вероятность попадания - 1).

3) Задача - оценить качество выборки используя 10 000 репликаций из ГС для оценки точности Root Mean Squared Error (RMSE), RRMSE, MSE (приравнивается к дисперсии), ARB (относительное смещение) и тд. По каждой страте и по каждой оценочной функции отдельно так и по всем стратам вместе.

Вопросы :

1) Я не могу сделать синтаксис для 10000 репликаций. Если есть у кого опыт создания "цикла" для сложных выборок ? Может он реализован в новых версиях ? (У меня 18я)

Я помещаю "CSSELECT" в "DEFINE" работает плохо (в нем еще ж распространение), вечно какие то ошибки. Не получается настроить нормальный вывод - что бы сделана репликация - появился новый файл с 1 наблюдением и 402 переменными (оценки*страты+вместе) с распространенными данными, следующая репликация - 2е наблюдение и т.д. В конце файл : 402 переменные 10000 наблюдений из которых потом считаются оценки точности.

2) Абсолютно "ненормальное" распределение. В некоторых стратах CV доходит до 9000%. (0,0,...,0,10, 100, 100000,...) После отбора нетипичных (сильно большие значения) - CV=300%. Тест К-С дает 0,0000%, графика частоты не видно - он прилип к осям :). Из за этого ничего нормально не работает, ни "правило 3 сигма" ни то же "неймановское распределение", все надо докручивать руками, пересматривать каждую страту, если книги по такому распределению ? Кто то имел с таким дело ? (статистика предприятий, а не людей/хозяйств).

3) Может синтаксис SPSS не нужен ? Может попробовать на "R" и "Python" ? Какие тогда библиотеки и функции существуют, которые подойдут для сложных выборок ? Я смотрел, там есть что то наподобие "из N элементов отобрать простым отбором n единиц, сделать k репликаций" (функция "rmse" в "R" ). Неподходит.

4) Можно как то ускорить SPSS ? Это ж ненормально столько считать...

сори за делитантство. :(
hrm
  • hrmru

Масштабирование диапазонов таблиц сопряженности

У себя в исследовании задаю 10-ти бальную шкалу удовлетворенности. При обработке результатов в некоторых случаях сворачиваю шкалу в два диапазона - 1) 1-5 - "низкая" удовлетворенность и 2) 6-10 - "высокая" удовлетворенность. После чего считаю Хи квадрат.
Получил несколько комментов, что не имею права такое делать, поскольку мы не можем говорить о значимости полученных результатов.
Я в свое время ориентировался на книгу Сидоренко, где она показывает, что диапазоны можно масштабировать, при этом все, что мы теряем - часть содержательной информации, т.е. в моем случае мы получаем более "грубый" рисунок взаимосвязи, в то время как в таблицах сопряженности бОльшей размерности можно увидеть нечто большее. С этим я согласен, поэтому вопрос:
есть ли ограничения для масштабирования диапазонов кроме потери каких -то содержательных смыслов в интепретации?
* ну и как частный подвопрос: можем ли мы тогда в принципе масштабировать диапазоны при теоретической частоте меньше 5?
У Наследова я не нашел ответ на этот вопрос, Крыштановский пишет, что если в 20 % ячеек теоретическая частота меньше 5-ти, то можно глаза закрыть. И Сидоренко "разрешает" масштабировать
приводящий в движение, поддерживающий

Книга А.Г.Шмелева "Практическая тестология"

Шмелев А.Г. «ПРАКТИЧЕСКАЯ ТЕСТОЛОГИЯ: Тестирование в образовании,  прикладной психологии и управлении персоналом»
Приглашаю участников сообщества на страницы специального сайта www.testology-book.ru, посвященного новой книге "Практическая тестология" научного руководителя Лаборатории "Гуманитарные Технологии", доктора психол. наук А. Г. Шмелева. Книга суммирует более чем тридцатилетний опыт автора по созданию и внедрению тестов в области образования, прикладной психологии и управления персоналом. По приведенной ссылке можно ознакомиться с демо-версией (планом-проспектом, введением и приложениями к книге), а также получить подробную информацию о способах ее заказа.

Кому адресована книга?
Практически все главы этой книги адресованы тестологам-психометристам, которые осуществляют логико-математическое проектирование тестов,  ставят задачу и организуют работу авторов тестовых заданий, помогают им осмыслить статистические результаты с целью совершенствования тестовых заданий; эти же специалисты в случае экспертных тестовых систем выполняют функции так называемых «когнитивных инженеров» и фактически возглавляют проекты по внедрению систем тестирования.
реал

Наследов А.Д. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных

Поступила в продажу книга Наследов А.Д. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных1 издание, 2013 год, 416 стр., 17х23 см (70х100/16), ISBN 978-5-496-00107-6



Collapse )
але?

Помогите советом, пожалуйста!

Посоветуйте, есть ли у вас на примете русский или английский толковый и понятный учебник по статистике, желательно с уклоном для медиков-биологов, а идеально - с понятным руководством к действию в SPSS? Мне нужно научиться,
- как в SPSS работать с ROC curves, а именно надо научиться как правильно определить cut-off value для биологического теста,
- и как именно работать с регрессией. То есть как получать данные типа "факторы А и В независимо увеличивают риск события С" или "при наличии такого-то антитела А и если тест В положительный, то риск заболевания возрастает в 2 раза", то есть multiple regression, если я понимаю правильно.
Базовые знания по статистике есть, но их явно не хватает. Для этой темы читала онлайн теорию (уровня как в википедии), вроде бы в основном понятно, тыкалась в самоучитель по SPSS, но даже воспроизвести те примеры, что там показывают, у меня не получается.
SPSS есть 13.0 и 17.0
Спасибо.
Gendo smiles

З. Бранд. Анализ данных. Статистические и вычислительные методы для научных работников и инженеров.

Не знаю, насколько вопрос тут уместен, но всё же.

Озон сообщил, что в продаже появилась следующая книга:
З. Бранд. Анализ данных. Статистические и вычислительные методы для научных работников и инженеров.

Кто-нибудь её читал? Если да, то что вы можете о ней сказать? Лично меня подобные комментарии изрядно смущают:
"Очень много подробного теоретического материала и формул.
Для обычного обывателя читается довольно сложно.
Будет интересна узким специалистам данной области с хорошей математической подготовкой.
Для большинства алгоритмов имеется описание программ."

экспертная оценка

Здравствуйте, все! У меня вопрос, возможно, уровня чайника по планированию эксперимента. Буду очень признательна за совет или наводку по выбору литературы. Необходимо оценить, согласованно ли работают эксперты при понимании текста. Им предлагается некоторый текст и к нему готовые суждения с интерпретацией текста, с которыми они, так или иначе, должны согласиться или не согласиться. Не хочется использовать 5-ти и 7-балльные шкалы, потому что это сильно усложняет работу экспертам и может несколько затуманить тот самый процесс понимания. Предпочтительна оценка по шкале "согласен"-"не знаю"-"не согласен" или вообще дихотомическая.
В связи с этим вопрос: какую следует использовать процедуру при оценке согласованности и как ее реализовать в spss?
приводящий в движение, поддерживающий

"The Joy of Stats" Ханса Рослинга в свободном доступе

«Come with me to the wonderful world of statistics.»
Hans Rosling

Меня восхищает подход Ханса Рослинга к визуализации данных. Он самый настоящий «волшебник», заставляющий данные танцевать. В искусстве жонглирования статистическими данными ему нет равных. Журнал Foreign Policy включил Ханса Рослинга в рейтинг 100 мыслителей, имеющих «большие идеи» и оказавших влияние на мир в 2009 году. Его лекции отличаются особой энергетикой, динамикой и экспрессией, свидетельствующих о том, что он действительно понимает, о чем говорит. Кстати, в одном из своих выступлений Ханс даже продемонстрировал искусство глотателей мечей, после чего аудитория аплодировала стоя. 

http://www.gapminder.org/videos/the-joy-of-stats/ - 60-минутный документальный фильм. Приятного просмотра!
приводящий в движение, поддерживающий

LISREL

!Штудирую книгу:



Математическая обработка данных в социальных науках. Современные методы
Advanced Quantitative: Data Analysis
Автор: Дункан Крамер
Переводчики И. Тимофеев, Я. Киселева
Издательство: Академия

Большая часть примеров в SPSS, но для КФА и путевого анализа нужна программа LISREL, но с офсайта загрузить демо не получается. Буду признателен, если кто поможет получить демо на 15 дней (http://www.ssicentral.com/lisrel/downloads/InstallLISREL88Trial.htm - не скачивается), и Student Edition не хочет запускаться. Была у них еще версия под Linux, но из загрузки убрали, ни у кого не сохранилась? Версия 8.51 вроде, а то у меня винт полетел в свое время со всем этим чудным софтом.

PS: книгу очень рекомендую!