Stata: стандартизация данных, унификация шкал, импортирование данных Запустите пакет Stata, нажав на кнопку . pwd // узнать место расположение программной директории, в которой располагается пакет Stata. На экране появится похожая запись: . pwd E:\programs\Stata10 можно заменить программную директорию (по умолчанию) на Вашу с помощью команды cd (change directory), в кавычках указав целиком путь. Скажем, создав папку «Me». В такой папке можно хранить собственные файлы для быстрого доступа к ним и удобства сохранения результатов (массивов данных, графиков, летописей и пр.). cd "E:\programs\Stata10\Me" // Некоторые полезные команды для начала и завершения работы в Stata: capture log close //1 закрыть предыдущую «летопись», если она была начата. log using filename, replace text // начать новую летопись (filename, выделенное курсивом, предполагает, что Вы зададите свое название файла) clear all // стереть все Загрузите данные, например, через интерфейс или с помощью команды use filename.dta save "filename.dta" // сохранить изменения в файле filename.dta в своей директории (в нашем случае – в папке «Me») log close // закрыть летопись exit // выйти из Stata. 1) Стандартизация данных Результатом стандартизации данных является приведение значений переменной к такому виду, что среднее значение равно 0, а стандартное отклонение – 1 по следующей формуле: x x z i . s summarize varname // получить описательные статистики. В памяти пакета после команды summarize сохраняются последние результаты. Они хранятся в памяти как особого рода объекты, обращаться к которым можно через команду r(название объекта). Например, display r(mean) // показывает на экране среднее значение по выборке (команда display – это команда вывода на экран; команда r(mean) – это команда вызова среднего значения, сохраненного после запуска команды summarize. display r(sd) // вывод на экран стандартного отклонениа О том, какие еще статистики доступны, можно узнать, используя Справку: help summarize Для стандартизации значений переменной используется команда, реализующая указанную выше формулу: generate varnameSN = (varname - r(mean))/r(sd) // , где varnameSN – любое Ваше название новой переменной. Так была создана новая переменная, которая имеет нулевое среднее и единичную стандартную ошибку. Это утверждение можно проверить, получив описательные статистики новой переменной: summarize varnameSN Шрифтом courier new выделяются команды. Двойным слешем отделяются комментарии к командам, они набраны шрифтом Times New Roman. 1 Stata: стандартизация данных, унификация шкал, импортирование данных 2) Приведение данных к унифицированным десятибалльным шкалам (от 0 до 10) a) В случае, когда большее значение показателя означает лучшее качество, используется формула xi min( x) ~ xi 10 . max( x) min( x) b) В случае, когда большее значение показателя означает худшее качество, используется формула max( x) xi ~ xi 10 max( x) min( x) c) В случае, когда существует иное оптимальное (не минимальное или максимальное) значение показателя, используется формула xi xopt ~ xi 10 1 max xopt xmin , xmax xopt Команды в Stata будут следующими: a) В числителе 10 ( xi min( x)) , в знаменателе max( x) min( x) summarize varname generate newvarname = 10*(varname - r(min))/(r(max) - r(min)) summarize newvarname b) summarize varname generate newvarname2 = 10*(r(max) - varname)/(r(max) - r(min)) summarize new2varname c) обозначить через a оптимальное значение (в данном случае для примера считает, что оптимальное значение равно 123 – но это только пример; в Вашем случае это может быть другое число). scalar a = 123 // summarize varname scalar b = r(max) – a // обозначить через b максимальное отклонение от – a // обозначить через c максимальное отклонение от оптимального значения scalar c = r(min) оптимального значения di b di c // необходимо увидеть на экране полученные значения и выбрать из них наибольшее. Допустим, это b. Далее по указанной формуле (с): generate newvarname3 = 10*(varname - a)/b summarize newvarname3 После унификации всех переменных нулевое и десятибалльное значения соответствуют наихудшему и наилучшему качеству анализируемых показателей. 3) Импортирование данных формата txt (текстового редактора «Блокнот») Например, нам необходимо открыть в Stata базу данных «Институты и выборы» (Regan, Clark): http://www.hse.ru/jesda/mathbase/databases/db_13 Stata: стандартизация данных, унификация шкал, импортирование данных clear all insheet using "E:\docs\msa\filename.txt" // команда insheet импортирует файл filename.txt из указанной папки. Важно задать полный путь к массиву и указать расширение файла, а также избегать русскоязычных слов в указании пути. insheet using filename.txt // команда insheet импортирует файл filename.txt из Вашей директории (оттуда, где лежит Stata). insheet using filename.txt, names // опция names указывает пакету на то, что информацию в первой строке в массиве необходимо воспринимать как имена переменных insheet using filename.txt, names delimiter(";") // опция delimiter указывает на то, каким образом было задано разделение столбцов/переменных. Последнее специфицируется в кавычках. Это могут быть точки, запятые и пр. Если в ряду значений переменной встречаются нечисловые значения и пропуски, то пакет будет воспринимать переменную (весь ряд) как текстовую, а не количественную. Это можно изменить следующим образом: replace varname = "" if real(varname) == . // заменить на пропуски все нечисловые значения в переменной varname. generate new = real(varname) // создать новую переменную new, скопировав все числовые значения старой с помощью команды real, аргументом которой будут значения переменной varname. drop varname // удалить старую переменную varname. rename new varname // переименовать переменную. После команды rename следует имя старой переменной (new), затем – новой (varname). Подробнее можно узнать в справке (help http://www.stata.com/support/faqs/data/newexcel.html insheet), а также по ссылке: 4) Импортирование данных формата sav (пакета SPSS) clear all findit usespss // найти пакет usespss. Пройти по ссылке: usespss from http://fmwww.bc.edu/RePEc/bocode/u Напротив INSTALLATION FILES кликнуть на (click here to install) После завершения установки появится installation complete. Далее можно закрыть окно справки. Установленный пакет готов к использованию. usespss using "E:\docs\msa\filename.sav" [, clear] // открыть файл в формате sav с указанием пути расположения файла. usespss using filename [, clear] // открыть файл в формате sav из Вашей директории (оттуда, где лежит Stata). desspss using filename [, clear] // получить описание файла. save "filename.dta" // сохранить файл в формате dta Подробнее можно узнать в справке (help usespss).