Лекції - Аналіз даних в соціології

n1.doc (5 стор.)
Оригінал

  1   2   3   4   5
Артюхина Є.В.


АНАЛІЗ ДАНИХ У СОЦІОЛОГІЇ


КОНСПЕКТ ЛЕКЦІЙ


2007

ЗМІСТ

1. Соціальне дослідження та аналіз даних: основні поняття 3

2. Описова статистика 11

3. Взаємозв'язок змінних 19

4. Аналіз взаємозв'язків якісних і кількісних змінних 32

5. Моделі регресійного аналізу 38

6. Дослідження структури даних 40



1. Соціальне дослідження та аналіз даних: основні поняття


Аналіз інформації, яка збирається в процесі емпіричних соціологічних досліджень, являє собою не просто сукупність технічних прийомів і методів, що дозволяють в тій чи іншій формі візуалізувати отримані дані. Аналіз даних є ключовим етапом всього дослідження, в ході якого відбувається безпосередня перевірка відповідності зібраної інформації тим моделям соціальних явищ, які, явно чи латентно, є у соціологів. І більш того, в ході аналізу формулюються і перевіряються нові моделі, які адекватно відображають ті закономірності, які є в зібраних даних.

Очевидно, що в разі простою візуалізації зібраної інформації ми маємо справу лише з обробкою соціологічних даних. Якщо ставляться завдання побудови певної моделі досліджуваного соціального явища і перевірки відповідності цієї моделі наявними даними, можна говорити саме про аналіз даних.

В ході як обробки, так і аналізу даних часто використовують одні й ті ж технічні та математичні прийоми, проте з гносеологічної точки зору це два різних підходи до даних. У першому випадку соціолог використовує стандартний набір засобів (як правило це одномірні розподіли, таблиці, гістограми і графіки) для найбільш наочної демонстрації отриманих даних, які, при вдалому підборі технічних засобів, начебто говорять самі за себе. У другому випадку дослідник висуває певну модель соціального явища, демонструє відповідність (або протиріччя) даних цієї моделі і веде подальшу розробку саме моделі, відволікаючись від самих даних.

При роботі з соціологічними даними використовуються два основоположних поняття:

• одиниця аналізу (анкета, випадок);

• змінна.

Одиниця аналізу - це елементарна, одинична частина об'єкта дослідження. У більшості випадків одиниця аналізу збігається з одиницею спостереження, тобто з тим об'єктом, про який безпосередньо отримують інформацію в ході збору даних. У соціології, як правило, цією одиницею є окремий респондент. Однак це не завжди так. Наприклад, об'єктом вивчення соціолога може виступати сім'я як цілісна одиниця і, отже, вона виступає одиницею аналізу в дослідженні. Одиницями ж спостереження виступають члени сімей, тобто окремі респонденти, про які, власне, і збирається інформація. Перетворення інформації, зібраної про одиниці спостереження, в інформацію про одиниці аналізу є самостійним і не тільки технічним етапом дослідження.

Змінна - це елементарний показник, ознака, що характеризує одне з досліджуваних властивостей одиниці аналізу. Найпростішими змінними є, скажімо, стать або зарплата респондента. Ключовими характеристиками змінної є те, що, з одного боку, для кожної одиниці аналізу вона має одне, цілком певне значення, а з іншого боку - те, що не всі одиниці аналізу мають однакове значення змінної.

Основною специфічною рисою соціологічного виміру є активне використання номінальних, порядкових, інтервальних шкал. Нагадаємо їх визначення.

Виділяють три основних атрибуту вимірювальних шкал, наявність або відсутність яких визначає приналежність шкали до тієї чи іншої категорії.

Упорядкованість шкали означає, що одна позиція шкали, обумовлена ​​числом і відповідна вираженості вимірюваного властивості, більше, менше або дорівнює іншій позиції.

Інтервал'ност' шкали означає, що інтервали між позиціями шкали рівні між собою.

Нульова точка (або точка відліку) шкали означає, що набір чисел, відповідних вираженості вимірюваного ознаки, має точку відліку, що позначається за 0, яка відповідає повній відсутності вимірюваного властивості

Найбільш загальною класифікацією вимірювальних шкал є поділ на Неметричні шкали (в яких одиниця виміру відсутня) і метричні шкали (в яких може бути встановлена ​​одиниця виміру, наприклад, кілограм, градус, рубль і т.д.). Метричні шкали є більш потужними, тобто вони краще диференціюють вимірювані об'єкти (відображають більше інформації про розходження вимірюваних об'єктів).

До неметричного шкалами відносять номінативні та порядкові шкали.

У номінативної шкалою (nominal scale) відсутні всі головні атрибути вимірювальних шкал, а саме упорядкованість, інтервальні, нульова точка. Для позначення такої шкали також використовуються терміни шкала найменувань і номінальна шкала.

Номінативна шкала використовується для класифікації або ідентифікації об'єктів (угруповання по класах, кожному з яких приписується число). Об'єкти групуються по класах таким чином, щоб усередині класу вони були ідентичні по вимірюваному властивості. Це найпростіша шкала з тих, що можуть розглядатися як вимірювальні, хоча фактично ця шкала не асоціюється з вимірюванням і не пов'язана з поняттями «величина» і «число». Вона використовується тільки з метою відрізнити один об'єкт від іншого.

Прикладом властивості, вимірюваного в такій шкалі, може бути стать. Ця змінна має дві категорії (найменша кількість категорій, яке може мати вимірювана змінна). Ця властивість може бути виміряна віднесенням людини (об'єкта) у відповідну категорію при підрахунку кількості чоловіків і жінок. Категорія «чоловіки» може, наприклад, кодуватися цифрою «1», а категорія «жінки» - цифрою «2». У результаті можна зробити висновок про те, до якої категорії віднесено більше об'єктів, а до якої менше. Однак на підставі цих даних можна зробити логічні або математичні операції над самими категоріями, тобто для такої шкали можна, наприклад, сказати, що 1 менше, ніж 2, або що 1 +2 = 3. Іншими прикладами властивостей, вимірюваних в номінативної шкалою, є сімейний стан, національність, релігійна приналежність, місце народження.

Категорії змінних, вимірюваних в номінативної шкалою, повинні бути взаємовиключними, щоб не було невизначеності щодо класифікації досліджуваних об'єктів. Ці категорії повинні також бути вичерпними, тобто кожному можливому значенню повинна однозначно відповідати певна категорія (хоча б категорія інші або інші). Категорії даних в номінативної шкалою повинні включати зіставні екземпляри.

Категорії вимірюваної змінної фактично не є чисельними, і їх можна порівнювати один з одним тільки на основі кількості спостережень, що відносяться до них. При використанні номінативних шкал цифри, що кодують відповідні категорії, є лише мітками (іменами) і не несуть в собі чисельного значення. Як ми показали на прикладі, до даними, представленими в такій шкалі, арифметичні операції не застосовні: їх не можна складати, віднімати, множити або ділити. Однак розроблені спеціальні процедури обробки та аналізу даних в номінативних шкалах (наприклад критерій для статистичної перевірки гіпотез). Вони засновані на визначенні частоти (підрахунку кількості появ змінної в різних категоріях).

У порядкової шкалою (ordinal scale) присутній упорядкованість, але відсутні атрибути интервальное ™ і нульової точки. Для позначення такої шкали також використовуються терміни рангова шкала і шкала рангів. Порядкова шкала є найбільш поширеною в соціальних і гуманітарних дослідженнях.

Результатом вимірювань в порядкової шкалою є впорядкування об'єктів. Шкала ранжує об'єкти, приписує їм числа в залежності від вираженості вимірюваного властивості за деякою ознакою (в порядку зменшення чи збільшення). На відміну від номінативної шкали тут можна не просто визначити, що один об'єкт відмінний від іншого, але і те, що за певною ознакою один об'єкт більше або менше іншого. Отже, шкала показує, більше чи менше виражена властивість (вимірювана величина), але не наскільки більше або наскільки менше воно виражено, а тим більше - у скільки разів більше або менше.

Наведемо кілька прикладів вимірювань в порядкової шкалою.

Приклад 1. Соціально-економічний статус визначається в наступних категоріях: 1) «верхній клас»; 2) «середній клас»; 3) «нижчий клас». Ці категорії ранжуються, наприклад, за ознакою рівня доходу. Зрозуміло, що в даній шкалі значення 1 більше, ніж 2, але незрозуміло, наскільки. Те ж саме можна сказати про посадовому статусі, наприклад: фахівець, провідний спеціаліст, головний спеціаліст, заступник начальника відділу, начальник відділу і т.д.

Приклад 2. У школі і в вузі використовується 5-бальна система оцінки знань (1, 2, 3, 4, 5). Чи можемо ми відповісти, наскільки 5 «краще», ніж 4? Настільки ж, наскільки 4 «краще», ніж 3? Можливо, для одного студента різниця між 5 і 4 невелика, а різниця між 4 і 3 значна. Можливо, ця різниця змінюється від курсу до курсу. Якщо вважати, що оцінки учнів або студентів відображають їх знання, то в разі застосування до цієї шкалою дій арифметики виходить, що знання відмінника дорівнюють сумі знань двієчника і трієчника (5 = 2 + 3), а між знаннями відмінника і трієчника така ж різниця, як між знаннями «ударника» і двієчника (5-3 = 4-2).

Таким чином, ми не можемо сказати, що в такій шкалі зберігається рівність інтервалів між пунктами. Додавання, як і більшість інших математичних операцій, припускає, що інтервали між значеннями дорівнюють. Якщо інтервали не рівні, то 2 + 2 може означати 5 або 55. Тому широко поширена процедура усереднення оцінок (балів), тобто обчислення середнього арифметичного - це операція, позбавлена ​​сенсу з математичної точки зору.

Таким чином, можливості статистичного аналізу для даних у порядкових шкалах обмежені. Строго кажучи, упорядкування - це єдина математична операція, застосовна до порядкової шкалою. Використання багатьох операцій з порядковими даними (наприклад обчислення середнього арифметичного) математично некоректно, але широко поширене на практиці. Наприклад, у рейтингу місць відпочинку пенсіонерів усереднення балів порядкової шкали являло собою математично безглузду процедуру.

У той же час шкала може цілком коректно використовуватися в експериментальних дослідженнях, але для цього необхідно застосовувати адекватні методи обробки даних, наприклад, конвертація порядкових шкал в метричні шкали або використання не параметричних методів для обробки даних.

У інтервального шкалою (interval scale) присутні впорядкованість і інтервальні, але немає нульової точки. У цій шкалі досліджуваного об'єкту присвоюється число одиниць виміру, пропорційне вираженості вимірюваного властивості Відповідні інтервали різних ділянок шкали мають одне і те ж значення, тому вимірювання в інтервального шкалою допускають не тільки класифікацію та ранжування, але й точне визначення різниці між категоріями.

Приклади інтервального шкали: фіксація часу та дати, температурні шкали.

Цельсія і Фаренгейта Наприклад, для відомих шкал вимірювання часу можна сказати, що інтервал між 3 і 6 год дорівнює інтервалу між 4 і 7 ч. Але чи можна сказати, що 6 год у два рази більше, ніж 3 год? Очевидно, немає. Аналогічно, якщо сьогодні вуличний термометр фіксує температуру -10 С, а вчора було -20 С, ми можемо сказати, що сьогодні тепліше на 10 градусів. Але чи можна сказати, що сьогодні тепліше в 2 рази? Це здається безглуздим, чи не так? Принаймні, так ніхто не говорить. А чи можна сказати, що температура в 300 С відрізняється від температури в 200 З в два рази сильніше, ніж температура в 150 С відрізняється від температури в 100 З? Це здається логічним.

Подібні відповіді на такі питання пов'язані з тим, що інтервальні шкали (наприклад шкали Цельсія і Фаренгейта) не мають нульової точки відліку. Точніше, вибір нульової точки в інтервального шкалою умовний (довільний). Маючи дані, представлені в інтервального шкалою, ми можемо судити про те, наскільки більше або наскільки менше виражено вимірюване властивість, але не про те, у скільки разів більше або менше. Для інтервальних шкал характерна довільність вибору нульової точки, тобто 0 не відповідає повній відсутності вимірюваного властивості, тому вимірювання не відповідають абсолютній кількості вимірюваного властивості. Наприклад, нульове значення температури за шкалою Цельсія не відповідає повній відсутності тепла. Для інтервальних шкал ми можемо коректно використовувати більшість математичних операцій, тому якщо, наприклад, є дані в порядкової шкалою, то з точки зору математичної коректності доцільно їх конвертувати в інтервальну шкалу, використовуючи спеціальні процедури, які будуть розглянуті далі. Але на практиці іноді виникають складності як при перетворенні вихідних даних в метричні шкали, так і при інтерпретації та аналізі отриманих результатів.

У відносній шкалі {ratio scale) присутні всі атрибути вимірювальних шкал: упорядкованість, інтервальні, нульова точка. Для позначення такої шкали також використовуються терміни шкала відносин і абсолютна шкала. Останній термін підкреслює абсолютний характер нульової точки.

Відносна шкала дозволяє оцінювати, у скільки разів властивість одного об'єкта більше або менше аналогічного властивості іншого об'єкта, що приймається за еталон, одиницю. Ця шкала характеризується всіма атрибутами інтервального шкали і, крім того, має фіксовану нульову точку (0), яка не є умовною, оскільки вона відповідає повній відсутності вимірюваного властивості. Наприклад, змінна кількість співробітників має фактичний початок відліку, так як нульове значення відповідає відсутності співробітників взагалі. Аналогічно, нульове значення може відповідати відсутності утворення, доходу, дітей, кількістю років у шлюбі і т.п. Іншими прикладами вимірювання у відносній шкалі є визначення фізичних характеристик (ваги, довжини, висоти, площі).

Для аналізу соціологічних даних ми будемо використовувати пакет SPSS. SPSS є найпоширенішою програмою для обробки статистичної інформації.

Основу програми SPSS становить SPSS Base (базовий модуль), що надає різноманітні можливості доступу до даних і управління даними. Він містить методи аналізу, які застосовуються найчастіше.

Традиційно разом з SPSS Base (базовим модулем) поставляються ще два модулі: Advanced Models (просунуті моделі) і Regression Models (регресивні моделі). Ці три модулі охоплюють той спектр методів аналізу, який входив в ранню версію програми для великих ЕОМ.

SPSS Base (Базовий модуль)

SPSS Base входить в базову поставку. Він включає всі процедури введення, відбору та коригування даних, а також більшість пропонованих в SPSS статистичних методів. Поряд з простими методиками статистичного аналізу, такими як частотний аналіз, розрахунок статистичних характеристик, таблиць спряженості, кореляцій, побудови графіків, цей модуль включає t-тести і велика кількість інших непараметричних тестів, а також ускладнені методи, такі як багатовимірний лінійний регресійний аналіз, дискримінантний аналіз, факторний аналіз, кластерний аналіз, дисперсійний аналіз, аналіз придатності (аналіз надійності) і багатовимірне шкалювання.

Regression Models

Даний модуль включає в себе різні методи регресійного аналізу, такі як: бінарна і мультіноміальная логістична регресія, нелінійна регресія і пробитий-аналіз.

Advanced Models

В цей модуль входять різні методи дисперсійного аналізу (багатомірний, з урахуванням повторних вимірювань), загальна лінійна модель, аналіз виживання, включаючи метод Каплана-Майера і регресію Коксу, логлінейние, а також логітлоглінсйние моделі.

Tables

Модуль Tables служить для створення презентаційних таблиць. Тут надаються більш широкі можливості в порівнянні зі спрощеними частотними таблицями та таблицями спряженості, які будуються в SPSS Base (базовому модулі).

Нижче в алфавітному порядку наведено список решти модулів і програм пропонованих для розширення SPSS.

Amos

Amos (Analysis of moment structures - аналіз моментних структур) включає методи аналізу за допомогою лінійних структурних рівнянь. Метою програми є перевірка складних теоретичних зв'язків між різними ознаками випадкового процесу та їх опис за допомогою відповідних коефіцієнтів. Перевірка проводиться у формі причинного аналізу та аналізу траєкторії. При цьому користувач в графічному вигляді повинен задати теоретичну модель, в яку разом з даними безпосередніх спостережень можуть бути включені і так звані приховані елементи. Програма Amos включена до складу модулів розширення SPSS, як наступник L1SREL (Linear Structural RELationships - лінійні структурні взаємовідносини).
AnswerTree

AnswerTree (дерево рішень) включає чотири різних методи автоматизованого розподілу даних на окремі групи (сегменти). Поділ проводиться таким чином, що частотні розподілу цільової (залежної) змінної в різних сегментах значимо різняться. Типовим прикладом застосування данною методу є створення характерних профілів покупців при дослідженні споживчого ринку. AnswerTree є наступницею програми СНАШ (Chi squared interaction Detector - детектор взаємодій на основі хі-квадрата).

Categories

Модуль містить різні методи для аналізу категоріальних даних, а саме: аналіз відповідностей і три різних методи оптимального шкалювання (аналіз однорідності, нелінійний аналіз головних компонент, нелінійний канонічний кореляційний аналіз).

Clementine

Clementine - це програма для data mining (видобування знань), в якій користувачеві пропонуються численні підходи до побудови моделей, наприклад, нейронні мережі, дерева рішень, різні види регресійного аналізу. Clementine являє собою "верстак" аналітика, за допомогою якого можна візуалізувати процес моделювання, перепровіряти моделі, порівнювати їх між собою. Для зручності користування програмою є допоміжна середу впровадження результатів.

Conjoint (спільний аналіз)

Спільний аналіз застосовується при дослідженні ринку для вивчення споживчих властивостей продуктів на предмет їх привабливості. При цьому опитувані респонденти на свій розсуд повинні розташувати пропоновані набори споживчих властивостей продуктів в порядку переваги, на підставі якого можна потім вивести так звані деталізовані показники корисності окремих категорій кожного споживчих властивості.

Data Entry (введення даних)

Програма Data Entry призначена для швидкого складання запитальників, а також введення і чищення даних. Задані на етапі створення запитальника питання і категорії відповідей потім використовуються в якості міток змінних і значень.

Exact Tests (Точні тести)

Даний модуль служить для обчислення точного значення імовірності помилки (величини р) в умовах обмеженості даних при перевірці за критерієм х2 (Chi-Quadrat-Test) і при непараметричних тестах. У разі необхідності для цього також може бути застосований метод Монте-Карло (Monte-Carlo).

GOLDMineR
Програма містить спеціальну регресійну модель для регресійного аналізу впорядкованих залежних і незалежних змінних.

SamplePower

За допомогою SamplePower може бути визначений оптимальний розмір вибірки для більшості методів статистичного аналізу, реалізованих в SPSS.

SPSS Missing Value Analysis

Даний модуль служить для аналізу і відновлення закономірностей, яким підкоряються пропущені значення. Він надає різні варіанти заміни відсутніх значень.

Trends

Модуль Trends містить різні методи для аналізу часових рядів, такі як: моделі ARIMA, експоненційний згладжування, сезонна декомпозиція та спектральний аналіз.

Модулі Amos, AnswerTree, Categories, Conjoint, LISREL і Trends описані в книзі цих же авторів: "SPSS. Методи дослідження ринку і думок".


Навчальний матеріал
© cozap.com.ua
При копіюванні вкажіть посилання.
звернутися до адміністрації