Методика анализа содержания текстов
Категория реферата: Рефераты по социологии
Теги реферата: матершинные частушки, промышленность реферат
Добавил(а) на сайт: Уицкий.
Предыдущая страница реферата | 3 4 5 6 7 8 9 10 11 12 13 | Следующая страница реферата
Исследователи Дж. Нейменвирс и Т. Брейер провели анализ статей, опубликованных в газетах The Times (Англия), Le Monde (Франция), Frankfurtur Allgieine Zeitung (тогда еще Западная Германия), The New York Times (США), на предмет того, как, по их мнению, обстоит дело с политической интеграцией западных стран в связи с существованием экономических и военных союзов между ними.
Процесс межгосударственной интеграции понимался как изменение следующих четырех элементов: характер принятия решений, касающихся судеб различных стран; обмен между странами почтой, студентами; торговля, иммиграция; мнения масс и элиты по поводу перспектив на этот счет. Показателями изменений в ориентации анализируемых престижных газет были выбраны внимание к национальным и региональным символам и степень тождественности в ориентации газет всех четырех стран.
Даниэл М. Огилви построил специальный словарь для проверки гипотезы о существовании так называемого «комплекса Икара», психологического явления, которое отмечалось по наблюдениям психологов за рядом своих пациентов. Огилви решил подвергнуть испытанию эту гипотезу, проанализировав текстовые материалы, созданные в рамках разных культур. В качестве такого материала были выбраны сказки - 626 сказок из 44 примитивных сообществ. Контент-анализ этих сказок был предварен созданием так называемого «Икарианского словаря», охватывающего 74 категории и 2500 слов, их наполняющих. Для разработки системы категорий использовались разные источники: работы исследователей, описывающих комплекс Икара, истории жизни людей, явно обладавших этим комплексом, тексту наблюдений за ними психотерапевтов и т.д.
Поскольку изначально комплекс Икара определялся как направленность на «полет, падение, огонь, воду, бессмертие и нарциссизм»,, гипотезу о существовании комплекса на уровне анализируемых сказок можно было, по мнению автора, считать доказанной, если эти темы окажутся «связанными» в конкретных единицах фольклора, или на определенном этапе окажется возможным по одним темам предсказать появление в анализируемом тексте смежных тем. Итог анализа состоял в расчете корреляций между 74 категориями и факторном анализе конечной матрицы.
С самых первых попыток использования электронно-счетных устройств для работы с текстом становились ясными преимущества и недостатки обработки текстового материала с помощью машин - они обеспечивали адекватность анализа огромных текстовых материалов, но требовали огромных усилий по составлению программы - собственно «словника», с учетом всех синонимических вариантов понятий, которые надо будет отыскивать в этом море пропускаемых через машину слов. Не случайно, что многие из тех анализов, которые были проделаны в Гарвардском университете, использовали категориальный аппарат ранее проделанных исследований и «обкатывали» его на компьютерах.
Для начала же авторы системы «Дженерал Инкуайерер» создали отперфорированные тексты с общим количеством слов, равным 6 миллионам. Из этих слов была произведена выборка в 511 тыс. слов. Тексты, попавшие в выборку, были просеяны через процедуру поиска ключевого слова. В результате осуществления этой процедуры исследователи получили распечатку всех случаев употребления интересующих их слов в выбранной совокупности текстов. На реализацию процедуры ушло шесть часов машинного времени, а полученная распечатка была толщиной в несколько десятков сантиметров. Одним из самых неожиданных результатов процедуры было то, что для определения смысла ключевого слова оказалось вполне достаточно нескольких слов, расположенных по обе стороны ключевого слова. То есть для ряда задач не нужно было иметь значения всего предложения целиком, включая анализ его синтаксической структуры. Но оставались еще местоимения, идиомы и т.д.
Хотя первые словники создавались исследователями под конкретные задачи и главным тут была идентификация ключевых слов, сами авторы отлично понимали перспективы развития компьютерного дела - их размышления о том, что наборная клавиатура, связанная с компьютером, будет обычной принадлежностью школьного класса и делового офиса учителя, бухгалтера, психотерапевта, библиотекаря (ясно видно, что эти размышления относились к дореволюционной эпохе - до революции, когда был изобретен персональный компьютер), звучат сегодня как предвидение. Но для того чтобы выполнять все эти ожидаемые операции, нужно было, чтобы компьютер мог различать не только слова, но и смысл более пространных языковых единиц. Для этого нужно было решение проблемы синтаксического анализа. К сегодняшнему дню частично такие проблемы решены, коль скоро мы доверяем своему компьютеру - при наличии в нем специфических программ - проверку ошибок набранного текста.
Отметим существенный момент в разработке методологии анализа текста с помощью машины (что помимо всего прочего означало движение в направлении общения человек-машина): как только исследователи вышли на изучение диалога, они осознали, что эта проблема выводит их за пределы узкоспециальных «ведомственных» словарей...
С тех пор машинный метод обработки текстовых массивов все больше находит себе применение. При чем мы имеем в данном случае не те чисто прикладные случаи, когда машина помогает отыскать нужную вам научную литературу по ключевым словам, которые такая литература имеет заранее в виде своеобразной паспортички (или патент изобретения, если вы хотите проверить, не изобрел ли кто уже предлагаемый вами велосипед); или практику, по которой работает Международный междисциплинарный Индекс публикаций ( Citation In dex ) - индекс представляет из себя распечатку статей из 7000 журналов, издаваемых во всем мире, по лицам, упоминаемым там. Каждое упоминание лица классифицируется по источнику: является ли оно автором статьи, упоминается ли в ходе дискуссии, появляется ли его имя в рецензии, в библиографии и т.д. Более детальный вариант этого индекса по социальной проблематике содержит роспись всех статей по ключевым словам.
Так, выпуск 1984 г. содержит данные о 1000000 статей из этих журналов, а поскольку форма его выхода - алфавитный список упоминаемых фамилий - то это составляет 10,5 млн. ссылок. К примеру, в течение нескольких минут мы можем (а этот Индекс есть в Государственной российской библиотеке) определить, какие статьи по этой проблематике напечатаны во всем мире в период, например, мая - августа 1985 г. Оказалось, что за это время было опубликовано 7 статей (все в американских журналах): три посвящены исследованиям речи лиц с психопатологическими изменениями, статья У. Миллса по содержанию китайской пропаганды, статья К. Уинника «Контент-анализ журналов с сексуальной тематикой». Все упоминания снабжены указанием названия журнала, тома, номера и страниц.
Уже через десять лет после этого пионерского проекта Ф. Стоуна и его коллег практически повсеместно стали осуществляться проекты контент-аналитических исследований с применением ЭВМ. На состоявшемся в 1974 г. в Италии рабочем совещании по проблемам контент-анализа было представлено несколько таких проектов, в частности проект международного исследования газетных заголовков с задачами определения внимания различных газет к местным, общенациональным и международным событиям, сравнения внимания американских и европейских газет к проблемам «общего рынка», сравнения освещения гражданской войны в Нигерии газетами разных стран и др. Германия была представлена на этой конференции проектом по созданию специализированного словаря для целей анализа содержания текстов [15] .
Как ни странным это покажется на первый взгляд, именно пример с машинной обработкой текстов иллюстрирует очень важную для понимания сущности контент-анализа мысль. И в другом месте учебника эта мысль не прозвучала бы так явственно. Анализ содержания как метод не обладает магическими качествами - вы не получите из него больше, чем вложили в него. Если нечто значительное, важное, необычное не предусмотрено процедурой, то оно не появится в результате анализа, каким бы сложным и кропотливым он ни был.
Говоря о машинной обработке текстов, мы должны уточнить, что сейчас обсуждали случаи, когда компьютер оперирует непосредственно текстом. Гораздо более часты случаи, когда ЭВМ используется, грубо говоря, как арифмометр, оперируя с введенными в него кодировочными карточками, которые уже содержат итоги наблюдения за текстом, осуществленного исследователем. Сейчас это уже распространенная практика.
Выбор единиц наблюдения
Даже только начинающие овладевать методом анализа содержания исследователи начинают с вопроса: сколько текстов надо исследовать, чтобы исследование считалось корректным? Мне даже кажется, что они не до конца осознают важность этого вопроса - а важность в ответе, которым должно начинаться каждое исследование, где автор заявляет: «Я изучил такое-то количество текстов. Этого достаточно, чтобы сделать выводы о таком-то периоде деятельности источника». Просто начинающего исследователя берет легкая оторопь от осознания сложности, тщательности, пунктуальности, трудоемкости метода - подчеркиваем, что эти характеристики должны быть присущи методу всегда - и он задает этот вопрос, чтобы получить логичный ответ, насколько минимальной должна быть выборка изучаемых текстов, чтобы по возможности максимальным был период, на который мы распространяем свои выводы.
Вопрос этот вполне логичен. Методология многих наук основана на том, что целое описывается по его части.
Вспомним, что, например, такая отрасль социологии, как зондирование общественного мнения, смогла встать на индустриальные рельсы не раньше, чем для институтов, специализирующихся на таком зондировании, был решен вопрос с научной выборкой. Стали известны законы отбора отдельных индивидуумов, чтобы сравнительно неболшое их число - в случае, например, с американским институтом общественного мнения Дж. Гэллапа, это 1500 - 2000 американцев - позволило распространять данные опроса на все население США. Говоря научным языком, с разработкой научной теории выборки была решена проблема, как добиться «надежных обобщений при интенсивном изучении относительно небольшого числа случаев». Реально выборка представляла возможность экономично, при большой скорости проведения работ, профессионально провести опрос, который зачастую дает более верную информацию, чем сплошное обследование.
Кстати, вспомним, что на заре исследований общественного мнения именно выборка подвергалась поистине уничтожающей критике оппонентов изучения общественного мнения. Обыденное сознание никак не могло согласиться с тем, что достаточно опросить всего 1500 человек, чтобы знать, что думают по определенному поводу 150 млн. человек.
Главное, что мы должны себе представить, это то, что существуют различные типы выборок и что далеко не все из них сможет применить на практике контент-аналитик.
Не последняя тут проблема - доступность материала. Хотя библиотеки многих стран уже давно озаботились проблемой сохранности продукции СМК для потомства, пробелов здесь множество. Как правило, хранятся только самые престижные газеты [16] . Особенно остро стоит эта проблема по отношению к продукции радио и телевидения. Это может быть естественным ограничителем при общей разработанности технологии выборок.
Так, существует большой класс выборок репрезентативных, т.е. таких, которые претендуют на то, чтобы быть представительными для более широкой совокупности. Этот класс можно разделить на две неравные группы по способу отбора единиц уже для конкретного исследования. Большая часть - это так называемые квотные выборки (или многочисленные модификации их: районированные, стратифицированные, многоступенчатые, послойные и т.п.). При составлении их нужно обладать предварительной информацией обо всей совокупности единиц, из которой производится отбор. В случае, например, с конкретной страной нужно знать распределение по количеству населения в каждом регионе, причем надо знать распределение этого населения по полу, возрасту, образованию или другой характеристике, которая, по мнению исследователя, влияет на то конкретное поведение, которое он изучает - например, потребление конкретных средств массовой коммуникации.
Понятно, что для аналитика содержания такая возможность отпадает. Всякий раз исследователь начинает с «белого листа». Ему как раз и надо знать распределение характеристик текста - это не те достаточно постоянные характеристики населения, как пол, возраст, и прочие, которые нужны при определении выборки в исследованиях аудитории. Действительно, они для определенного региона могут считаться постоянными. Для больших совокупностей людей меняются мало, а если меняются, то эти изменения тут же становятся известными соответствующим статистическим органам, поскольку это их работа, которая заканчивается тем, что они сразу же информируют социум об этих изменениях.
Существуют и другие выборки в классе репрезентативных - это вероятностные, или случайные выборки. Их построение основывается на том факте, что если для каждой единицы генеральной совокупности, например, населения всей страны, будет выдерживаться равновероятная возможность попасть в число отобранных для исследования, т.е. конкретных людей будут отбирать случайным образом, то такая выборка будет отвечать высшему критерию представительности - она будет репрезентативна для всего населения страны.
Мы повели разговор о репрезентативной выборке, а именно о ней идет речь, когда встает вопрос, в какой мере выводы исследования по ряду случаев приложимы (характерны, репрезентативны) ко всему явлению в целом, идя на поводу у неискушенного исследователя-аналитика. Репрезентативная выборка представляет лишь один из двух типов выборок, которыми практически (в принципе) исчерпываются все случаи выборок в социальных исследованиях. Другой класс выборок - типологическая выборка - в ходе исследования говорит нам, что наблюдаемое нами в обществе явление есть, оно при этом имеет определенные, зафиксированные в ходе нашего исследования характеристики (хотя может этими характеристиками и не исчерпываться).
Говоря о репрезентативных выборках, мы остановились на том, что один из подвидов их - и только он один - применим в контент-аналитических исследованиях.
Но здесь вероятностная, или случайная выборка - а это как раз тот самый подвид - приобретает некоторые особенности, с которыми специалист не может не считаться.
Рекомендуем скачать другие рефераты по теме: реферат на тему экология, рынок реферат, реферат г.
Предыдущая страница реферата | 3 4 5 6 7 8 9 10 11 12 13 | Следующая страница реферата