А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 4 - Мои статьи - Каталог статей - Материалы по исторической информатике и методологии

Понедельник, 13.05.2024, 00:59

Главная | Регистрация | Вход | RSS

Меню сайта

Категории раздела

Мои статьи [26]

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Форма входа

Поиск

Главная » Статьи » Мои статьи

А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 4

Для иллюстрации этих возможностей обратимся к динамике появления конфессиональной категории "мусульманство" в стенографических отчетах первой Думы (законопроект "О гражданском равенстве"). Эта динамика отражена 10% интервалами, разбивающими весь текст дебатов на 10 равных частей.

Текст отчетов	Количество упоминаний о	График распределения ключевых понятий
0-10%	0
10-20%	0
20-30%	0
30-40%	4	>>>>
40-50%	0
50-60%	0
60-70%	0
70-80%	4	>>>>
80-90%	61	>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
90-100%	19	>>>>>>>>>>>>>>>>>>>>
Всего:	88

"Топографический" принцип демонстрации распределения терминов говорит, что в первой трети текста и в промежутке 40-70% базы данных категория "Мусульманство" была "минусовой", то есть не встречена. В промежутках 30-40% и 70-100% категория стала "плюсовой", то есть в этих местах появились упоминания о мусульманах.

Одной из возможностей "топографического" анализа стало изучение ассоциаций слов и моделей словесных комбинаций. Они показывают в табличной форме, какие конфигурации встречены с определенным словом или словами внутри контекста. Данные пакеты обыкновенно имеют три этапа работы: 1. разбивку текста на слова и фиксирование их к определенной позиции в тексте; 2. сортировку слов в алфавитном порядке; 3. подсчет частоты встречаемости каждого слова и их совместной встречаемости. Большинство современных программ обработки текста, в том числе ТАСТ, выделяют заданное исследователем слово, показывают в скобках количество его нахождений в тексте (7), подсчитывают номер строки, на которой встречено слово (1409) и заданную границу контекста - |. Перестройка текста стенографических отчетов демонстрирует семантическое окружение ключевого термина думских дебатов "парламент".

парламентъ (7)

(1409) существующее всюду, где | есть >парламентъ, правомъ какого

(1448) это известнымъ афоризмомъ: | >парламентъ все можетъ сделать,

(3026) | Тутъ указывалось на то, что>парламентъ не можетъ

(3028) | не сказалъ бы, что поэтому >парламентъ не можетъ уравнять

(3029) въ правахъ. Совершенно также >парламентъ мо-| жетъ уравнять

(3320) речь справедливымъ афоризмомъ:>парламентъ не можетъ прев-|

(3322) требуетъ | невозможнаго. Но всякiй>парламентъ не только можетъ,

Статистические методы анализа текстовых структур представлены в сопряженном с демонстрацией совместной встречаемости методе анализа комбинации слов (collocate analysis). Его задачей является определение слов или совместной встречаемости слов, использованных в соединении с определенными исследователем ключевыми словами в изучаемом тексте. Для этого выбираются узловое слово или группа слов, которые объединены идеей или объектом, затем собираются все слова вокруг каждой встречаемости узловых слов. Собранный таким образом контекст образует минитекст. Затем производится анализ частоты встречаемости слов в минитексте. Он включает все комбинации узловых слов. После этого производится сравнение ожидаемой частоты встречаемости комбинации в минитексте с действительной частотой встречаемости, что является мерой притяжения комбинации узла. Например, сила связи и комбинация слов вокруг понятия "гражданин" в стенограммах Думы дает (в программе Tact) нижеприведенную картину (без демонстрации промежуточных расчетов):

Совместная встречаемость (Collocates)	Частота встречаемости (Collocate Freq)	Частота типа (Type Freq)	Сила связи (Z-score)
равенстве	17	35	13.563
обоего	5	5	11.013
передъ	10	26	9.048
закономъ	10	27	8.842
пола	6	11	8.616
равны	6	12	8.193
правами	7	16	8.180
свободы	5	9	7.948
равноправiю	3	4	7.290

В первой колонке указываются слова-соседи понятия "гражданин". Во второй колонке приводится частота употребления слова первой колонки непосредственно с ключевым словом. Например, "равенстве", встречено 17 раз. Третья колонка указывает общую частоту появления слова "равенстве" в тексте - 35. При дальнейшем анализе силы связи ключевого слова с окружающей лексикой учитывается граница контекста ключевого слова, то есть количество слов в необходимой фразе, окружении (span). Результатом анализа частот в двух колонках таблицы является интегральный показатель Z-score, который обеспечивает измерение значимости лексических комбинаций. Максимальное значение Z-score в лексикометрии является предельной силой связи слов. Чем выше значение, тем меньше вероятность, что лексическая комбинация появляется вблизи ключевого слова случайно[1].

Значение Z получило широкое распространение в квантитативной лингвистике, контент-аналитических исследованиях. Введем его точный смысл. Пусть:

Z - общее количество слов в тексте
A - заданная лексическая единица, встреченная в тексте Fn раз
B - другая лексическая единица, встреченная в тексте Fc раз
K - частота встречаемости B в контексте A
S - "длина контекста", т.е. количество слов вокруг A, рассматриваемых как окружение A.

Вероятность встречаемости В в каком либо месте текста, где А не встречено, выражается формулой:

р=Fc/(Z-Fn)(1)

Ожидаемое количество совместных встречаемостей A и B выражено в виде:

E=p.Fn.S(2)

При этом возникает проблема принятия решения о том, является ли разница между наблюдаемой и ожидаемой частотами статистически значимой (т.е. насколько уверенно можно отвергнуть гипотезу о случайности совместной встречаемости A и B). Решение может быть найдено с помощью вычисления так называемого "значения Z" или "Z- score" как нормальной аппроксимации (приближения) биномиального распределения:

z=(K-E)/\|Eq ,q=1-p(3)*

Опыт анализа исторических текстов продемонстрировал возможность получения интересных научных результатов при использовании простых статистических методов. Например, стало возможно говорить о силе связи в компьютерном контент-анализе. Если "значение Z" выше 2.75, то связь категорий представляется достаточно сильной. Если же "значение Z" превышает 4.0, имеет смысл обращать пристальное внимание на подобного рода связь.

Вслед за простыми статистическими методами анализа текстологи обратились к изощренному математическому аппарату от Хи-квадрата до Фурье-анализа. Это привело к тому, что большинство специалистов-гуманитариев отошло от самостоятельного применения тонких количественных методов. При этом стоит отметить, что идея применения, скажем, Хи-квадрата в текстологии доступна для историков. Таким образом тестируется статистическая гипотеза или теоретическая модель, где необходимо сравнивать ожидаемые и наблюдаемые частоты номинальных переменных. Тест показывает уровень соответствия математической модели наблюдаемым данным, например, длине предложений. Впрочем, данные теоретические выкладки из области лингвистической статистики могут опускаться непосредственно при анализе. По этой причине у гуманитариев широкое распространение получили программы, не требующие знаний программирования, управления данными, статистики, однако позволяющие получать результаты на основе простых баз и анализа. В их числе часто называют Micro-OCP, WordCruncher и ТАСТ[2].

* * *

К одному из наиболее используемых историками количественных приемов исследования относится анализ стиля. В отличие от контент-анализа, стилистическое исследование основано на классификации текста по авторству, а не по предмету. Обыкновенно специалисты останавливаются на статистическом описании частей речи, суффиксов, постфиксов, аффиксов, префиксов, фраз, частей речи, предложений в работах различных авторов для раскрытия индивидуальностей стиля или с целью отличия от других писателей. История современной статистической стилистики восходит к 1851 году, когда де Морган высказал мнение, что длина слов могла бы быть доказательством различия стилей писателей[3]. Стилометрические тесты различных текстов и сравнение полученных результатов дают основания исследователям исторической литературы определять авторство неатрибутированных документов и выяснять влияние разных авторов друг на друга. Одним из наиболее результативных подходов в стилометрии является выяснение соотношения общего количества слов в тексте со словарным запасом конкретного писателя: tokens vs types. Отношение словаря к общему количеству слов в статистике определяется термином ratio, то есть отношение между двумя значениями, определяемое частотой содержания одного в другом. Значения ratio находятся между 0 и 1. Чем больше значение ratio, тем богаче словарный состав, то есть определенное слово встречается реже, чем в случае с меньшим ratio, когда бедность словаря приводит к частой повторяемости одних и тех же слов.

Тонкость средств стилометрии требует осторожности в их применении. Существенную роль может играть жанр источника анализа, что например относится к периодике или стенограммам. Подшивка газетных статей, стенограмма выступлений политика и его автобиография могут различаться по стилю. В силу этого стилометрическому анализу должна предшествовать типологическая критика источников.

Несмотря на все проблемы использования, количественный анализ текста представляет непреходящий интерес. Исследования русского языка позволили американским диалектологам исследовать глубокие проблемы различия между русским и немецким стилями[4]. Стилистический анализ позволил продемонстрировать влияние учения Локка на личность Джефферсона, проследить процесс проникновения идей шотландского просвещения на американскую революционную мысль. Анализ стиля вместе с контент-анализом использовался для создания родословной американского радикализма и его влияния на политическую культуру дебатов на основе сравнения революционных памфлетов с документами американских политических партий и групп по интересам ХIХ-ХХ веков[5]. В ряде случаев вопросы исторической науки решаются при привлечении лингвистического анализа использования единого языка различными социальными и региональными группами и взаимных заимствований лексики разными языками. Техника таких исследований проливает свет на связи между иммиграцией и изменением культуры и ценностей, в частности британской Северной Америки. При изучении политических дебатов лингвистика позволила выяснить степень независимости развития культуры и политики рабочего класса от буржуазного влияния в ХIХ-ХХ веках[6].

Феномен использования машинной обработки полученных исследователями текстов часто связывается с "компьютерным критицизмом". Он определяется как использование компьютера для решения двух задач. Во-первых, в целях автоматизированного сбора информации для критического анализа и ее представления. Во-вторых, для применения аналитических моделей к текстовой информации. Методологические основы критицизма были статистически развиты в работе, посвященной творчеству В. Блейка[7]. Решение первой задачи компьютерного критицизма не вызывает серьезной критики, так как в результате даются неоспоримые характеристики слов, например, частота встречаемости и позиции в тексте. То есть исследователь глядит на текст с критически нейтральной позиции. Ситуация меняется при переходе к моделированию, которая сразу начинается с оценки или гипотезы. В этом случае применение статистических тестов к частоте или месту встречаемости данных в тексте приводит к их реорганизации. Получаемые списки, графики и карты демонстрируют, с какой точностью данные источника совпадают с моделью, то есть показывают "уровень значимости" теории.

Из-за того, что компьютерный анализ рассматривает слова как квази-материальные объекты и фундаментальные частицы текста, компьютерный критицизм оформился в отдельную школу лингвистики, связанную со структурализмом и марксизмом. Эти философские доктрины оказывают влияние на многих специалистов в области машинного анализа при выработке подхода к тексту[8]. Необходимость решения одновременно нескольких философских, исторических и статистических проблем при компьютерном критицизме привела к тому, что машинный контент-анализ и сопутствующие ему количественные методы медленно развиваются в системе гуманитарных дисциплин. Ряд специалистов рассматривают текст как активный элемент в обществе, для которого он составлялся. В момент взаимодействия текста с историей, а также другими формами передачи информации (кино-, фото-, фонодокументы), он не может быть изучен исключительно как закрытая система частиц. К тому же оценка результатов анализа зависит не только от результатов исследования. Довольно типичной является ситуация, когда ряд часто встречаемых слов не имеет функционального значения, например: "когда", "который", "хотя". В то же время редко встречаемые слова или феномен отсутствия класса лексики может быть более значимым и исследователь приходит к выводу косвенно. В качестве примера может быть приведено отсутствие в дебатах Думы критики Николая II в результате действия процедурного запрета, который привел к обострению полемики с министрами.

В подобных непростых ситуациях для обеспечения правильного анализа резко возрастает необходимость в классической критике источников и историко-философской рефлексии перед компьютеризированным изучением текста. Результатом моделирования становится нахождение устойчивых шаблонов в тексте, "семантических облаков", выявление которых может быть повторено независимыми исследователями при соблюдении единых правил. Машинная текстология - наука по-своему точная. Точность объясняется своеобразием предметной области. Предметом информатики становится оцифрованный текст. Однако не все в нем доступно математическим методам исследования. В истории дело обстоит так, что математической точности возможно достичь не во всех случаях. Точность исследования зависит не только от уровня наших знаний, но также и от того, в какой мере эту точность допускает сам предмет. Статистические закономерности истории позволяют говорить о вещах на основании того, что случается не всегда, а по большей части. Точность науки связана с ее способностью абстрагироваться от привходящих дополнительных условий. Она скрыта в объективной простоте объекта. Поэтому самыми неточными оказываются науки, имеющие дело с тем, что по самой своей природе сложно и внутренне противоречиво. Математика имеет дело с понятиями. Поэтому она не может, несмотря на точность ее средств познания, служить методом адекватного познания исторических явлений, осуществление которых зависит от случайностей. Из-за этого количественная история изучающая тексты, есть знание неточное, но оно есть знание неточного, а следовательно, законное. К тому же исторический текст как источник безгранично разнообразен. Перенесение принципов и методов одной частной науки в другую совсем не обязательно требует сохранения всех элементов и создания иерархии подчинения наук.

Подсчеты частот встречаемости различных классов лексики (concordances), которые доминировали в квантитативной текстологии 1970-х и позволяли точно определять значение конкретных слов и фраз в контексте, по мнению критики, дали слабый эффект. Исследования, построенные лишь на подсчете частоты встречаемости слов и их комбинаций, имеют тенденцию к неясным или тривиальным выводам. Поэтому многие работы в области компьютерного анализа текста оказались сконцентрированы скорее на методологических вопросах, чем на проблемных результатах. Исходя из этой критической посылки, при исследовании средневековой немецкой поэзии использовался альтернативный метод построения тезаурусов, которые позволяют более точно и результативно интерпретировать текст[9]. В заключение следует отметить, что большинство специалистов подчеркивает необходимость взаимополезной связи квантификации и теории исследований. К тому же, в количественных исследованиях текста наметился очередной рубеж. Период пристального внимание к вопросам методов, с которым в истории науки устойчиво связывается кризис знания, привел к идейным попыткам преодолеть застой. Текстологи получили общее описание ряда подходов, которые пока не могут быть реализованы при возможностях современной технологии. В основном речь идет о достижениях в области искусственного интеллекта[10].

Подводя итог истории применения математических методов в социальных науках, следует констатировать, что к середине 1990-х годов пакеты текстового анализа по-прежнему не выдерживают конкуренции со статистическими программами в области связывания воедино всестороннего диапазона мер и аналитических процедур. Например, ТАСТ'у нельзя задать вопрос на показ слов, встреченных в тексте максимальное количество раз. К тому же, строение ТАСТ'а отличается от структуры интегрированных пакетов, таких как Works, Exell, QuatroPro, SPSS. В них создание файлов и их дальнейшая обработка соединены в одну оболочку с командной строкой. ТАСТ, с этой точки зрения, является собранием отдельных программ. Он не может выдержать конкуренции, например, с SPSS по набору статистических мер. Фактически, ТАСТ предлагает только одну статистическую функцию контент-анализа: Z-score (не считая простого подсчета встречаемостей слов в разных промежутках текста, представленного в графической форме, и ratio). В то же время SPSS предлагает на выбор исследователя несколько статистических мер, многомерный статистический анализ, различные формы графического представления результатов применения функций. Пакеты текстового анализа предлагают сравнительно небольшие возможности. При сохраняющемся разрыве между компьютерным изучением хорошо и слабо структурированных источников исследователи ограничены в методах анализа полнотекстовых баз данных. Сложность компьютерной обработки исторических текстов с неизбежностью приводит к относительному упрощению результатов работ и увеличивает время достижения достоверных выводов.

Письменные источники – это документы, с которыми связана история как наука. Документы истории и история документов тесно переплетены. Надо отметить, что письменные источники, подобные стенограммам Думы, возникли задолго до статистики, которая на пороге XXI века олицетворяет прогресс компьютерных методов анализа в социальных науках. Нарративные документы, отличающиеся большим разнообразием, широким временным диапазоном и объемом сведений, на волне применения количественных методов также превращаются в равноправные материалы для исторической информатики. Автоматический контент-анализ, компьютерная обработка исторических текстов обретают свое собственное место в мире методов источниковедения и конкретно-исторического анализа.

[1] Berry-Rogghe G.L.M. Computation of Collocations and their Relevance in Lexical Studies in Aitken A.J. et al. (eds.) The Computer and Literary Studies. Edinburgh, 1973. P. 103-112; Olsen and Harvey. Computers in Intellectual History. Ibid. P. 456-458.

* Hoel P.G. Introduction to Mathematical Statistics. N.Y. 1962; C.Butler. Statistics in Linguistics. Oxford, 1985; Butler C. Computers in Linguistics. Oxford, 1985.

[2] David S. Miall. Beyond the Word: Reading and the Computer in The Digital Word: Text-Based Computing in the Humanities. Cambridge. London, 1993. P. 328, 332; Text Retrieval: A Directory of Software. Ed. by R. Kimberley. Aldershot. Gower, 1990.

[3] Bailey R.W. Statistics and Style: A Historical Survey in Statistics and Style. N.Y., 1969. P. 217-236; Allan R.F. The Stylo-Statistical Method of Literary Analysis // Computers and the Humanities. 1988. № 22. P. 1-10; Бородкин Л.И., Милов Л.В., Морозова Л.Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси // Математические методы в историко-экономических исследованиях и историко-культурных исследованиях. М., 1977.

[4] Winter W. Styles as Dialects in Statistics and Stile. N.Y., 1969. P. 3-9.

[5] Srinivasan S. Style in Syntax. A Computer Aided Quantitative Study // Lusignan S., North S. (eds.) Computing in the Humanities. Proceedings of the Third International Conference on Computing in the Humanities. Waterloo. Ont., 1977. P. 85-97.

[6] Hockey. A Guide to Computer Applications. P.79- 84; Kirk J. Word Maps of East Central Scots. A Computerised Package // Fenton A. (ed.) Third International Conference on the Languages of Scotland. Edinburgh. 25-27 July 1991 (forthcoming); Kirk J., Munroe G. A Method for Dialectometry // Journal of English Linguistics. 1989. № 22. P. 97-110; Kirk J., Munroe G., O'Kane M.D.J. Electronic Word Maps // Hockey S., Ide N. (eds.) Research // Humanities Computing 2 (forthcoming); Fisher D.H. Albion's Seed. Four British Folkways in America. Oxford, 1989; Smith O. The Politics of Language. 1791-1819. Oxford, 1989; Stedman Jones G. Rethinking Chartism in G. Stedman Jones (ed.) The Languages of Class. Studies in English Working-Class History. 1832-1982. Cambridge, 1983. P. 90-178.

[7] Smith J.B. Computer Criticism in Style. 12.4 (Fall 1978). P.339; Ide N.M. Meaning and Method: Computer-Assisted Analysis of Blake // Literary Computing and Literary Criticism: Theoretical and Practical essays on Theme and Rhetoric. Ed. R.G.Potter. Philadelphia. University of Pennsylvania. P., 1989. P. 123-141.

Категория: Мои статьи | Добавил: Mainformer (03.11.2010)

Просмотров: 2362 | Комментарии: 2 | Рейтинг: 0.0/0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Материалы по исторической информатике и методологии истории