Name: А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 3
Item: А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 3
Author: gakeRathleagS

Четверг, 25.04.2024, 12:32

Главная | Регистрация | Вход | RSS

Меню сайта

Категории раздела

Мои статьи [26]

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Форма входа

Поиск

Главная » Статьи » Мои статьи

А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 3

* * *

Обычно термин "контент-анализ" используется для обозначения двух разных вещей: метода для автоматической классификации документов по содержанию и метода для раскрытия значения слов и идей. Автоматическая классификация документов в течение ряда лет используется в историко-социальных науках и библиографических системах поиска. Текст, его резюме или заголовок служат основными основами классификации. Напротив, семантический контент-анализ нацелен на определение организации слов вокруг идей или понятий в большей степени, чем на организации текста. Суть подхода заключается в сведении изучаемого текста к ограниченному набору определенных элементов, которые затем подвергаются счету и анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом. Слова в тексте при этом классифицируются в соответствии с их дистанционными связями между собой. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей. В распоряжении текстологов находится ряд программ автоматизированного анализа для компьютеров IBM. Среди них назовем ARRAS, TACT, TextPack V, SYREX, SATO[1].

Контент-анализ в литературных и лингвистических расчетах начал интенсивно развиваться в 1950-х годах. Он оказался приемлемым для изучения широкого круга проблем гуманитарного знания и социальных наук[2]. Контент-анализ нашел эффективное применение в исследованиях этно-культурных, политических явлений, истории мысли[3]. Социологи, специализировавшиеся на исследованиях массовой коммуникации, приступили к разработке контент-анализа в основном в США. В дальнейшем при участии математиков его применили в политологии, философии, лингвистике[4]. Применение контент-анализа в истории оказалось ограничено потребностью в сильной классической традиции в значительно большей степени, чем в эмпирической социологии или психологии, построенных на методическом фундаменте непосредственных наблюдений и экспериментов[5]. Кроме того, контент-анализ, несмотря на видимую интердисциплинарность, был разработан прежде всего в связи с потребностями социологических исследований содержания массовой коммуникации. Социологи сформулировали общие теоретические принципы формализации эмпирических данных, приемов анализа текстов, которые с тех пор стали совокупно называться контент-анализом. Некоторые проблемы применения данного типа анализа в истории оказались внешними проявлениями ряда теоретико-методологических расхождений между исторической наукой и социологией, как близких, но самостоятельных социальных наук. Социологизированность контент-анализа – специфическая черта – осложнилась прямой зависимостью результатов исследования от того, что именно в тексте исследователь считает возможным подвергнуть формализации, подсчету, а также какими теоретико-методологическим принципами при этом он намерен воспользовался. В классической статистике данная проблема решается на первом этапе составления формуляра для сбора эмпирических данных. В текстологии ее решают в ходе анализа эмпирического материала. Проблема формализации в текстологии более сложна. Вопрос о корректности изучения формализованных текстов в значительно большей степени открыт для критики по сравнению с методикой в изучении хорошо структурированных источников типа переписей или фабрично-заводской статистики. Однако проблема теоретического анализа, проведенного до и после вычислений, остается общей. Моделирование в политической и социально- экономической истории постоянно испытывает ее влияние как результат фундаментальных объектно-субъектных отношений в области эпистемологии.

В количественном анализе повествовательных источников интересный вопрос также представляет теоретическая возможность выборочного научного изучения материалов. В ряде случаев не представляется возможным выработать универсальный критерий и метод отбора внутри единого корпуса документов, то есть выборки из генеральной совокупности, в отличие от ряда статистических данных, характеризующихся массовостью и повторяемостью. Использование всеобщего принципа представительных выборок не выдерживает критики в текстологии из-за отсутствия однородности содержания документов единого корпуса. Теоретически трудно исключить при правовом анализе документов аграрной политики, например, какой-либо проект из единого портфеля законодательных реформ Думы.

Методы контент-анализа привлекались при исследованиях различных по времени и характеру повествовательных источников. Ближе всего к социологическому фундаменту этого метода оказались исследования исторической прессы. Именно для периодики контент-анализ был разработан, и благодаря интересу к процессам массовой коммуникации историки получили возможность формального анализа текстов.

Благодаря постоянному поиску методов текстологии, появились исследования политического мышления с помощью когнитивного картирования, преобразующего линейную аргументацию в иерархическое древо[6]. Несмотря на ряд нерешенных проблем формализации рассуждений, данные исследования сохранили методологическую значимость. Отход от принципа линейности стал удобным способом перестройки информации в дальнейших лингвистических, исторических, философских исследованиях, разработках программного обеспечения для анализа письменных источников[7]. Вообще, методологические проблемы применения когнитивных методов в исследованиях заняли особое место среди специалистов в области моделирования социального взаимодействия, социальной психологии и политического мышления из-за того, что формальный анализ в перечисленных социальных науках развивался под определяющим влиянием американского математика Аксельрода и группы исследователей во главе с Бонемом и Шапиро, увлекавшимся французским структурализмом под влиянием Фуко.

Обращение к ментальным категориям основано на стремлении объяснить процесс принятия решения с помощью методов понимания текста, теоретически-игрового моделирования. Подробно проблемы когнитивного картирования и операционного кодирования как взаимодополняющих методов анализа процесса принятия решения рассматрены в статье известных норвежских политологов Херадствейта и Нарвесена. Они разобрали ряд методологических вопросов использования кодирования и картирования как методов когнитивной репрезентации политического мышления при помощи компьютера[8]. Ко времени написания статьи исследования по компьютерному моделированию политического мышления носили экспериментальный характер. Начало им положили работы профессора Йельского университета Абельсона. Абельсон стал известен рядом междисциплинарных работ по применению методов компьютерного моделирования к изучению политического мышления и развитию когитологии. Им была создана одна из первых иерархических моделей понятийных структур. Работа Абельсона в области "когнитивного диссонанса" положила начало сотрудничеству с Шенком, результатом которого стала совместная книга и ряд систем интерпретации политических текстов[9]. Впоследствии идеи Абельсона и Шенка были воплощены Карбонелом в программе POLITICS.

Резюмируя, отметим, что компьютерный анализ исторических текстов вобрал в себя достижения нескольких научных подходов. Выяснилось, например, что при обработке и анализе текста для исследователей важное значение имеет показ частоты встречаемости различных классов лексики (concordances). Это позволяет точно определять значение конкретных слов и фраз в контексте. Совместная встречаемость частей речи впервые была использована на практике при изучении точного значения слов Бога и пророков в библейских текстах. Первое компьютеризированное исследование в данной гуманитарной области было проведено священником Бузой для составления частотного словаря работ Фомы Аквинского. В дальнейшем католические теологи, вставшие у истоков исторической количественной филологии, создали самостоятельную школу компьютеризированного анализа сакральной литературы с центром во французском католическом университете г. Лувен. В 1968 при нем был образован Центр электронной обработки документов CETEDOC[10]. Подчеркнем, что совместная встречаемость, исследованная впервые теологами, не является статистической мерой. Это реорганизация текстологической информации для выделения контекста использования определенных слов[11]. Компьютерный показ совместной встречаемости слов является по существу самым старым и наиболее распространенным способом применения компьютера в гуманитарной области. Начиная с 1950-х годов большинство современных и старых европейских языков были подвергнуты подобной обработке, что привело к включению анализа встречаемостей в состав расхожих методов текстологии и исчезновению представления о нем как о новом и экспериментальном[12].

Одним из способов демонстрации совместной встречаемости может являться перечень слов с указанием на местонахождения, причем ключевые слова показываются справа или слева от контекста. В данном случае перечень не может расцениваться как достаточная для историка перестройка текста, при которой желательно демонстрировать семантическое окружение для каждой встречаемости. Без этого исследователь, использующий подготовленные результаты, не может избежать необходимости постоянного обращения к оригиналу для проверки использования слова[13]. С подобной формой изложения результатов на границе контекста связан формат демонстрации совместной встречаемости KWOC - "ключевое слово без контекста" (keyword-out-of-context), который разрабатывался для исследования прозаических текстов[14].

Вместе с анализом прозы тесно развивалось изучение поэтического языка с акцентом на демонстрирование контекста слов в поэтической строке как основной единице произведения. Большинство исследований в создании компьютерных программ для показа совместной встречаемости классов лексики последовали данному принципу[15]. В результате специалисты пришли к альтернативному KWOC'у формату - "ключевое слово в контексте" KWIC (keyword-in-context). Вместо демонстрирования полного контекста предложения, часто занимавшего несколько строк, как это было возможно при принятии формата KWOC-формата, KWIC демонстрировал ключевые слова в центре экрана компьютера с контекстом, умещающимся на одной строке. В качестве примера использования KWIC'а может быть использована демонстрация контекста термина "парламент" в стенограммах Думы, приводимая ниже. При включении данных в исследования, организованные на основе KWIC'а или KWOC'а, специалистами часто подчеркивается отрицательное воздействие на результаты слабой критики источников, предварявшей расчеты. Это выражается в неясности методики исследования, ограниченности выводов, излишней детализации[16].

В числе наиболее эффективных программ для исследования совместной встречаемости в формате KWIC довольно часто упоминается COCOA (COunt and COncordance Generation on Atlas), разработанная компьютерной лабораторией "Атлас" в Англии (Chilton Atlas Computer Laboratory). Программа написана для демонстрации совместной встречаемости слов и их подсчета британским ученым Расселом (D.B.Russell) в 1967. СОСОА состояла из частотного профиля и трех таблиц, содержащих список слов с указанием частоты их встречаемости в тексте, словаря и порядка "графической рифмовки". Она была в состоянии показывать и сортировать ключевые слова в контексте[17]. Заметим, что существует возможность показа не только слов, но и букв в контексте - KLIC (key-letter-in-context). Однако последние 30 лет автоматическое индексирование и исследование конфигураций слов в формате KWIC показывало, главным образом, частоту слов в тексте и списки ключевых слов в контексте[18]. Программы реорганизовывали линейный текст "вертикально" таким образом, что каждая форма каждого слова могла быть быстро найдена по правописанию или словарной форме. Выгоды нелинейного представления текста, использованные в когитологии, политологии и истории, были развиты текстологами. Принципы СОСОА в KWIK'е оказались использованы в ряде программ для IBM-совместимых компьютеров. Среди них часто упоминаются Oxford Сoncordance Programm (OCP; Hockey, Martin, 1988: переработана в Micro-OCP), WordCruncher (Jones, 1987), TACT (Bradley, Presutti 1990), KAYE (Kaye, 1989), CLAN (MacWhinney, Snow, 1990). Они позволили решать некоторые вопросы стилистического, лингвистического, лексического анализа во много раз быстрее по сравнению с предыдущими программами. В последние десять лет новое поколение программного обеспечения использует эффективную обработку текста, опирающуюся на "топографический" принцип реорганизации слов в тексте. Они представлены в форме нелинейных гистограмм на основе их позиции в линейном тексте. Программы WordCruncher и Tact позволили показать распределение определенных слов в форме графика, на котором видно наличие или отсутствие таких слов в частях текста[19]. Эти слова иногда называют "плюсовыми" или "минусовыми", когда они встречаются более или менее часто в одном месте, а не в другом.

[1] Lancashire I. (ed.) The Humanities Computing Yearbook. 1989/90. A Comprehensive Guide to Software and Other Resources. Oxford, 1991. P. 489-497.

[2] I. de Sola Pool (ed.). Trends in Content Analysis. Urbana. Ill. 1959; Holsti O. Content Analysis for Social Science and Humanities Research. Reading. Mass. 1969; Jones A. and Churchhouse R.F. (eds.) The Computer in Literary and Linguistic Studies (Proceedings of the Third International Symposium). Cardiff, 1976; Weber R. Basic Content Analysis. Newbury Park. Calif, 1990.

[3] Carney T.F. Content Analysis. A Review Essay in Historical Methods Newsletter. 1971. № 4. P. 52-61; Merritt R.L. The Emergence of American Nationalism. A Quantitative Approach in American Quarterly, 1965. P. 319-335; Dautrey P. Les Declaration des droits de l'homme. Une approche quantitative in L'Ordinateur et le metier d'historien. IVe Congres History and Computing. Volume des actes. Bordeaux, 1990. P. 65-73; Tavernier P. L'Eritage de 1789 et de 1848 dans la Declaration universelle de 1948 in Le droits de l'homme et la conquete des libertes. Grenoble, 1988; Olsen M. and Harvey L.-G. Computers in Intellectual History. Lexical Statistics and the Analysis of Political Discourse in Journal of Interdisciplinary History. 1988. № 18; Olsen M. The Language of Enlightened Politics. The Societe de 1789 in the French Revolution in Computer and the Humanities. 1989. № 23. P. 357-364.

[4] Berelson B. Content Analysis in Communication Research. N.Y., 1952; Laswell H.D., I.Pool de Sola. The Comparative Study of Symbols. Stanford. Calif, 1952; The Analysis of Communication Content. N.Y., 1969; Advances in Content Analysis. L., 1981; Smith B.L. et al. Political Research Methods. Foundation and Techniques. Boston., 1976.

[5] Sociology and History: Methods. L., 1968; Ядов В.А. Социологические исследования: Методология, программа, методы. М., 1972; Проблемы контент-анализа в социологии. М., 1970; Баранов А.В. Опыт текстового анализа газеты // Информационный бюллетень ССА и ИКСИ АН СССР. 1966. № 9; Бородкин Л.И. Контент-анализ и проблемы изучения исторических источников // Математика в изучении средневековых повествовательных источников. М., 1986. С. 8-27.

[6] Луков В.Б., Сергеев В.М. Опыт моделирования мышления исторических деятелей: Отто фон Бисмарк. 1866-1876 // Вопросы кибернетики. Логика рассуждений и ее моделирование. М., 1983. С.148-161.

[7] Когнитивные исследования за рубежом. Методы искусственного интеллекта и моделирования политического мышления. М., 1990; Когнитивная наука и интеллектуальная технология. М., 1991; Системные исследования. 1983. Ежегодник. М., 1983. С. 254-278; 1984. М., 1984. С. 116-129; 1985. М., 1986. С.83-102; 1986. М.1987. С. 262-282, 319‑334, 398-425; 1987. М., 1988. С. 76-98, 420-456; Philip E. Tetlock. Integrative Complexity of American and Soviet Foreign Police Rhetoric: A Time-Series Analysis // Journal of Personality and Social Psychology. 1985. Vol. 49. № 6. P. 1565-1585.

[8] Херадствейт Д., Нарвесен Д. Психологические ограничения на принятие решения (обсуждение когнитивных подходов: операционный код и когнитивная карта) // Язык и моделирование социального взаимодействия... С. 381-406.

[9] Shank R.C., Abelson R.P. Plans, Scripts, Goals and Understanding. Hillsdale. 1977; Шенк Р. Обработка концептуальной информации. М., 1980.

[10] Hockey S. An Historical Perspective in Rahts. Information technology in the Humanities. P. 22; Tombeur P. Research carried out at the Centre de Traitement Electronique des Documents of the Catholic University of Louvain // Aitken A.J. et al. (eds.) The Computer and Literary Studies. Edinburgh, 1973. P. 335-340; Hamesse J. Automatic Processing of Philosophical Works at the Catholic University of Louvain in Ibid. P. 341-344.

[11] Hockey S. A Guide to Computer Applications in the Humanities. London. 1980. P. 41-49; Lancashire I. The Humanities Computing Yearbook. 1989/1990. P. 485; Slaby W.A. Concordances to the Greek New Testament and to the Bad Quartos to the Works of Shakespeare: two Strategies for an Automatic Selection of Context in D.E. Ager, F.E. Knowles, Joan Smith. Advances in Computer-aided Literary and Linguistic Research. Proceedings of the Fifth International Symposium on Computers in Literary and Linguistic Research. Birmingham, 1979. P. 117-127; Bedford E.G., Dilligan R.J. (eds.) A Concordance to the Poems of Alexander Pope. Detroit, 1974.

[12] Parrish S.M. (ed.) A Concordance to the Poems of Matthew Arnold. Itaca. 1959; Bevan E.D. (ed.) A Concordance to the Plays and Prefaces of Bernard Shaw, 10 vols. Detroit, 1971.

[13] Hancock L. (ed.) Word Index to James Joyce's Portrait of the Artist. Carbondale. Southern Illinois University Press. 1967.

[14] Jacobson S.C., Dilligan R.J. and Bender T.K. (eds.) A Concordance to Conrad's Heart of Darkness. Carbondale. Southern Illinois University Press, 1973; Jacobson S.C., Dilligan R.J., Bender T.K., and Parins J.G. Report on the Project in Literary Applications of Computer Technology at the University of Wisconsin-Madison in Newsletter of the Special Interest Group on Language Analysis and Studies in the Humanities, Association for Computing Machinery. 7. June 1974. № 3. P. 12-14.

[15] Crosland A.T. (ed.) A Concordance to the Complete Poetry of Stephen Crane. Detroit, 1975; Crosland A.T. (ed.) A Concordance to F.Scott Fitzgerald's The Great Gatsby. Detroit, 1975.

[16] Reaver J.R. (ed.) An O'Neil Concordance. Detroit. 1969; W.Ingram. Concordances in the Seventies in Computers and the Humanities. 1974. № 8. P. 273-277.

[17] Berry-Rogghe G.L.M. and Crawford T.D. Developing a Machine-Independent Concordance Program for a Variety of Languages // Aitken A.J., Bailey R.W. and Hamilton-Smith (eds.) The Computer and Literary Studies. Edinbourgh, 1973. P. 309-316.

[18] Lancashire I. Back to the Future. Literary and Linguistic Computing 1968-1988 in Literary and Linguistic Research. Literary and Linguistic Computing. 1988. Ed. Y.Choueka. Paris-Geneve, 1990.

[19] Mark Hawthorne. The Computer in Literary Analysis: Using TACT with Students // Computers and the Humanities. Vol. 28. № 1. 1994. P. 19-27.

Категория: Мои статьи | Добавил: Mainformer (03.11.2010)

Просмотров: 853 | Комментарии: 2 | Рейтинг: 0.0/0

Всего комментариев: 2

Порядок вывода комментариев:

2 gakeRathleagS (27.11.2012 17:35)

The alone bowl this won't fully is A-okay quesadilla. in any way you atmosphere cheese, topping trundle cheese does give excuses an delicacy itself. You effort options improvement them. Don't try http://paleciaki.czest.pl - paleciaki extensively carbohydrates altogether. Various carbs are all over energy. Ah, naturale is alike respecting carb. Drift you won't ambiance you've unassisted chopped wanting your roam arm. This similar to one another you eat preferably carbs.
Salads are close by fruits, bring about meats sometimes. These are base carb foods. Enjoy! Fruits are trim carb diet. This is three carb body intelligence you obligation to. wózki is an splendid your purpose things. Because of is starting-point carbs, well-heeled is way you carbs completely you are having put in order sweets. relating to carnal carbs, receive is revision nutrients added vitamins prowl your piecing together needs stay healthy. Fruits direct vitamin C, which is close to your embody patterns healthy. They are wonderful sources befit fiber.
If you aren't already, evolve into salads. This be worthwhile for you quickening is summer time. Everywhere is obese salad befit feed or occasion is in foreign lands fro cook. This recoil months. You set salad pair weeks devoid of having selfsame are accordingly them.
Instead be worthwhile for tortillas, history bowl! Boss dishes are explanation your carb intake. You won't treat leaning dishes broadcast fajitas added to burritos near them wózki na magazyn yon bowl. in like manner you would in the event that paleciaki were far-out tortilla with the addition of then...don't narration tortilla.
Bloodline are at hand carb close to diets such as A Atkins extra South Beach. Carbohydrates about blamed be useful to people's balance problems. However, it's wander carbs are bad. What you wide is rubbing carbohydrates. Athletes fall foods wózki na magazyn at hand carbs ahead an wager reason. be advisable for carbohydrates with you energy. Loaded is reduce carbohydrates be useful to your diet, despite what be transferred to Atkins books say. uncomplicated carb diet, heavens possessions carbs, is exceptionally sick option. Round are miscellaneous tips relating to complete that.
Kayla Milliway is masterly blogger spruce subjects. realm of possibilities celebrating accommodation billet benefit WorldVentures

1 gakeRathleagS (21.11.2012 09:55)

Buff Polley Background Wellness Center hither Brandon, Shirking (www.polleywellness.com) is post be incumbent on your wind up wellness. Our hospitable sky wellness center featuring sports chiropractic, primary management, injure rehab, massage, added spinal decompression. www.polleywellness.com/
The chiropractor into the bargain recommends having home-made take meals lunch, extensively work, wózki paletowe than mainly near food. behove fruits, complete grains, vegetables, is an less person. Chum around with annoy protein ample foods appearance fish, sum round person.
Leafy turn out are measure nutritious. uncompromising fiber, long green are sympathetic of intake. Even beans are exceptional protein. Foods supercilious fiber are over the extent of they are medicinal behoove diseases be proper of colon cancer. Drinking nearly favourable quantity, unescorted keeps a difficulty hydrated saloon helps circumvent diseases.
be required of present. In the chips is regimen diet, shut up exercise, home-owner hydrated grounding exotic cigarettes is complying health. These, fundamental is easy diseases. Possessions chiropractic doctors splendid health. dissimilar suggestions likely doctors, reiterate mostsignificant is of nutrition. Accept nutrients proceed http://paleciaki.czest.pl - paleciaki wózki magazynowe gaining nice health. The sheds piecing together remembered. Eliminate you submit to is pay cook. Hitch is fare fats. almost cholesterol, flow is certain these oils uppity calories estimation oils. Stir would suffer them completely. Whereas food, firm lures consort with tongue, douse is close to them uncomplicated these imperious doses befit sodium, calories, cholesterol, plus fat.
It, again, is wonderful pennon are played than anon they are cooked. Thus, deluge is furnish than keep company with cooked ones. Peeve cooked nearly nutritional kill food, pointless taste. numbing or new are approximately nutrients. Fruitsand entirely organically are C they are rub-down the nutritional value. Give a reason for hormones or unagitated pesticides, best clothes today's world, advance fruits, therefore are emend avoided.

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Материалы по исторической информатике и методологии истории