Вторник, 21.01.2025, 19:23

Материалы по исторической информатике и методологии истории

Меню сайта
Категории раздела
Мои статьи [26]
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0
Форма входа
Поиск
Главная » Статьи » Мои статьи

А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 1

Машиночитаемые источники естественного языка, которыми для квантитативных источниковедения и текстологии являются полнотекстовые базы данных, представляют язык в оцифрованном виде. Электронный текст существует как набор кодов. Можно говорить о 209 страницах дебатов в I Государственной Думе или о 870 килобайтах стенограмм. Одной из наиболее известных среди историков программ, реализующих работу с электронным текстом, является TACT. В настоящее время большинство систем обработки полнотекстовых баз данных в состоянии распознать такие элементы как слова, строки и параграфы без указания исследователя. Ряд рутинных операций решается программным путем, например, автоматическое составление списка всех слов текста с указанием частот их встречаемостей в источнике, поиск слов и контекста, вывод на печать. Работа с ТАСТ'ом имеет ряд последовательных этапов. Первоначально исследователь должен преобразовать текстовый файл в текстовую базу данных. Как правило, исходный текст должен быть в формате ASCII (ISO-646). На стадии преобразования необходимо проделать две операции. Во-первых, задать русский алфавит. Во-вторых, использовать описательный язык разметки документа: перечислить символы разметки стенограмм и указать ими строение документа. Рассмотрим образец разметки стенограмм первой Думы (1906) символами- флажками описательного языка Label Markup.

 

<<271  Сессiя I, заседанiе 6. 8 V 1906 г.>>

 <<Голосъ. Сегодня надо оповестить.

 Острогорскiй. Тогда придется отложить до послезавтра.>>

 {Председатель}. Въ виду сделанных заявленiй, я сделаю собра нiе

отделовъ послезавтра. Этотъ вопросъ решенъ. Затемъ имею честь

 доложить Государственной Думе...

 Гр.{Гейденъ}. Будетъ ли завтра заседанiе?

 

Можно видеть, что части текста взяты в кавычки <<...>>. Флажки означают, что программа будет игнорировать при анализе стереотипное указание в шапке каждой страницы стенограмм на неизменявшиеся страницу, сессию, заседание и число. Из индексов также исключаются реплика анонима и Острогорского на странице 271, которые не имеют отношения к законодательству. При анализе эти части текста сохраняются в полнотекстовой базе стенограмм, но слова из них не входят в словарь, то есть не проиндексированы. Особенностью думской деятельности, как и деятельности прочих законодательных органов представительного характера, являлось смешение в ходе работы законодательства, текущих проблем избирателей и процессуальных вопросов. Например, в перерывах для подсчета результатов голосования о выборах в комиссии обсуждались планы дальнейших заседаний, отчет комиссии по Белостокскому погрому и многое другое. Довольно часто на одной странице стенографических отчетов располагалось обсуждение нескольких несвязанных между собой вопросов. Поэтому важной задачей при подготовке материалов законодательных прений для анализа и управления является выделение нужной информации. Для создания полнотекстовой базы первой Думы берутся страницы стенографических отчетов с обсуждением законодательства. Попутные законодательству дебаты размечаются так, чтобы они сохранялись для просмотра, но исключались при анализе и управлении. Каждый из законопроектов Государственной Думы преобразуется в отдельную базу данных. Подобным образом возможно представить законотворчество как развивавшийся во времени процесс.

Кроме флажков <<...>>, в данном случае можно видеть флажки {...}. Имена ораторов: Председателя и Гейдена, - находятся в фигурных скобках {...}. Такими флажками программе ТАСТ указывалось на введение фамилий. Удобство способа разметки текста с помощью расстановки фигурных скобок - флажков состоит в том, что можно быстро создать модель содержания документа. В этом случае после образования базы из размеченного текста стенограмм программа автоматически показывает список всех ораторов в дебатах. При моделировании содержания стенограмм удобен язык Label Markup, так как он позволяет быстрее других обрабатывать большие объемы текста. В то же время, с его помощью нельзя дать широкое описание размеченных элементов, как в случае с языками COCOA или BYU. В конкретном источниковедческом исследовании стенограмм Думы потребности в них не возникает, так как ораторы не были организованы иерархически, а хронологические рамки заседаний единственной сессии были узкими - 72 дня. Кроме создания модели текста на встречаемости имен ораторов, для обработки стенограмм также определяется, какие элементы будут для программы счетчиками концов слов и предложений. Как правило, это точка, восклицательный и вопросительный знаки.

После создания полнотекстовой базы данных начинается управление и анализ полученного машиночитаемого источника. Создание запросов к базе имеет два этапа. Во-первых, можно выбрать слова из образованного частотного словаря-индекса их встречаемостей в тексте - как вручную, так и автоматически. Например, с использованием языка запросов к базе данных задаются вопросы следующего рода: показать все случаи встречаемости понятия "дворянство" рядом с оратором Гейденом (двор.*; when оратор=Гейден) или показать случаи, когда Председатель употреблял слова или выражения 37 и более раз (freq>=37; when оратор=Председатель). Команды подобного рода в TACT'е строятся с помощью библиотеки так называемого "языка операторов". Во-вторых, при запросе в одной из 5-ти форм определяется демонстрация результатов обработки: полный текст, KWIC[1] с заданным контекстом, INDEX, график распределений, таблица конфигураций слов. ТАСТ производит базы данных как из размеченных, так и неразмеченных языком семантических маркеров текстов. В его состав входит программа Collgen, которая позволяет автоматически находить в тексте языковые клише из 2 и более слов 2 и более раз - в зависимости от выдвинутой проблемы.

Подготовка объёмных нарративных источников, к которым относятся отчеты Думы, для компьютерного моделирования обычно начинается с получения оцифрованной версии документа. Этого можно достичь использованием трех вариантов. Во-первых, применение технологии сканирования и оптического распознания знаков. Ее весьма часто заменяют обозначением OCR - Optical Character Recognition. Использование сканера позволяет получать оцифрованное изображение документа. Оцифровка анализируется с помощью алгоритмического распознания знаков, что дает возможность преобразовывать исходный образ текста в машиночитаемый вид. Проблема применения данного варианта ввода источников в компьютер заключается в несовпадении результатов развития собственно сканирования, с одной стороны, и распознания получаемых образов, с другой. Сканирование, оптическая технология, как более доступные для разработки, позволяют осуществлять практически все виды работ, связанные с преобразованием лингвистических источников в машиночитаемые образы. Дальнейшая процедура преобразование образов собственно в машиночитаемый текст сталкивается со сложностью задачи распознания. По этой причине количество получаемых ошибок, в зависимости от качества источника, может превышать разумный порог в 5-10%, что приводит к необходимости обращения ко второму варианту получения машиночитаемого текста - вводу текста с клавиатуры. Данная альтернатива OCR имеет широкое распространение в кругах источниковедов, специалистов по исследованию текста. Наконец, кроме сканирования и ввода текста с клавиатуры существует возможность использования уже существующих машиночитаемых источников, подготовленных ранее для других целей. Как правило, они содержатся в фондах текстовых архивов. К числу наиболее известных относят International Computer Archive of Modern English at University of Bergen (ICAME) и Oxford Text Archive, основанные на коллекциях греческой, латинской и английской литературы. С 1976 года оксфордский архив занимается распространением электронных текстов среди заинтересованных лиц и организаций[2]. В Америке такие архивы имеются, в частности, в университетах Канзаса (MALIN), Маршалла (Byrd) и Государственном университете Миссисипи.

Развитие международных коммуникаций 1990-х годов в рамках Internet'а позволило историкам получить оперативный доступ в компьютерных сетях России к архивам исторических текстов в других государствах. Старейшим среди текстовых архивов, созданных для этой цели, считается Исторический архив текстов университета Миссисипи в США (The Historical Text Archive). В 1993 в Голландии возник Groningen Historical Electronic Text Archive (GHETA), который также поставил целью сделать машиночитаемые исторические тексты доступными через Internet. GHETA связана с международной ассоциацией "History & Comruting", голландским Архивом исторических данных, университетом Миссисипи, текстовым архивом в Оксфорде и другими историческим архивами, что позволяет получать данные из разных мест c помощью процедуры передачи файлов File Transfer Protocol (FTP)[3]. Подавляющее большинство западноевропейских и американских исторических организаций, занимающихся архивированием машиночитаемых текстов, связаны частью единой компьютерной сетью Internet'а под названием HNsource. Благодаря ей существует, например, возможность работать с большими базами данных на французском языке в рамках проекта ARTFL Чикагского университета. Его полнотекстовые базы содержат 2000 французских текстов XVII-XX веков: литературного, философского, научного характера, - а также коллекции отсканированных документов.

 

* * *



[1] KWIC - Key-Word-In-Context (Прим. ред.)

[2] Burnard L.D. Tools and Techniques for Computer- assisted Text Processing // C.S.Butler (ed.) Computers and Written Texts. Oxford UK & Cambridge USA. 1992. P.1-11.

 

[3] A Comprehensive Guide to Software and Other Resources. Oxford. 1991. P.532-536. 

Категория: Мои статьи | Добавил: Mainformer (03.11.2010)
Просмотров: 691 | Комментарии: 1 | Рейтинг: 0.0/0
Всего комментариев: 1
1 attinaNakHigO  
0
да, что-то на подобии этого

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]