Машиночитаемые источники естественного языка, которыми для
квантитативных источниковедения и текстологии являются полнотекстовые базы
данных, представляют язык в оцифрованном виде. Электронный текст существует как
набор кодов. Можно говорить о 209 страницах дебатов в I Государственной Думе
или о 870 килобайтах стенограмм. Одной из наиболее известных среди историков
программ, реализующих работу с электронным текстом, является TACT. В настоящее
время большинство систем обработки полнотекстовых баз данных в состоянии
распознать такие элементы как слова, строки и параграфы без указания
исследователя. Ряд рутинных операций решается программным путем, например,
автоматическое составление списка всех слов текста с указанием частот их
встречаемостей в источнике, поиск слов и контекста, вывод на печать. Работа с
ТАСТ'ом имеет ряд последовательных этапов. Первоначально исследователь должен
преобразовать текстовый файл в текстовую базу данных. Как правило, исходный
текст должен быть в формате ASCII (ISO-646). На стадии преобразования
необходимо проделать две операции. Во-первых, задать русский алфавит.
Во-вторых, использовать описательный язык разметки документа: перечислить
символы разметки стенограмм и указать ими строение документа. Рассмотрим
образец разметки стенограмм первой Думы (1906) символами- флажками описательного
языка Label Markup.
<<271
Сессiя I, заседанiе 6. 8 V 1906 г.>>
<<Голосъ. Сегодня надо оповестить.
Острогорскiй. Тогда придется отложить до
послезавтра.>>
{Председатель}. Въ виду сделанных заявленiй, я
сделаю собра нiе
отделовъ послезавтра. Этотъ вопросъ решенъ.
Затемъ имею честь
доложить Государственной Думе...
Гр.{Гейденъ}. Будетъ ли завтра заседанiе?
Можно видеть, что части текста взяты в кавычки
<<...>>. Флажки означают, что программа будет игнорировать при
анализе стереотипное указание в шапке каждой страницы стенограмм на
неизменявшиеся страницу, сессию, заседание и число. Из индексов также
исключаются реплика анонима и Острогорского на странице 271, которые не имеют
отношения к законодательству. При анализе эти части текста сохраняются в
полнотекстовой базе стенограмм, но слова из них не входят в словарь, то есть не
проиндексированы. Особенностью думской деятельности, как и деятельности прочих
законодательных органов представительного характера, являлось смешение в ходе работы
законодательства, текущих проблем избирателей и процессуальных вопросов.
Например, в перерывах для подсчета результатов голосования о выборах в комиссии
обсуждались планы дальнейших заседаний, отчет комиссии по Белостокскому погрому
и многое другое. Довольно часто на одной странице стенографических отчетов
располагалось обсуждение нескольких несвязанных между собой вопросов. Поэтому
важной задачей при подготовке материалов законодательных прений для анализа и
управления является выделение нужной информации. Для создания полнотекстовой
базы первой Думы берутся страницы стенографических отчетов с обсуждением
законодательства. Попутные законодательству дебаты размечаются так, чтобы они
сохранялись для просмотра, но исключались при анализе и управлении. Каждый из
законопроектов Государственной Думы преобразуется в отдельную базу данных.
Подобным образом возможно представить законотворчество как развивавшийся во
времени процесс.
Кроме флажков <<...>>, в данном случае можно
видеть флажки {...}. Имена ораторов: Председателя и Гейдена, - находятся в
фигурных скобках {...}. Такими флажками программе ТАСТ указывалось на введение
фамилий. Удобство способа разметки текста с помощью расстановки фигурных скобок
- флажков состоит в том, что можно быстро создать модель содержания документа.
В этом случае после образования базы из размеченного текста стенограмм
программа автоматически показывает список всех ораторов в дебатах. При
моделировании содержания стенограмм удобен язык Label Markup, так как он позволяет
быстрее других обрабатывать большие объемы текста. В то же время, с его помощью
нельзя дать широкое описание размеченных элементов, как в случае с языками
COCOA или BYU. В конкретном источниковедческом исследовании стенограмм Думы
потребности в них не возникает, так как ораторы не были организованы
иерархически, а хронологические рамки заседаний единственной сессии были узкими
- 72 дня. Кроме создания модели текста на встречаемости имен ораторов, для
обработки стенограмм также определяется, какие элементы будут для программы
счетчиками концов слов и предложений. Как правило, это точка, восклицательный и
вопросительный знаки.
После создания полнотекстовой базы данных начинается
управление и анализ полученного машиночитаемого источника. Создание запросов к
базе имеет два этапа. Во-первых, можно выбрать слова из образованного частотного
словаря-индекса их встречаемостей в тексте - как вручную, так и автоматически.
Например, с использованием языка запросов к базе данных задаются вопросы
следующего рода: показать все случаи встречаемости понятия
"дворянство" рядом с оратором Гейденом (двор.*; when оратор=Гейден)
или показать случаи, когда Председатель употреблял слова или выражения 37 и
более раз (freq>=37; when оратор=Председатель). Команды подобного рода в
TACT'е строятся с помощью библиотеки так называемого "языка операторов".
Во-вторых, при запросе в одной из 5-ти форм определяется демонстрация
результатов обработки: полный текст, KWIC с
заданным контекстом, INDEX, график распределений, таблица конфигураций слов.
ТАСТ производит базы данных как из размеченных, так и неразмеченных языком семантических
маркеров текстов. В его состав входит программа Collgen, которая позволяет автоматически
находить в тексте языковые клише из 2 и более слов 2 и более раз - в зависимости
от выдвинутой проблемы.
Подготовка объёмных нарративных источников, к которым
относятся отчеты Думы, для компьютерного моделирования обычно начинается с получения
оцифрованной версии документа. Этого можно достичь использованием трех
вариантов. Во-первых, применение технологии сканирования и оптического
распознания знаков. Ее весьма часто заменяют обозначением OCR - Optical
Character Recognition. Использование сканера позволяет получать оцифрованное
изображение документа. Оцифровка анализируется с помощью алгоритмического
распознания знаков, что дает возможность преобразовывать исходный образ текста
в машиночитаемый вид. Проблема применения данного варианта ввода источников в
компьютер заключается в несовпадении результатов развития собственно сканирования,
с одной стороны, и распознания получаемых образов, с другой. Сканирование,
оптическая технология, как более доступные для разработки, позволяют
осуществлять практически все виды работ, связанные с преобразованием
лингвистических источников в машиночитаемые образы. Дальнейшая процедура
преобразование образов собственно в машиночитаемый текст сталкивается со
сложностью задачи распознания. По этой причине количество получаемых ошибок, в
зависимости от качества источника, может превышать разумный порог в 5-10%, что
приводит к необходимости обращения ко второму варианту получения машиночитаемого
текста - вводу текста с клавиатуры. Данная альтернатива OCR имеет широкое
распространение в кругах источниковедов, специалистов по исследованию текста.
Наконец, кроме сканирования и ввода текста с клавиатуры существует возможность
использования уже существующих машиночитаемых источников, подготовленных ранее
для других целей. Как правило, они содержатся в фондах текстовых архивов. К
числу наиболее известных относят International Computer Archive of Modern
English at University of Bergen (ICAME) и Oxford Text Archive, основанные на коллекциях
греческой, латинской и английской литературы. С 1976 года оксфордский архив
занимается распространением электронных текстов среди заинтересованных лиц и
организаций. В Америке такие архивы
имеются, в частности, в университетах Канзаса (MALIN), Маршалла (Byrd) и Государственном
университете Миссисипи.
Развитие международных коммуникаций 1990-х годов в рамках
Internet'а позволило историкам получить оперативный доступ в компьютерных сетях
России к архивам исторических текстов в других государствах. Старейшим среди
текстовых архивов, созданных для этой цели, считается Исторический архив
текстов университета Миссисипи в США (The Historical Text Archive). В 1993 в
Голландии возник Groningen Historical Electronic Text Archive (GHETA), который
также поставил целью сделать машиночитаемые исторические тексты доступными
через Internet. GHETA связана с международной ассоциацией "History &
Comruting", голландским Архивом исторических данных, университетом
Миссисипи, текстовым архивом в Оксфорде и другими историческим архивами, что
позволяет получать данные из разных мест c помощью процедуры передачи файлов
File Transfer Protocol (FTP).
Подавляющее большинство западноевропейских и американских исторических
организаций, занимающихся архивированием машиночитаемых текстов, связаны частью
единой компьютерной сетью Internet'а под названием HNsource. Благодаря ей
существует, например, возможность работать с большими базами данных на
французском языке в рамках проекта ARTFL Чикагского университета. Его
полнотекстовые базы содержат 2000 французских текстов XVII-XX веков:
литературного, философского, научного характера, - а также коллекции
отсканированных документов.
* * *
KWIC - Key-Word-In-Context (Прим. ред.)
Burnard L.D. Tools and Techniques for
Computer- assisted Text Processing // C.S.Butler (ed.) Computers and Written
Texts. Oxford UK & Cambridge USA. 1992. P.1-11.
|