А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 2 - Мои статьи - Каталог статей - Материалы по исторической информатике и методологии

Вторник, 14.05.2024, 00:57

Главная | Регистрация | Вход | RSS

Меню сайта

Категории раздела

Мои статьи [26]

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Форма входа

Поиск

Главная » Статьи » Мои статьи

А.Н. ПЕТРОВ КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА: ИСТОРИОГРАФИЯ МЕТОДА - Часть 2

Одной из интенсивно развивающихся отраслей использования машиночитаемых письменных источников в целях хранения и обработки является применение семантических языков разметки текста. Оно было обзорно рассмотрено выше на примере стенограмм. Первоначально понятие разметки текстов использовалось для описания ссылок и других отметок в тексте как инструкция для наборщика или машинистки по правилам печати и оформления. После того, как создание текстов было компьютеризовано, понятие разметки было расширено для обозначения всех кодов, вставленных в электронные тексты для управления форматированием, печатью и прочими видами обработки. В этом смысле разметка является кодировкой для ясного указания на то, как следует понимать текст. Удобство данного вида работы с электронными текстами состоит в том, что можно изменять коды без изменения источника. Язык разметки указывает правила кодирования документа, правила отличия знаков кода от знаков текста и что коды означают. Все языки разметки основаны на трех основных положениях.

Во-первых, на самом примитивном уровне все тексты без исключения состоят из линий символов. Например, из букв или байтов данных, пометок на страницах или графики. Они получили название "явления". По сути, это минимальная частица текста типа слова или точки, рассматриваемая вне зависимости от структурной или категориальной классификации. В базе данных из свободного текста "явления" представлены набором байтов для хранения и обработки.

Во-вторых, на следующем уровне абстракции всякий текст рассматривается как совокупность объектов различного свойства. Данные объекты появляются в тексте закономерно в определенном отношении к прочим объектам. Объекты могут включать друг друга, иметь связи или быть последовательно представлены. На этом уровне описания текст составлен из структурно определенных объектов, называющихся "элементами". Однако тексты не являются простой чередой слов или байтов. Они содержат примеры объектов, такие как параграфы, заголовки, имена, даты, представленные последовательностью "явлений". Все схемы разметки текстов, в большей или меньшей степени, направлены на описание этих компонентов. Рассмотрение схем указывает по крайней мере три важных аспекта текстовых объектов, которые нуждаются в распознании. Прежде всего, это "протяжение" - позиции в текстовом потоке, на которых формы объекта начинаются и заканчиваются; за ними следует "тип" - категория, которой предназначены формы объекта, после которой возникает "контекст" - связи текстовых объектов с формами другого объекта в документе.

Таким образом, и в-третьих, "тип документа" получается на основе грамматики, определяющей правила объединения классов текста. Подобным образом природа текста представляется как упорядоченная иерархия объектов содержания. Различаются два основные типа языка разметки текстов: процедурный и описательный. Процедурный язык состоит из знаков, которые изначально ясно указывали на то, как размеченные элементы текста должны быть распечатаны. Документы, размеченные процедурным языком, обыкновенно имеют начальную секцию, заголовок, который иногда хранится в отдельном файле. Заголовок определяет характер знаков, допущенных для описания текста, и значки, указывающие на отличие знаков процедурного языка от текста источника- оригинала. В подавляющем большинстве случаев используются значки {...}, \...\, <...>. Заголовки также могут содержать заданные пользователем условные символы, с помощью которых сложные последовательности знаков процедурного языка могут сокращаться для легкости использования. Подобная разметка текста требует специального программного обеспечения, которое изначально разрабатывалось для издательских целей. Различие между процедурным и описательным языками заключается в том, что описательный язык определяет скорее элементы и характерные черты документа, чем процедуры обработки. Задачей этого языка является определение различных феноменов в тексте, например, параграфов, предложений, действующих лиц. Данное различие описательного и процедурного языков рассмотрено в работах специалистов в области лингвистики и компьютерных технологий, гипертекста, гипермедиа, глобальных компьютерных сетей.

Остановимся несколько более подробно на выдвинутой общей теории разметки текста. Всякий раз, когда автор пишет что-либо, он размечает текст. К разметке относится промежутки между словами, отмечающие их границы, запятые, отмечающие границы фраз или точки, отмечающие границы предложений. Обыкновенно, автор постоянно использует два типа разметки текста в рукописи: пунктуационный и презентационный. Под рукописью будем понимать любой вид текста. Пунктуационный язык разметки текста, например, указывает на концы предложений с помощью пробела. Презентационный язык может содержать, для сравнения, нумерацию страниц рукописи. Приведенные два типа разметки текста не могут быть игнорированы из-за того, что на них построена вся система европейского письма, русского в частности. Пунктуационный язык разметки текста состоит из набора средств, обеспечивающих первичную синтаксическую информацию о написанных высказываниях. Из-за относительной стабильности пунктуации она доступна для большинства читателей. Однако ее характеризуют сложность в использовании в зависимости от стилистических вариаций авторов. Социальное разнообразие пунктуации делает язык богаче, чем усложняет компьютерную обработку текста. Презентационный язык, по сравнению с пунктуационным, имеет подчиненный характер. С его помощью делается ясное представление текста. Он включает в себя горизонтальные и вертикальные границы текста, номера томов и страниц, цитат и примечаний, а также указания на концы страниц или специальные символы. Пунктуационный и презентационный языки относятся к разряду естественных. К разряду электронных языков разметки отнесены языки описания полнотекстовых баз данных, хранящих информацию в машиночитаемом виде: процедурный, описательный, референциальный и метаязык. Разработчики теории семантических языков делали ставку, прежде всего, на их создание и использование.

Упомянутый ранее процедурный язык в компьютерный системах обработки текстов заменил презентационный. Процедурный язык часто стал набором компьютерных команд, определяющих, каким образом следует форматировать текст в конкретных программах. Принцип использования описательного языка изложен выше. Остановимся на референциальном языке. Он обращен к задаче замены пунктуации на ее описание, например "точка" вместо "." или "тире" вместо "-". Это может упростить процедуру компьютерную интерпретации текстов, отличающихся разнообразием пунктуации. Референциальный язык также использует библиотеки замен, хранимых в отдельном файле или другой компьютерной системе. Строго говоря, в этом он сближается с описательным языком. Наконец, метаязык предоставляет пользователю возможность контролировать и интерпретировать все языки обработки текстов.

Для историков, имеющих целью анализ текста, более всего подходит описательный язык. Документы, размеченные описательным языком, также как и закодированные с помощью процедурного, имеют заголовок, содержащий допущенные знаки описания[1]. Однако знаки разных описательных языков могут отличаться от процедурного и между собой. Для того, чтобы было возможно переформулировать тексты, размеченные разными языками, существует метаязык Standard Generalized Markup Language (SGML) - стандартный обобщенный язык разметки. В середине 1980-ых SGML как инструмент текстологии получил официальное признание Международной Организацией Стандартов. В 1987 для простоты использования электронных текстов в исследованиях возник международный научный проект Text Encoding Initiative (TEI)[2]. Для стандартизация обработки электронных источников TEI использует SGML[3].

Среди разработчиков большинства программ обработки текстов преобладали математики и лингвисты, из-за которых программное обеспечение стало отвечать прежде всего задачам лингвистического и литературного анализа[4]. Проблема историчности текстов разработчиками не ставилась и не решалась. Поэтому конкретно историческое изучение текстовых источников с помощью компьютерного контент-анализа обычно сопровождается классической научной критикой: определением временных и пространственных факторов, прямо и косвенно присутствующих в документах, их социальной направленности, общественного контекста возникновения источника, изменением смыслового содержания понятия во времени, "эзопова языка", - то есть учетом совокупности факторов, лежащих за пределами вычислительной лингвистики. В этом случае большую роль начинают играть исследования по теории и практике аргументации, риторике, социальной семиотике, психолингвистике, лингвистической семантике, прагмалингвистики и теории массовой коммуникации[5]. Разметка текста языками семантических маркеров не может полностью решить задачи анализа социальной информации. В исторической науке компьютерный анализ текста развивается одновременно с источниковедением в области машиночитаемых документов, основной проблемой которого следует назвать правильное создание и использование формализованных данных, среди которых интерес для текстологии представляют полнотекстовые базы данных[6]. Понятие "анализ текста" в большинстве случаев использовалось историками-клиометристами для обозначения всего, что не является просто поиском в документе и проверкой правописания. Среди формальных методов обработки исторических текстов на первом месте обычно упоминается контент-анализ.

[1] Coombs J.H. Markup Systems and the Future of Scholarly Text Processing in Communications of the ACM. Vol. 30. № 11 (November, 1987). P. 933-947; Katzeff C. System Demands on Mental Models for a Fulltext Database in International Journal of Man-Machine Studies. 1990. N32. P. 483- 509.

[2] Computers and the Humanities. Vol. 29. № 1. 1995. The Text Encoding Initiative: Background and Contexts.

[3] International Standards Organization (ISO): 8879: Information Processing: Text and Office Systems: Standard General Markup Language (SGML). Geneva. 1986; ISO/TR 9573: Information Processing - SGML Support Facilities - Techniques for Using SGML (ISO,1988); C.M.Sperberg- MacQueen and L.D. Burnard (eds.) Guidelines for the Encoding and Interchange of Machine-Readable Texts. Edn. P1. Oxford. 1990. Ch. 2; L.D. Burnard. What is SGML and How Does it Help? // D.I. Greenstein. Modelling Historical Data. St. Katharinen. 1991. P. 65-80; Goldfarb C. The SGML Handbook. Oxford. 1991; van Herwijnen E. Practical SGML. Kluwer. 1990.

[4] The Computer & Literary Style: Introductionary Essays and Studies. Ed. by J. Leeds. Kent. Ohio. 1966; Meadow C.T. Text Information Retrieval Systems. San Diego. 1992; Wood J. European Directory of Text Retrieval Software. Aldershot. 1993; Sabourin C.F. Computational Linguistics in Information Science: Information Retrieval (Full Text or Conceptual), Automatic Indexing, Text Abstraction, Content Analysis, Information Extraction, Query Languages. Bibliography. Montreal. 1994; Автоматизация обработки текста. НТИ. Сер.2. 1981. № 2.

[5] Брутян Г.А. Аргументация. Ереван. 1984.; Тартуский Государственный Университет. Труды по знаковым системам. XVII. Вып. 641. Структура диалога как принцип работы семиотического механизма...; Представление знаний и моделирование процессов понимания. Новосибирск.1980; Павиленис Р.И. Проблема смысла. Современный логико- философский анализ языка. М.,1983; Лурия А.Р. Язык и сознание. М., 1979; Рациональность, рассуждения, коммуникация. Киев, 1987; Семиотика. М., 1983. С. 37-89, 118-482, 488; Язык и мышление. М., 1967. С. 17, 18, 34, 35, 37, 65; Панфилов В.З. Логика и грамматика. М., 1963. С. 3, 224, 232, 228; Семиотика, коммуникация, стиль. М., 1983. С. 37-83, 91; Язык, идеология, политика. ИНИОН. М., 1982; Прагматика и семантика. ИНИОН. М., 1991.

[6] Clubb J.M. Computer Technology and the Source Materials of Social History in Social Science History. 1986. № 10. P. 97-114; Greenstein D.I. Historians as Producers or Consumers of Standard – Conformant, Full-Text Datasets? Some Sources of Modern History as a Test Case in Greenstein. Modelling Historical Data. P. 179-194; Greenstein D.I. A Historian's Guide to Computing. Oxford, 1994. P. 158-199; Zweig R.W. Virtual records and Real History // History and Computing. 1992. № 4. P. 174-182.

Категория: Мои статьи | Добавил: Mainformer (03.11.2010)

Просмотров: 608 | Комментарии: 1 | Рейтинг: 0.0/0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Материалы по исторической информатике и методологии истории