Автоматическая обработка текста и лингвистическое моделирование как способы решения проблем атрибуционной лингвистики

: 1252

Хоменко А. Ю. Бенькович Е. Р. Гайнутдинова Д. И. Гасанова Л. Р. Костина А. А. Мазунина З. О. Николаева А. С. Пимонова Е. В.

Файл статьи:

DOI: 10.26170/pl20-03-22

Аннотация: В настоящей работе речь пойдет об апробации интегративной методики атрибуционного анализа текста на русском языке, основанной на соединении результатов интерпретативного исследования материала и объективации этих результатов посредством математической статистики. Исследование построено по следующему алгоритму: 1) автоматическое извлечение из текста параметров, описывающих идиостиль с точки зрения прагматикона, тезауруса и лексикона автора; 2) поиск традиционных стиметрических текстовых данных; 3) присвоение веса каждому параметру; 4) построение математических моделей сравниваемых текстов; 5) сравнение математических моделей с целью выявления уровня их корреляции между собой. Поиск параметров, описывающих модель авторского идиостиля, ведется на основании подхода к тексту как к продукту деятельности конкретной языковой личности. Языковая личность автора описывается с позиции подхода Ю. Н. Караулова. Автоматическое извлечение предустановленных параметров осуществляется с помощью алгоритмов, сконструированных на ЯП Python. Для апробации алгоритма использованы тексты нежанровой художественной прозы разной тематики с заведомо известным авторством: «Наши» С. Д. Довлатова и «Обертон» В. П. Астафьева. Исследованием доказана работоспособность разработанной методики

Ключевые слова: текстовая атрибуция; языковая личность; автоматическая обработка текста; математические модели; русский язык

Abstract: This paper focuses on the approbation of an integrative method of attribution text analysis in Russian, based on a combination of the results of an interpretive study of the material and objectification of these results through mathematical statistics. The study has been conducted according to the following algorithm: 1) automatic extraction of text parameters describing the idiostyle from the point of view of the author’s pragmaticon, thesaurus, and lexicon; 2) automatic search for traditional stylometric text data (length of sentences, words, etc.); 3) weight assignment to each parameter; 4) creation of mathematical models of compared texts; 5) comparison of mathematical models in order to identify the level of their correlation with each other. The search for parameters describing the authors’ individual style is carried out on the basis of the approach to the text as a product of a specific language personality. The author’s language personality is described according Yu. N. Karaulov’s approach. Automatic extraction of predefined parameters is performed using the algorithms designed in Python. To test the algorithm, texts of non-genre fiction of different themes and obviously known authorship were used: «Nashi» by S.D. Dovlatov and «The Overtone» by V.P. Astaf’iev. The study proves the efficiency of the methodology developed

Key words: text attribution; linguistic personality; automatic text processing; mathematical models; Russian

Для цитирования:

Хоменко, А. Ю. Автоматическая обработка текста и лингвистическое моделирование как способы решения проблем атрибуционной лингвистики / А. Ю. Хоменко, Е. Р. Бенькович, Д. И. Гайнутдинова, Л. Р. Гасанова, А. А. Костина, З. О. Мазунина, А. С. Николаева, Е. В. Пимонова // Политическая лингвистика. – 2020. – №3. – С. 215-224. DOI 10.26170/pl20-03-22.

For citation

Khomenko, A. Yu. Automatic Text Processing and Linguistic Modeling as Instruments for Solving Problems of Text Attribution / A. Yu. Khomenko, E. R. Ben'kovich, D. I. Gainutdinova, L. R. Gasanova, A. A. Kostina, Z. O. Mazunina, A. S. Nikolaeva, E. V. Pimonova // Political Linguistics. – 2020. – №3. – P. 215-224. DOI 10.26170/pl20-03-22.

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

Архив журнала