Лингвистическое моделирование как основа для создания полуавтоматического атрибуционного алгоритма

: 1181

Хоменко А. Ю.

Файл статьи:

Аннотация: В статье речь идет об апробации интегративного атрибуционного алгоритма. Он основан на анализе идиостиля автора письменного текста методами интерпретативной лингвистики с последующей объективацией полученных данных с помощью математической статистики. Алгоритм решает идентификационную проблему атрибуции. Выбор параметров, описывающих индивидуальный стиль автора, основан на рассмотрении текста как продукта аутентичной языковой личности. Языковая личность описывается с использованием психолингвистических (Ю. Н. Караулов), социолингвистических и судебно-лингвистических (С. М. Вул, M. Coulthard, R. W. Shuy) методов. Для проверки гипотезы о том, что именно интегративная методика является наиболее эффективной при решении идентификационной задачи атрибуции, было создано электронное приложение «ХоРом», кумулирующее в себе описанные выше подходы к анализу языковой личности: http://khorom-attribution.ru/#/. С помощью ресурса можно сравнить две модели языковой личности и определить уровень их сходства посредством следующих метрик: коэффициента корреляции Пирсона, коэффициента детерминации линейной регрессии и t-критерия Стьюдента. Важно, что приложение также отображает интерпретируемую модель языковой личности, давая пользователю информацию о значении показателей каждого параметра. Система имеет обширный функционал, включая выбор параметров, просмотр реализации параметров в тексте документа и внесение изменений в окончательный список реализаций параметров (в случае неточности программы пользователь имеет возможность исправить ее работу вручную). Созданное программное обеспечение является лишь частью атрибуционного алгоритма. Полученные данные математической статистики необходимо анализировать экспертным путем с помощью разработанных для алгоритма методических рекомендаций. Эффективность методики доказана посредством ее апробации на текстах разного объема и жанровой отнесенности: был проанализирован ряд текстов художественного, публицистического, официально-делового, обиходно-бытового стилей. Для текстов всех дискурсов, кроме обиходно-бытового, разработанный алгоритм показал высокий уровень точности (F-мера от 0,8 до 1). Для улучшения работы алгоритма на текстах обиходно-бытового стиля автором исследования разработан ряд улучшений, планирующихся к внесению в алгоритм

Ключевые слова: атрибуция, языковая личность, автоматическая обработка текста, лингвистические модели, математические модели, атрибутивное программное обеспечение

Abstract: This paper discusses the testing procedure and results of an integrative attribution analysis algorithm. It is based on the analysis of the individual style of an author of a written text via the methods of interpretative linguistics and further objectification of the data received through the usage of mathematical statistics methods. The algorithm solves the identification problem of authorship attribution. The choice of the parameters describing the author’s individual style is based on the interpretation of the text as a product of an authentic linguistic personality. The linguistic personality is described using psycholinguistic (Yu. N. Karaulov), sociolinguistic and forensic linguistic (S. M. Vul, M. Coulthard, R. W. Shuy) methods. To test the hypothesis that it is the integrative method that is the most effective way of performing the identification task of attribution, the author has created the electronic software “KhoRom” accumulating the approaches to the analysis of a linguistic personality described above: http://khorom-attribution.ru/#/ . With the help of this program, one can compare two models of linguistic personality and determine the level of their similarity through the following metric values: Pearson's correlation coefficient, coefficient of determination of linear regression, and Student’s t-test. It is important that the application also reflects the model of the linguistic personality under interpretation, providing the user with information about the values of the indicators of each parameter. The system has extensive functionality including a multiple choice of parameters, an opportunity to view the realization of parameters in the text of the document and make changes in the final list of parameter realizations (in case of program inaccuracy, a user has the opportunity to correct its work manually). The software is only a part of the attribution algorithm. The mathematical statistics obtained should be analyzed by experts in accordance with the user manual developed for the algorithm. The effectiveness of the methodology was proved by testing it on texts of different volume and genres: fiction, journalistic, official, and colloquial styles were analyzed. The algorithm showed high level accuracy (F-score from 0.8 to 1) for texts of all kinds of discourse, except colloquial. To improve the work of the algorithm with colloquial texts, the author of the study has developed a number of improvements that are planned to be introduced into the algorithm

Key words: attribution, linguistic personality, automatic text procession, linguistic models, mathematical models, attribute software

Для цитирования:

Хоменко, А. Ю. Лингвистическое моделирование как основа для создания полуавтоматического атрибуционного алгоритма / А. Ю. Хоменко. — Текст : непосредственный // Политическая лингвистика. — 2022. — № 3 (93). — С. 90-100 // Политическая лингвистика. – 2022. – №3. – С. 90-100.

For citation

Khomenko A. Yu. (2022). Linguistic Modeling as a Basis for Creating Half-Automatic Authorship Attribution Algorithm. In Political Linguistics. No 3 (93), pp. 90-100. (In Russ.) // Political Linguistics. – 2022. – №3. – P. 90-100.

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

Архив журнала