Вероятностно-статистические модели в производстве автороведческой экспертизы русскоязычных текстов

: 897

Файл статьи:

DOI: 10.26170/pl19-02-18

Аннотация: В статье представлен опыт разработки компьютеризованной модели авторизации текста и ее адаптации к нуждам идентификационной и диагностической автороведческой экспертизы русскоязычных текстов. Цель исследования —— продемонстрировать возможности идентификационного автороведческого экспертного исследования текстов посредством автоматической обработки текстов на основе комплексного применения вероятностно-статистических методов. Описан очередной этап апробации усовершенствованной версии программы «КАТ» (компьютерная авторизация текста) —— эксперимент по определению относительных частот соотношения тех или иных языковых элементов (вычислению коэффициентов корреляции) в нескольких выборках из сравниваемых текстов по комплексу разноуровневых параметров — коэффициентам Б. Н. Головина, дополненному существующими в научной практике и прикладной сфере индексами понятности текста («индекс Флеша — Кинкейда», «FOG-индекс») и рядом других параметров. Материалом исследования являются первичные базы данных текстов русской классики (произведений Л. Н. Толстого, Н. В. Гоголя, И. С. Тургенева). В результате экспериментального исследования были выработаны следующие критерии идентификации авторства: считать текст принадлежащим автору, если коэффициент корреляции текста с существующей базой больше 0,87, т. е. в качестве доверительного интервала принять интервал 0,87—1,0; считать текст не принадлежащим автору, если коэффициент корреляции текста с существующей базой меньше 0,82; учесть, что точность работы программы увеличивается с возрастанием объема текстов в базе. Под базой понимается средний показатель, исчисленный по всем текстам, с достоверностью атрибутированным как принадлежащие данному автору. В случае успешной доводки предложенной программы автоматической обработки текстов «КАТ» с ее помощью можно будет решать экспертные задачи по авторизации и диагностике спорных текстов, реализованных в пространстве медийного и политического дискурсов, в юридической, официально-деловой и коммерческой документации и пр

Ключевые слова: судебное автороведение; автороведческая экспертиза; авторизация текстов; автоматическая обработка текстов; вероятностно-статистическая методика; русский язык

Abstract: The article presents the experience of developing a computerized text authorization model and its adaptation to the needs of identification and diagnostic authoring expertise of Russian texts. The purpose of the study is to demonstrate the possibilities of identification authoring expert examination of texts through automatic text processing based on the integrated application of probabilistic-statistical methods. The article describes one more stage of testing an improved version of the CAT program (computerized text authorization) – an experiment to determine the relative frequencies of the ratio of certain linguistic elements (calculation of correlation coefficients) in several samples of compared texts using a set of different-level parameters —— B.N. Golovin’s coefficients, supplemented by the text clarity indexes existing in scientific practice and applied field (“Flesch-Kincaid Index”, “FOG-Index”) and a number of other parameters. The research materials consist of primary databases of texts of Russian classics (works by L.N. Tolstoy, N.V. Gogol, I.S. Turgenev). As a result of the experimental study, the following criteria for identifying authorship were developed: the text is considered to belong to the author, if the correlation coefficient of the text with the existing base is greater than 0.87, i.e. the interval 0.87-1 should be taken as a confidence interval; the text is assumed not to belong to the author, if the correlation coefficient of the text with the existing base is less than 0.82; we should note that the accuracy of the program increases with longer texts in the database. The author defines a base as the average indicator, calculated for all texts, certainty known as belonging to this author. In case of successful refinement of the proposed CAT automatic text processing program, it will be possible to solve expert problems of authorization and diagnostics of contentious texts produced in the space of media and political discourses, in legal and official business, commercial documentation, etc

Key words: forensic authoring; authoring expertise; text authoring; automatic text procession, probabilisticstatistical method; Russian language

Для цитирования:

Радбиль, Т. Б. Вероятностно-статистические модели в производства автороведческой экспертизы русскоязычных текстов / Т. Б. Радбиль, М. В. Маркина // Политическая лингвистика. – 2019. – №2. – С. 156-166. DOI 10.26170/pl19-02-18.

For citation

Radbil', T. B. Probabilistic-Statistical Models in Conducting Authoring Expertise of Russian Texts / T. B. Radbil', M. V. Markina // Political Linguistics. – 2019. – №2. – P. 156-166. DOI 10.26170/pl19-02-18.

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

Архив журнала