РЕПРЕЗЕНТАТИВНОСТЬ ЛИНГВИСТИЧЕСКОГО КОРПУСА: МЕТОД ВЕРИФИКАЦИИ ДОСТОВЕРНОСТИ ПОЛУЧЕННЫХ ДАННЫХ

: 1326

Рубрика: РАЗДЕЛ 3. ЯЗЫК — ПОЛИТИКА — КУЛЬТУРА

Файл статьи:

Аннотация: Настоящая статья обращена к актуальной проблеме оценки репрезентативности специализированного лингвистического корпуса, предполагающее включение в него необходимо-достаточного количества текстов, обеспечивающих решение исследовательских задач. Анализируется методика достижения репрезентативности корпуса, предложенная А. Н. Барановым. В основе данной методики лежит идея накопления и коррекции относительной частоты феномена, достигаемой в процессе сплошного отбора контекстов его употребления. Метод применим к специализированному корпусу, сформированному исследователем самостоятельно, путем сплошного отбора данных, содержащих исследуемый феномен. Предлагается метод верификации достоверности полученных при индексации корпуса данных, разработанный автором статьи. Метод опирается на закон текстового блока, в соответствии с которым лингвистические единицы (слова, буквы, синтаксические функции, конструкции и т. д.) демонстрируют определенное распределение частоты в одинаково больших текстовых блоках, на принципы итеративности и пропорциональности, а также на принцип вычисления цепного индекса (статистический индекс многошагового расчета, характеризующий изменение показателя по отношению к каждому предыдущему шагу — итерации). На первом этапе рассчитывается индекс достоверности по отдельным параметрам, затем средний индекс достоверности по итерации. На следующем этапе, после новой итерации, средние индексы сопоставляются. Предлагаемый метод обладает такими преимуществами, как обеспечение достижения репрезентативности корпуса, возможность регулировать его объем, а также простота в использовании

Ключевые слова: корпус; корпусная лингвистика; репрезентативность; метод верификации достоверности полученных данных

Abstract: The article addresses the current problem of evaluation of representativeness (reliability) of the specialized linguistic corpus. The requirement to representativeness of a specialized corpus implies the presence of the necessary number of texts that are enough to solve the research problems. The method of representativeness achievement worked out by A.N. Baranov is analyzed. The basis of the method is the idea of accumulation and correction of the relative frequency of the phenomenon achieved by continuous sampling of the contexts it is used in. The method can be applied to a specialized corpus made by the researcher himself by means of continuous sampling of the data with the necessary phenomenon. The method of verification of the received data is offered by the author of this article. The method is based on the law of test block (linguistic units (words, letters, syntactical functions, constructions, etc.) show certain frequency in the equally large text blocks), on the principle of iteration and proportion and on the principle of chain index (statistical index of multi-step calculation that characterizes the change of index compared to the previous step — iteration). On the first stage we calculate the index of reliability on certain parameters, then the index of reliability in iteration. On the next stage, after new iteration, the average indices are compared. The advantages of this method are representativeness of the corpus, the possibility of regulating the amount of data in the corpus and it is easy to work with

Key words: corpus; corpus linguistics; representativeness; method of verification of reliability of data

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

Архив журнала

РЕПРЕЗЕНТАТИВНОСТЬ ЛИНГВИСТИЧЕСКОГО КОРПУСА: МЕТОД ВЕРИФИКАЦИИ ДОСТОВЕРНОСТИ ПОЛУЧЕННЫХ ДАННЫХ

ИДИОМЫ СО ЗНАЧЕНИЕМ «ВЛАСТЬ» В СОВРЕМЕННОМ РОССИЙСКОМ ПОЛИТИЧЕСКОМ ДИСКУРСЕ

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006