Вам может быть интересно:
Архив журнала
РЕПРЕЗЕНТАТИВНОСТЬ ЛИНГВИСТИЧЕСКОГО КОРПУСА: МЕТОД ВЕРИФИКАЦИИ ДОСТОВЕРНОСТИ ПОЛУЧЕННЫХ ДАННЫХ
- 497
- Рубрика: РАЗДЕЛ 3. ЯЗЫК — ПОЛИТИКА — КУЛЬТУРА
- Файл статьи: PDF
Аннотация: Настоящая статья обращена к актуальной проблеме оценки репрезентативности специализированного лингвистического корпуса, предполагающее включение в него необходимо-достаточного количества текстов, обеспечивающих решение
исследовательских задач. Анализируется методика достижения репрезентативности корпуса, предложенная А. Н. Барановым. В
основе данной методики лежит идея накопления и коррекции относительной частоты феномена, достигаемой в процессе сплошного
отбора контекстов его употребления. Метод применим к специализированному корпусу, сформированному исследователем самостоятельно, путем сплошного отбора данных, содержащих исследуемый феномен. Предлагается метод верификации достоверности
полученных при индексации корпуса данных, разработанный автором статьи. Метод опирается на закон текстового блока, в соответствии с которым лингвистические единицы (слова, буквы, синтаксические функции, конструкции и т. д.) демонстрируют определенное распределение частоты в одинаково больших текстовых блоках, на принципы итеративности и пропорциональности, а также на принцип вычисления цепного индекса (статистический индекс многошагового расчета, характеризующий изменение показателя по отношению к каждому предыдущему шагу — итерации). На первом этапе рассчитывается индекс достоверности по отдельным параметрам, затем средний индекс достоверности по итерации. На следующем этапе, после новой итерации, средние индексы
сопоставляются. Предлагаемый метод обладает такими преимуществами, как обеспечение достижения репрезентативности корпуса, возможность регулировать его объем, а также простота в использовании
Ключевые слова: корпус; корпусная лингвистика; репрезентативность; метод верификации достоверности полученных данных
Abstract: The article addresses the current problem of evaluation of representativeness (reliability) of the specialized linguistic
corpus. The requirement to representativeness of a specialized corpus implies the presence of the necessary number of texts that are enough
to solve the research problems. The method of representativeness achievement worked out by A.N. Baranov is analyzed. The basis of the
method is the idea of accumulation and correction of the relative frequency of the phenomenon achieved by continuous sampling of the contexts it is used in. The method can be applied to a specialized corpus made by the researcher himself by means of continuous sampling of the
data with the necessary phenomenon. The method of verification of the received data is offered by the author of this article. The method is
based on the law of test block (linguistic units (words, letters, syntactical functions, constructions, etc.) show certain frequency in the equally
large text blocks), on the principle of iteration and proportion and on the principle of chain index (statistical index of multi-step calculation
that characterizes the change of index compared to the previous step — iteration). On the first stage we calculate the index of reliability on
certain parameters, then the index of reliability in iteration. On the next stage, after new iteration, the average indices are compared. The
advantages of this method are representativeness of the corpus, the possibility of regulating the amount of data in the corpus and it is easy to
work with
Key words: corpus; corpus linguistics; representativeness; method of verification of reliability of data