Влияние психолингвистических факторов на эффективность автоматической рубрикации текста

Введение

Определение эффективности автоматической рубрикации документов выполняется путем сравнения результатов автоматической рубрикации с "правильной" эталонной рубрикацией, составленной независимыми аудиторами. Однако эталонная рубрикация может быть неточной, поскольку выбор релевантных рубрик является сложной задачей не только для автоматизированных систем, но и для людей.

Психолингвистические факторы

Точность экспериментальной оценки эффективности автоматической рубрикации ограничивают следующие психолингвистические факторы:

Сложность ориентации в больших классификаторах
Некомпетентность аудиторов в отдельных предметных областях
Отсутствие формальных критериев для определения важности рубрики
Затруднения при отнесении документа к конкретной рубрике
Субъективное восприятие релевантности рубрики документу

Недостаточность традиционных методов

Традиционно для определения эффективности используется сравнение автоматической рубрикации с эталонной, составленной одним аудитором. Однако такой подход некорректен, поскольку:

Исследование показало, что процент совпадения рубрик, поставленных разными экспертами на одни и те же документы, может быть низким (до 60%).
Эталонная рубрикация должна обеспечивать оценку релевантности рубрики документу, но этого обычно не происходит.

Усовершенствования

Для преодоления психолингвистических факторов предлагаются следующие усовершенствования экспериментальной методики:

Шкалирование релевантности: Релевантность рубрики должна оцениваться по шкале для каждого отнесения документа к рубрике. Это позволит выявить степень близости рубрики к ядру поля текста.
Многократная эталонная рубрикация: Одни и те же тексты должны рубрицироваться разными аудиторами, специалистами в различных предметных областях и возрастных группах. Это позволит учесть индивидуальные особенности аудиторов.
Статистический анализ: Сравнение результатов шкалирования рубрик различными аудиторами с величиной, полученной в результате автоматической рубрикации, должно производиться в соответствии с T-критерием Стьюдента, чтобы выявить статистически значимые различия.

Заключение

Точность традиционной экспериментальной оценки эффективности автоматической рубрикации текста ограничивается рядом психолингвистических факторов. Предложенные усовершенствования методики, учитывающие эти факторы, могут повысить точность оценки и обеспечить более надежные результаты.

Дальнейшие исследования

Для дальнейших исследований планируется:

Применить предлагаемую методику для оценки эффективности разрабатываемой автором системы автоматической рубрикации новостных сообщений.
Определить необходимое количество испытуемых, предметных областей, социокультурного статуса и возрастных групп аудиторов.
Проанализировать возможные зависимости между этими параметрами и мерами точности и полноты рубрикации.

Ключевые особенности усовершенствованной методики оценки эффективности автоматической рубрикации текста

Шкалирование релевантности

Релевантность рубрики документу оценивается по шкале для каждого отнесения документа к рубрике.
Эталонная рубрикация обеспечивает оценку релевантности рубрики документу, чего обычно не происходит в традиционных методах.
Шкалирование позволяет учесть индивидуальные особенности аудиторов и выделить ядро и периферию поля текста рубрик.

Многократная эталонная рубрикация

Одни и те же тексты рубрицируются разными аудиторами, специалистами в различных предметных областях и возрастных группах.
Учитываются индивидуальные особенности аудиторов, их компетентность в определенных областях и субъективное восприятие релевантности рубрики.
Многократная эталонная рубрикация повышает надежность и точность оценки эффективности автоматической рубрикации.

Статистический анализ

Сравнение результатов шкалирования рубрик различными аудиторами с величиной, полученной в результате автоматической рубрикации, производится в соответствии с T-критерием Стьюдента.
T-критерий позволяет выявить статистически значимые различия между результатами автоматической рубрикации и эталонной рубрикацией.
Статистический анализ обеспечивает более объективную и достоверную оценку эффективности.

Улучшение точности

Учет психолингвистических факторов, таких как субъективное восприятие релевантности рубрики, сложность ориентации в больших классификаторах и отсутствие формальных критериев для определения важности рубрики.
Шкалирование релевантности, многократная эталонная рубрикация и статистический анализ позволяют преодолеть эти факторы и повысить точность оценки эффективности автоматической рубрикации текста.