Вероятностное моделирование в классификации коллекции документов

Халиуллина Лия Рауфовна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В настоящее время большой популярностью пользуются различные статистические методы обработки текста, в частности, вероятностное тематическое моделирование. В данной работе рассматриваются модели, использующиеся в задачах классификации коллекций документов. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации. Предложено решение в виде создания обучающей выборки путем нечеткой кластеризации. Описан алгоритм построения модели классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.

Введение …………………………………………………………………………………………………… 3
Постановка задачи …………………………………………………………………………………….. 5
Глава 1. Вероятностное тематическое моделирование ………………………………… 6
1.1. Основные понятия ………………………………………………………………………. 6
1.2. Модель PLSA ……………………………………………………………………………… 7
1.3. Модель LDA ……………………………………………………………………………….. 9
1.4. Аддитивная регуляризация тематических моделей …………………….. 12
1.4.1. Общий подход ……………………………………………………………………… 12
1.4.2. Разновидности регуляризаторов …………………………………………… 13
1.5. Метрики для оценки качества модели ………………………………………… 18
Глава 2. Предлагаемый алгоритм ……………………………………………………………… 20
3.1. Предварительная обработка текста ……………………………………………….. 22
3.2. Создание обучающей выборки и обучение классификатора ………….. 25
3.3. Оценка качества построенной модели и выводы …………………………… 30
Заключение …………………………………………………………………………………………….. 33
Список литературы ………………………………………………………………………………….. 34
Приложение …………………………………………………………………………………………….. 36

Быстрый рост потоков информации ставит не только вопрос её
хранения, но и задачу её систематизации и анализа. При работе с текстами
подобный анализ помогает извлечь необходимые сведения о настроении,
актуальности, тематике, а также является необходимой ступенью перед
последующими действиями вроде поиска, сравнения или категоризации.
Большой популярностью пользуются различные статистические методы
обработки текста, в частности, тематическое моделирование. Вероятностная
тематическая модель (probabilistic topic model) коллекции документов
представляет каждый документ в виде дискретного распределения
вероятностей тем, а каждую тему – в виде дискретного распределения
вероятностей слов (терминов). Построение вероятностной тематической
модели можно также описать как задачу одновременной кластеризации (би-
кластеризации) документов и слов по одному и тому же множеству кластеров,
называемых темами. Особенностью подобного моделирования является
осуществление «нечеткой кластеризации» (soft clustering), то есть документ
может принадлежать нескольким темам [2].

В данной работе рассмотрены некоторые вероятностные тематические
модели. Выделена проблема отсутствия готовой качественной обучающей
выборки для множественной классификации по относительно большому
количеству относительно небольших классов. Предложено решение в виде
создания обучающей выборки путем мягкой кластеризации через
вероятностно тематическую модель. Описан алгоритм построения
вероятностной тематической модели множественной классификации
коллекции документов с обучением на выборке, созданной в результате
предложенного решения.

Описанный в работе алгоритм показал хорошую работу, и модель можно
считать достаточно качественной.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    [telegram]

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Оксана М. Восточноукраинский национальный университет, студент 4 - ...
    4.9 (37 отзывов)
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политоло... Читать все
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политологии.
    #Кандидатские #Магистерские
    68 Выполненных работ
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет