Подходи за подобяване на качеството на класифицилането на текст
Монография

Автор(и):  Цветанка Георгиева-Трифонова

ISBN978-619-208-366-3
Излязла от печат:  31.8.2023 г.
Брой страници:  224
Цена:  15 лв.

Съдържание:


Списък на използваните съкращения..................11

Увод....................................................................................13

Глава 1. Основни понятия и преглед
на подходите за класифициране
на текст и селектиране
на характеристики.......................................................21
1.1. Добиване на данни..................................................21
1.1.1. Същност на процеса
„добиване на данни“.................................................22
1.1.2. Методологии за изпълняване
на процеса „добиване на данни“...........................28
1.1.3. Задачи за добиване на данни........................30
1.1.4. Системи за добиване на данни.....................33
1.1.5. Видове системи за добиване на данни........35
1.1.6. Проблеми на добиването на данни.............35
1.1.7. Методи за добиване на данни.......................36
1.2. Добиване на данни от текст..............................38
1.2.1. Същност на процеса добиване
на данни от текст........................................................38
1.2.2. Характеристики на текстови документи
в колекция...................................................................39
1.2.3. Модел на векторното пространство............44
1.2.4. Класифициране на текст...............................50
1.2.5. Мерки за оценка на качеството
на класифицирането на текст.................................57
1.2.6. Текстов анализ на обратната
връзка с потребители................................................59
1.2.7. Прилагане на добиване на данни
от текст за систематични научни обзори.............62
1.3. Селектиране на характеристики.......................64
1.3.1. Същност на селектирането
на характеристики.....................................................65
1.3.2. Видове алгоритми за селектиране
на характеристики.......................................................
1.3.3. Прилагане на селектиране
на характеристики при класифициране
на текст.........................................................................70
1.3.4. Прилагане на селектиране
на характеристики от N-грами
от думи за класифициране на текст......................71
1.4. Изводи.........................................................................72

Глава 2. Подходи за подобряване
на качеството на класифицирането на текст
чрез селектиране на характеристики
и модифициране на VSM..........................................75
2.1. Метод за селектиране на характеристики
при класифициране на текст чрез изчисляване
на точковата взаимна информация........................76
2.1.1. Изследване на недостатъците
на точковата взаимна информация
по отношение на използването
ѝ за селектиране на характеристики
при класифициране на текст..................................78
2.1.2. Селектиране на характеристики
при класифициране на текст
чрез изчисляване на точковата
взаимна информация...............................................84
2.2. Подход за модифициране на теглата
от модела на векторното пространство
с помощта на lift мярката.........................................86
2.3. Подход за модифициране на теглата
от модела на векторното пространство
с помощта на точковата
взаимна информация.....................................................88
2.3.1. Дефиниране на модел на данните...............89
2.3.2. Процес на модифициране
на теглата от VSM за целите
на класифицирането на текст.................................96
2.4. Подход за модифициране
на теглата от модела на векторното
пространствос помощта на точковата
взаимна информация на N-грамите от думи........98
2.4.1. Дефиниране на модел на данните...............99
2.4.2. Процес на модифициране на теглата
от VSM с помощта на точковата взаимна
информация на N-грамите от думи....................100
2.5. Изводи .......................................................................102

Глава 3. Приложения на подходи
за подобряване на качеството
на класифицирането на текст
чрез модифициране на VSM...................................105
3.1. Текстов анализ на обратната връзка
с потребители за отзиви относно
онлайн магазини на български език...........................106
3.1.1. Създаване на набор от данни
за анализ на обратната връзка
с потребители на български език.........................107
3.1.2. Прилагане на алгоритми
за класифициране на текст
чрез различни класификатори..............................108
3.2. Продължаващо подпомагане
на систематичен научен обзор.................................120
3.2.1. Работна рамка за продължаващо
подпомагане на систематичен
научен обзор..............................................................121
3.2.2. Прилагане на алгоритми
за класифициране на текст
чрез различни класификатори..............................123
3.3. Приложение на подхода за модифициране
на модела на векторното пространство
от N-грамите от думи за къси текстове..............124
3.3.1. Изследване на методи за селектиране
на характеристики от N-грами от думи
за класифициране на текст.....................................125
3.3.2. Изследване на подобряването
на класифициране на текст,
базирано на N-грами от думи
с помощта на PMI мерки........................................133
3.4. Изводи........................................................................140

Глава 4. Експериментални изследвания
за оценяване на качеството
на класифицирането на текст
след модифицирано PMI-базирано
селектиране на характеристики............................143
4.1. Описание на наборите от данни.......................143
4.2. Анализ на резултатите
при различни класификатори....................................148
4.2.1. Резултати на F-мярката за K-NN
класификатор............................................................148
4.2.2. Резултати на F-мярката
за Decision tree класификатор...............................155
4.2.3. Резултати на F-мярката
за H2O’s Deep Learning класификатор................158
4.2.4. Резултати на F-мярката
за базирани на правила класификатори............162
4.3. Анализ на резултатите
при различните набори от данни.............................171
4.3.1. Набор от данни Customer_feedback_bg..........171
4.3.2. Набор от данни Reuters-21578.......................172
4.3.3. Набор от данни WebKB..................................173
4.3.4. Набор от данни Ling-Spam............................174
4.4. Изводи........................................................................180

Заключение....................................................................181

Литература....................................................................183

Приложения..................................................................201
Резултати за набора от данни Customer_feedback_bg
Резултати за набора от данни Reuters-21578
Резултати за набора от данни WebKB
Резултати за набора от данни Ling-Spam