Abstract:
Питання семантичного аналiзу тексту займає осо-
бливе мiсце в комп'ютернiй лiнгвiстицi. Дослiдники даної
областi мають пiдвищений iнтерес до розробки алго-
ритму, використання якого дозволить пiдвищити якiсть
обробки корпусу тексту та ймовiрнiсне визначення змiсту
тексту. Результати дослiдження застосувань методик,
пiдходiв, алгоритмiв для семантичного аналiзу тексту у
комп'ютернiй лiнгвiстицi в мiжнароднiй i казахстанськiй
науцi призвели до розробки алгоритму пошуку ключових
слiв в текстi казахською мовою. Першим етапом алго-
ритму було складання еталонного словника ключових слiв
для корпусу тексту українською мовою. Вирiшенням цiєї
проблеми стало застосування алгоритму Портера (стем-
мера) для корпусу текстiв казахською мовою. Реалiзацiя
стеммера дозволила видiлити унiкальнi основи слiв i отри-
мати еталонний словник, який згодом проiндексували.
Наступний крок – це збiр навчальних даних iз корпусу
текстiв. Для обчислення ступеня семантичної близькостi
мiж словами кожному слову присвоюється вектор вiдпо-
вiдних йому словоформ еталонного словника, в результа-
тi якого виходить пара – ключове слово i вектор. I остан-
нiм кроком алгоритму є навчання нейронних мереж. При
навчаннi застосовується метод зворотного поширення
помилок, що дозволяє провести семантичний аналiз кор-
пусу тексту i отримати ймовiрнiсну кiлькiсть слiв, близь-
ку до очiкуваної кiлькостi ключових. Цей процес дозволяє
автоматизувати обробку текстового матерiалу шляхом
створення цифрових навчальних моделей ключових слiв.
Алгоритм використовується для розробки нейрокомп'ю-
терної системи, що буде проводити автоматичну перевiр-
ку текстових робiт учнiв онлайн курсiв. Унiкальнiстю
алгоритму пошуку ключових слiв є застосування навчан-
ня нейронної мережi для текстiв казахською мовою. У
Казахстанi вченими в областi комп'ютерної лiнгвiсти-
ки було проведено ряд дослiджень на основi застосування
морфологiчного аналiзу, лемматизацiї та iнших пiдходiв i
реалiзованi лiнгвiстичнi iнструменти (в основному слов-
ники-перекладачi). Область застосування навчання ней-
ронних мереж для синтаксичного аналiзу казахської мови
залишається вiдкритим питанням в казахстанськiй науцi.
Розроблений алгоритм передбачає вирiшення однiєї з
проблем в отриманнi ефективного семантичного аналiзу
тексту казахською мовою