DEVELOPMENT OF  THE ALGORITHM OF  KEYWORD SEARCH  IN THE KAZAKH  LANGUAGE TEXT  CORPUS

Akanova, А.; Ospanova, N.; Kukharenko, Y.; Abildinova, G.

dc.contributor.author	Akanova, А.
dc.contributor.author	Ospanova, N.
dc.contributor.author	Kukharenko, Y.
dc.contributor.author	Abildinova, G.
dc.date.accessioned	2024-12-02T06:11:04Z
dc.date.available	2024-12-02T06:11:04Z
dc.date.issued	2019
dc.identifier.issn	1729-4061
dc.identifier.other	DOI: 10.15587/1729-4061.2019.179036
dc.identifier.uri	http://rep.enu.kz/handle/enu/19534
dc.description.abstract	Питання семантичного аналiзу тексту займає осо- бливе мiсце в комп'ютернiй лiнгвiстицi. Дослiдники даної областi мають пiдвищений iнтерес до розробки алго- ритму, використання якого дозволить пiдвищити якiсть обробки корпусу тексту та ймовiрнiсне визначення змiсту тексту. Результати дослiдження застосувань методик, пiдходiв, алгоритмiв для семантичного аналiзу тексту у комп'ютернiй лiнгвiстицi в мiжнароднiй i казахстанськiй науцi призвели до розробки алгоритму пошуку ключових слiв в текстi казахською мовою. Першим етапом алго- ритму було складання еталонного словника ключових слiв для корпусу тексту українською мовою. Вирiшенням цiєї проблеми стало застосування алгоритму Портера (стем- мера) для корпусу текстiв казахською мовою. Реалiзацiя стеммера дозволила видiлити унiкальнi основи слiв i отри- мати еталонний словник, який згодом проiндексували. Наступний крок – це збiр навчальних даних iз корпусу текстiв. Для обчислення ступеня семантичної близькостi мiж словами кожному слову присвоюється вектор вiдпо- вiдних йому словоформ еталонного словника, в результа- тi якого виходить пара – ключове слово i вектор. I остан- нiм кроком алгоритму є навчання нейронних мереж. При навчаннi застосовується метод зворотного поширення помилок, що дозволяє провести семантичний аналiз кор- пусу тексту i отримати ймовiрнiсну кiлькiсть слiв, близь- ку до очiкуваної кiлькостi ключових. Цей процес дозволяє автоматизувати обробку текстового матерiалу шляхом створення цифрових навчальних моделей ключових слiв. Алгоритм використовується для розробки нейрокомп'ю- терної системи, що буде проводити автоматичну перевiр- ку текстових робiт учнiв онлайн курсiв. Унiкальнiстю алгоритму пошуку ключових слiв є застосування навчан- ня нейронної мережi для текстiв казахською мовою. У Казахстанi вченими в областi комп'ютерної лiнгвiсти- ки було проведено ряд дослiджень на основi застосування морфологiчного аналiзу, лемматизацiї та iнших пiдходiв i реалiзованi лiнгвiстичнi iнструменти (в основному слов- ники-перекладачi). Область застосування навчання ней- ронних мереж для синтаксичного аналiзу казахської мови залишається вiдкритим питанням в казахстанськiй науцi. Розроблений алгоритм передбачає вирiшення однiєї з проблем в отриманнi ефективного семантичного аналiзу тексту казахською мовою	ru
dc.language.iso	en	ru
dc.publisher	Eastern-European Journal of Enterprise Technologies	ru
dc.relation.ispartofseries	5;101
dc.subject	ключове слово	ru
dc.subject	алгоритм Портера	ru
dc.subject	семантичний аналiз	ru
dc.subject	нейронна мережа	ru
dc.title	DEVELOPMENT OF THE ALGORITHM OF KEYWORD SEARCH IN THE KAZAKH LANGUAGE TEXT CORPUS	ru
dc.type	Article	ru

Файлы в этом документе

Имя:: Development-of-the-algorithm-o ...
Размер:: 370.4Kb
Формат:: PDF

Открыть

Данный элемент включен в следующие коллекции

Energy[234]

Показать сокращенную информацию