назад

Труды международной научно-технической конференции"Научные основы высоких технологий", Т. 2, стр. 210-211, Новосибирск, сентябрь, 1997 г.

ОБНАРУЖЕНИЕ АССОЦИАТИВНЫХ ВЗАИМОСВЯЗЕЙ МЕЖДУ ПОЛЯМИ В БАЗАХ ДАННЫХ С ПОМОЩЬЮ МОДЕЛИ НЕЙРОННОЙ СЕТИ

А.В. Гаврилов, В.М. Канглер, М.Н. Катомин, А.И. Коротенко

Новосибирский государственный технический университет, кафедра Вычислительной техники

Задача обработки данных с целью выявления в них новых знаний является в настоящее время одной из самых актуальных задач инженерии знаний. Одним из перспективных подходов к ее решению яв-ляется применение искусственных нейронных сетей. Этот подход позволяет использовать способность нейронных сетей к обучению для обнаружения скрытых закономерностей в виде повторяющихся ассоциаций в базах данных. Эти выявленные ассоциации можно интерпретировать по разному в зависимости от содержания базы данных - как причинно-следственные связи, как набор сопутствующих факторов, которые мож-но рассматривать как один сложный фактор и т.п.

При применении нейронных сетей для выявления ассоциаций в базах данных необходимо решить следующие задачи:

Анализ показал, что наиболее адекватной поставленной задаче моделью нейронной сети является модель Хопфилда с алгоритмом обучения обратным распространением ошибки. Выбор информативных полей зависит от :

В общем случае преобразование значений полей базы данных в двоичный вектор и обратно является весьма не тривиальной задачей. С символьными ( текстовыми ) значениями все относительно просто. На этапе обучения сети составляется словарь значений каждого i-го поля и каждому его j-му значению ставится в соответствие двоичное число k ( i, j). Трудности появляются при кодировании численной информации. При кодировании численных полей возможны следующие варианты:

Первый вариант эффективен в случае ограниченного количества повторяющихся значений поля. Это возможно, например, при использовании полей "количество детей сотрудника", "стаж работы" и т.п.. При использовании этого метода кодирования необходимо переносить отноше-ние частичного порядка на множестве кодируемых чисел на множество получаемых двоичных векторов.

Второй метод применим при небольшом количестве численных полей, т.к.. для обработки большого количества полей необходима нейронная сеть очень большой размерности.

Кодирование интервалов применимо тогда, когда с точки зрения решаемой задачи диапазон значений поля естественным образом разбивается на интервалы.

Применение лингвистической переменной оправдано тогда, когда лингвистические переменные используются и для логической обработки знаний, т.к. велики накладные расходы на их хранение в памяти компьютера и создание описания лингвистической переменной. Это возможно, например, в "двухполушарных" экспертных системах, архитектура ко-торых предложена в [1,2].

В настоящее время реализован макетный образец программы POASS в MS DOS для обнаружения ассоциативных связей между полями в DBF-файлах. В ней реализован первый метод преобразования численной информации из перечисленных выше, практически ничем не отличающийся от преобразования символьной информации. Программа реализована на языках PDC-Prolog и C. Находится в стадии реализации версия программы в среде Windows'95 на языке Borland C++. Контакты по телефону (3832)-46-02-19 и email : avg@osilab.cs.nstu.ru

Литература.

[1] Гаврилов А.В. Архитектура "двухполушарной" экспертной системы. // В сб. "Системы искусственного интеллекта" под ред. А.ВГаврилова, Новосиб. гос. тех. университет. - Новосибирск, 1993. - С. 10.

[2] Гаврилов А.В., Новицкая Ю.В. Архитектура "двухполушарной" экспертной системы. // В сб. "Кибернетика и ВУЗ. Интеллектуальные информационные технологии", Вып. 28. Томский политех. Унив.. - Томск, 1994. - С. 8.