Эвристические методы подбора количества базисных функций

Автор работы: Пользователь скрыл имя, 07 Ноября 2013 в 14:00, лекция

Описание работы

Подбор количества базисных функций, каждой из которых соответствует один скрытый нейрон, считается основной проблемой, возникающей при решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов, в числе которых размерность задачи, объем обучающих данных и, прежде всего, – пространственная структура аппроксимируемой функции.

Файлы: 1 файл

Эвристика.doc

— 95.50 Кб (Скачать файл)

Эвристические методы подбора количества базисных функций

Подбор количества базисных функций, каждой из которых соответствует  один скрытый нейрон, считается основной проблемой, возникающей при решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов, в числе которых размерность задачи, объем обучающих данных и, прежде всего, – пространственная структура аппроксимируемой функции. Как правило, количество базисных функций k составляет определенную долю от объема обучающей выборки P, причем фактическая величина этой доли зависит от размерности вектора X и от разброса ожидаемых значений d(p), соответствующих входным векторам X (p), для p = 1, 2, …, P.

Вследствие невозможности  априорного определения точного количества скрытых

нейронов применяются адаптивные методы, позволяющие добавлять или  удалять их в

процессе обучения.

Как правило, обучение сети начинается при каком-либо изначально принятом количестве нейронов, а впоследствии контролируется как степень уменьшения среднеквадратичной погрешности, так и изменение значений подбираемых параметров сети. Если среднее изменение значений весов после определенного числа обучающих циклов слишком мало

      (7.4.25)

где ε – некоторая малая наперёд заданная положительная величина, добавляются две базисные функции (2 нейрона) с центрами, соответствующими наибольшей и наименьшей погрешности адаптации, после чего обучение расширенной таким образом структуры продолжается. Одновременно контролируются абсолютные значения весов wi всех отдельно взятых нейронов: если они принимают значения ниже установленного вначале порога δ, соответствующие им нейроны подлежат удалению из сети.

Как добавление нейронов, так и  их удаление начинается после выполнения определенного количества обучающих циклов и может происходить в течение всего процесса обучения вплоть до достижения требуемой точности отображения.

 

Другой подход к управлению количеством скрытых нейронов предложил  Д. Платт. Это метод объединяет элементы самоорганизации и обучения с учителем. После предъявления каждой обучающей выборки определяется евклидово расстояние между ней и центром ближайшей существующей радиальной функции. Если это расстояние превышает установленный порог δ(t), то создается центр новой радиальной функции (т.е. добавляется один нейрон), после чего сеть подвергается стандартной процедуре обучения с использованием градиентных методов (обучение с учителем). Процесс добавления нейронов продолжается вплоть до достижения требуемого уровня погрешности отображения. Принципиально важным для этого метода считается подбор значения δ(t), в соответствии с которым принимается решение о расширении сети. Обычно δ(t) экспоненциально изменяется с течением времени (в зависимости от количества итераций) от значения δmax в начале процесса до δmin в конце его.

Недостаток этого подхода  состоит в невозможности уменьшения количества нейронов в процессе обработки  информации даже тогда, когда в результате обучения какие-то из них дегенерируют (вследствие неудачного размещения центров) либо когда несколько нейронов начинают дублировать друг друга, выполняя одну и ту же функцию. Кроме того, этот метод очень чувствителен к подбору параметров процесса обучения, особенно значений δmax и δmin.

 

Метод ортогонализации Грэма-Шмидта

Наиболее эффективным методом  управления количеством скрытых  нейронов остается применение специальной  технологии обучения сети, основанной на методе ортогонализации наименьших квадратов, использующем классический алгоритм ортогонализации Грэма-Шмидта. Отправная точка этого метода – представление задачи обучения в виде линейной адаптации вектора весов (выходного слоя) сети W = , направленной на минимизацию значения вектора ошибки Err. Для P обучающих выборок вектор ожидаемых значений имеет вид: D = . При использовании k базисных функций и P обучающих пар реакции скрытых нейронов образуют матрицу G вида

     (7.4.26)

где

.     (7.4.27)

Если вектор выхода i-й радиальной функции на все обучающие выборки обозначить

  (7.4.28)

то матрицу G можно представить в форме

                                         G =

     (7.4.29)

При таких обозначениях на каждом этапе обучения будет выполняться  линейное

равенство

D = GW + Err ,      (7.4.30)

где W — вектор весов, а

                                                      (7.4.31)

обозначает вектор фактической погрешности обучения. Квадрат произведения GW соответствует ожидаемой энергии, исходящей от сигналов, задаваемых вектором D, которая и подвергается максимизации в процессе обучения.

Метод ортогонализации наименьших квадратов основан на преобразовании векторов gi во множество базисных ортогональных векторов, позволяющее оценить индивидуальный вклад каждого из них в общую энергию, представляемую произведением GW. Это в свою очередь позволяет удалить те векторы, влияние которых на процесс оказывается минимальным.

В процессе обучения матрица  раскладывается на произведение матрицы с ортогональными столбцами qi на верхнетреугольную матрицу с единичными диагональными значениями:

G = QA,       (7.4.32)

где

,      (7.4.33)

а матрица Q соответствует условию

      (7.4.34)

При этом Н – диагональная матрица с элементами

     (7.4.35)

Решение зависимости (7.4.30) методом наименьших квадратов может быть спроецировано в пространство, образуемое ортогональными векторами qi. Если ввести новую векторную переменную B, определенную как

B = AW ,       (7.4.36)

то из уравнения (7.4.30) получим:

D = QB + Err .      (7.4.37)

Приближенное решение уравнения (7.4.37) (обозначаемое символом ^) методом наименьших квадратов имеет вид:

   (7.4.38)

Принимая во внимание диагональный характер матрицы Н, можно получить формулу, описывающую i-й компонент вектора :

      (7.4.39)

Решение, определяющее вектор весов W, находится непосредственно из зависимости (7.4.36), которую можно переписать в форме

      (7.4.40)

С учетом треугольной структуры матрицы А вычислительная сложность решения уравнения (7.4.40) относительно вектора W невелика.

Ортогонализация матрицы Q, описанная выражением (7.4.32), может быть проведена различными методами, наиболее эффективным из которых считается алгоритм Грэма-Шмидта. В соответствии с этим методом матрица A формируется последовательно, столбец за столбцом с одновременным формированием очередных столбцов ортогональной матрицы Q. На t-ом шаге создается столбец qt, ортогональный ко всем созданным ранее (t-l) столбцам qi (i = 1, 2, …, t-1). Процедура повторяется для значений t = 2, 3, …, k. Математическая модель этой операции имеет вид:

     (7.4.41)

Многократно повторенная процедура  ортогонализации позволяет сформировать все ортогональные векторы qt и матрицу A, на основе которых можно получить методом наименьших квадратов приближенное решение (уравнение (7.4.38)), а в дальнейшем из

решения треугольной системы уравнений (7.4.40) найти вектор .

Однако важнейшим достоинством описываемого метода ортогонализации  считается возможность селекции векторов qi с учетом их важности для отображения обучающих данных. В случае наперёд определенного числа k радиальных функций задача заключается в такой расстановке векторов qi, чтобы отобрать из них первые kr наиболее значимые в энергетическом плане, при этом, как правило, kr << k. Использование в дальнейших вычислениях только kr радиальных функций означает сокращение количества скрытых нейронов с начального их числа k до kr. Принимая во внимание энергию сигналов, описываемых вектором D, в соответствии с выражением (7.4.37) получаем

.      (7.4.42)

Если принять, что вектор ожидаемых  реакций D имеет нулевое среднее значение,

то произведение может интерпретироваться как средний вклад, приходящийся на одну обучающую выборку вектора qi, соответствующего i-й базисной функции. Относительная доля этого составляющего в общем энергетическом балансе может быть определена по формуле

     (7.4.43)

Расчет значений εi для всех базисных функций дает возможность оценить их важность для функционального отображения обучающих данных, что упрощает принятие решения о ликвидации тех, чей вклад оказывается наименьшим. После отбора наиболее значимой радиальной функции процесс ортогонализации повторяется для получения нового решения и выбора следующей по значимости радиальной функции. При фиксации начальной величины k = P после многократного повторения ортогонализации Грэма-Шмидта можно отобрать kr наиболее значащих базисных функций и исключить остальные. Таким образом количество скрытых нейронов уменьшается от начального числа k до kr.


Информация о работе Эвристические методы подбора количества базисных функций