Автор работы: Пользователь скрыл имя, 07 Ноября 2013 в 14:00, лекция
Подбор количества базисных функций, каждой из которых соответствует один скрытый нейрон, считается основной проблемой, возникающей при решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов, в числе которых размерность задачи, объем обучающих данных и, прежде всего, – пространственная структура аппроксимируемой функции.
Эвристические методы подбора количества базисных функций
Подбор количества базисных функций, каждой из которых соответствует один скрытый нейрон, считается основной проблемой, возникающей при решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов, в числе которых размерность задачи, объем обучающих данных и, прежде всего, – пространственная структура аппроксимируемой функции. Как правило, количество базисных функций k составляет определенную долю от объема обучающей выборки P, причем фактическая величина этой доли зависит от размерности вектора X и от разброса ожидаемых значений d(p), соответствующих входным векторам X (p), для p = 1, 2, …, P.
Вследствие невозможности априорного определения точного количества скрытых
нейронов применяются
процессе обучения.
Как правило, обучение сети начинается при каком-либо изначально принятом количестве нейронов, а впоследствии контролируется как степень уменьшения среднеквадратичной погрешности, так и изменение значений подбираемых параметров сети. Если среднее изменение значений весов после определенного числа обучающих циклов слишком мало
где ε – некоторая малая наперёд заданная положительная величина, добавляются две базисные функции (2 нейрона) с центрами, соответствующими наибольшей и наименьшей погрешности адаптации, после чего обучение расширенной таким образом структуры продолжается. Одновременно контролируются абсолютные значения весов wi всех отдельно взятых нейронов: если они принимают значения ниже установленного вначале порога δ, соответствующие им нейроны подлежат удалению из сети.
Как добавление нейронов, так и их удаление начинается после выполнения определенного количества обучающих циклов и может происходить в течение всего процесса обучения вплоть до достижения требуемой точности отображения.
Другой подход к управлению количеством скрытых нейронов предложил Д. Платт. Это метод объединяет элементы самоорганизации и обучения с учителем. После предъявления каждой обучающей выборки определяется евклидово расстояние между ней и центром ближайшей существующей радиальной функции. Если это расстояние превышает установленный порог δ(t), то создается центр новой радиальной функции (т.е. добавляется один нейрон), после чего сеть подвергается стандартной процедуре обучения с использованием градиентных методов (обучение с учителем). Процесс добавления нейронов продолжается вплоть до достижения требуемого уровня погрешности отображения. Принципиально важным для этого метода считается подбор значения δ(t), в соответствии с которым принимается решение о расширении сети. Обычно δ(t) экспоненциально изменяется с течением времени (в зависимости от количества итераций) от значения δmax в начале процесса до δmin в конце его.
Недостаток этого подхода
состоит в невозможности
Метод ортогонализации Грэма-Шмидта
Наиболее эффективным методом управления количеством скрытых нейронов остается применение специальной технологии обучения сети, основанной на методе ортогонализации наименьших квадратов, использующем классический алгоритм ортогонализации Грэма-Шмидта. Отправная точка этого метода – представление задачи обучения в виде линейной адаптации вектора весов (выходного слоя) сети W = , направленной на минимизацию значения вектора ошибки Err. Для P обучающих выборок вектор ожидаемых значений имеет вид: D = . При использовании k базисных функций и P обучающих пар реакции скрытых нейронов образуют матрицу G вида
где
Если вектор выхода i-й радиальной функции на все обучающие выборки обозначить
то матрицу G можно представить в форме
При таких обозначениях на каждом этапе обучения будет выполняться линейное
равенство
D = GW + Err , (7.4.30)
где W — вектор весов, а
обозначает вектор фактической погрешности обучения. Квадрат произведения GW соответствует ожидаемой энергии, исходящей от сигналов, задаваемых вектором D, которая и подвергается максимизации в процессе обучения.
Метод ортогонализации наименьших квадратов основан на преобразовании векторов gi во множество базисных ортогональных векторов, позволяющее оценить индивидуальный вклад каждого из них в общую энергию, представляемую произведением GW. Это в свою очередь позволяет удалить те векторы, влияние которых на процесс оказывается минимальным.
В процессе обучения матрица раскладывается на произведение матрицы с ортогональными столбцами qi на верхнетреугольную матрицу с единичными диагональными значениями:
G = QA, (7.4.32)
где
, (7.4.33)
а матрица Q соответствует условию
(7.4.34)
При этом Н – диагональная матрица с элементами
(7.4.35)
Решение зависимости (7.4.30) методом наименьших квадратов может быть спроецировано в пространство, образуемое ортогональными векторами qi. Если ввести новую векторную переменную B, определенную как
B = AW , (7.4.36)
то из уравнения (7.4.30) получим:
D = QB + Err . (7.4.37)
Приближенное решение уравнения (7.4.37) (обозначаемое символом ^) методом наименьших квадратов имеет вид:
(7.4.38)
Принимая во внимание диагональный характер матрицы Н, можно получить формулу, описывающую i-й компонент вектора :
(7.4.39)
Решение, определяющее вектор весов W, находится непосредственно из зависимости (7.4.36), которую можно переписать в форме
(7.4.40)
С учетом треугольной структуры матрицы А вычислительная сложность решения уравнения (7.4.40) относительно вектора W невелика.
Ортогонализация матрицы Q, описанная выражением (7.4.32), может быть проведена различными методами, наиболее эффективным из которых считается алгоритм Грэма-Шмидта. В соответствии с этим методом матрица A формируется последовательно, столбец за столбцом с одновременным формированием очередных столбцов ортогональной матрицы Q. На t-ом шаге создается столбец qt, ортогональный ко всем созданным ранее (t-l) столбцам qi (i = 1, 2, …, t-1). Процедура повторяется для значений t = 2, 3, …, k. Математическая модель этой операции имеет вид:
(7.4.41)
Многократно повторенная процедура
ортогонализации позволяет
решения треугольной системы уравнений (7.4.40) найти вектор .
Однако важнейшим достоинством описываемого метода ортогонализации считается возможность селекции векторов qi с учетом их важности для отображения обучающих данных. В случае наперёд определенного числа k радиальных функций задача заключается в такой расстановке векторов qi, чтобы отобрать из них первые kr наиболее значимые в энергетическом плане, при этом, как правило, kr << k. Использование в дальнейших вычислениях только kr радиальных функций означает сокращение количества скрытых нейронов с начального их числа k до kr. Принимая во внимание энергию сигналов, описываемых вектором D, в соответствии с выражением (7.4.37) получаем
. (7.4.42)
Если принять, что вектор ожидаемых реакций D имеет нулевое среднее значение,
то произведение может интерпретироваться как средний вклад, приходящийся на одну обучающую выборку вектора qi, соответствующего i-й базисной функции. Относительная доля этого составляющего в общем энергетическом балансе может быть определена по формуле
(7.4.43)
Расчет значений εi для всех базисных функций дает возможность оценить их важность для функционального отображения обучающих данных, что упрощает принятие решения о ликвидации тех, чей вклад оказывается наименьшим. После отбора наиболее значимой радиальной функции процесс ортогонализации повторяется для получения нового решения и выбора следующей по значимости радиальной функции. При фиксации начальной величины k = P после многократного повторения ортогонализации Грэма-Шмидта можно отобрать kr наиболее значащих базисных функций и исключить остальные. Таким образом количество скрытых нейронов уменьшается от начального числа k до kr.
Информация о работе Эвристические методы подбора количества базисных функций