Разделяй и властвуй
Рассмотрим теперь построение большинства современных алгоритмов оптимизации структуры и параметров. Несмотря на их огромное разнообразие, можно выделить основную черту: оптимизируемый объект является "черным ящиком", который оптимизируется целиком. Для полученного на очередном шаге набора параметров достигнутый результат оценивается только по общей оценочной функции. Это приводит к тому, что малые улучшения в работе отдельных локальных подсистем не закрепляются на фоне ухудшения работы остальных. Можно назвать еще некоторые недостатки подобной реализации — сложности в подборе шага, коэффициента мутаций и т. д., но это уже решаемые мелочи.
Незакрепление малых улучшений в подсистемах при последовательной адаптации приводит к одному результату — в сложных системах, состоящих из большого количества подсистем, скорость обучения катастрофически снижается.
Здесь примером (пример взят из [1]) могли бы служить N колес с буквами А и В на ободе, где буквы А занимали бы k-ю долю окружности, а В — остальную ее часть. Все колеса приводят во вращение и дают им остановиться; остановка колеса на букве А считается "успехом". Сравним три способа сложения этих частных успехов в Большой Успех, который будем считать достигнутым только тогда, когда все колеса остановятся на букве А.
Случай 1. Приводятся во вращение все N колес; если все они дадут букву А, регистрируется Успех и пробы заканчиваются; в других случаях колеса снова приводятся во вращение — и так далее, пока все А не появятся сразу. В этом случае потребуется в среднем (1/k)N проб.
Случай 2. Вращается 1-е колесо; если оно остановится на А, оно остается в этом положении; в противном случае его вращают снова. Когда оно, наконец, остановится на А, таким же образом вращают 2-е колесо и т. д. Так поступают до тех пор, пока все N колес не остановятся на секторе А. Здесь в среднем потребуется N/k проб.
Случай 3. Приводятся во вращение все N колес; те, которые покажут А, остаются в этом положении, а те, которые покажут В, вращаются снова. При дальнейших появлениях А соответствующие колеса также остаются в покое. Среднее число проб равно среднему числу проб в самой длинной серии из N серий проб с одним колесом и может быть найдено из распределения длин таких серий; оно будет несколько больше 1/k.
Случайный поиск служит полным аналогом 1-го случая. Многие остальные алгоритмы занимают промежуточное положение между первым и вторым случаем (случайный поиск в подпространствах [4], генетический алгоритм и т. д.). Метод группового учета аргументов (МГУА) [5] приближается ко второму случаю. Очевидно, что человек как правило решает свои проблемы независимо друг от друга, что соответствует третьему случаю.
Таким образом, перспективные алгоритмы обучения нейронных сетей должны предусматривать возможность разделения целей на подцели, которые не зависят друг от друга. Для этого критерии оценки качества работы каждого нейрона должны носить более локальный характер.