Training eines neuronalen Netzwerks (training of a neural network)

\(\large (\text{TNN})~~\left\{~~ \begin{align*} & \text{Min.} && E(w)=\tfrac{1}{2}\sum_{x\in X'}\sum_{j\in\mathcal{O}}(c_j(x)-h_j(w, x))^2 \end{align*}\right. \)

	\(c_j(x)\)	\(j\)-te Komponente des Werts der Targetfunktion für Trainingsinstanz \(x\)
	\(E(w)\)	Trainingsfehler bei Gewichten \(w\)
	\(h_j(w, x)\)	Output der Ausgabeeinheit \(j\) für Instanz \(x\) bei Gewichten \(w\)
	\(\mathcal{O}\)	Menge der Ausgabeeinheiten \(j\)
\(\ast\)	\(w\)	Vektor der Gewichte \(w_{ij}\) der Pfeile von Einheiten \(i\) zu Einheiten \(j\)
	\(X'\)	Menge der Trainingsinstanzen \(x\)

Im Falle eines zweischichtiges Feedforward-Netzes mit Sigmoid-Einheiten gilt

\(\begin{align*} && h_j(w, x)=o_j((o_i(x))_{i\in\mathcal{H}}) \end{align*}\)

sowie

\(\begin{align*} && o_i(x) &= \sigma(\alpha_i)=\frac{1}{1+e^{-\alpha_i}}\\ && \alpha_i &= \sum_{h\in\mathcal{I}}w_{hi}x_h-w^i_0\\ && o_j((o_i(x))_{i\in\mathcal{H}}) &= \sigma(\alpha_j)=\frac{1}{1+e^{-\alpha_j}}\\ && \alpha_j &= \sum_{i\in\mathcal{H}}w_{ij}o_i(x)-w^j_0 \end{align*}\)

mit

Menge \(\mathcal{I}\) der Eingabeeinheiten \(h\)
Menge \(\mathcal{H}\) der verdeckten Einheiten \(i\)
Transferfunktionen \(o_i,~o_j\) der Einheiten \(i, j\)
Sigmoid-Funktion \(\sigma\)
Aktivitätsfunktionen \(\alpha_i,~\alpha_j\) der Einheiten \(i, j\)
\(h\)-te Komponente \(x_h\) der Instanz \(x\)