Training eines neuronalen Netzwerks (training of a neural network)

\(\large (\text{TNN})~~\left\{~~ \begin{align*} & \text{Min.} && E(w)=\tfrac{1}{2}\sum_{x\in X'}\sum_{j\in\mathcal{O}}(c_j(x)-h_j(w, x))^2 \end{align*}\right. \)
\(c_j(x)\)\(j\)-te Komponente des Werts der Targetfunktion für Trainingsinstanz \(x\)
\(E(w)\)Trainingsfehler bei Gewichten \(w\)
\(h_j(w, x)\)Output der Ausgabeeinheit \(j\) für Instanz \(x\) bei Gewichten \(w\)
\(\mathcal{O}\)Menge der Ausgabeeinheiten \(j\)
\(\ast\)\(w\)Vektor der Gewichte \(w_{ij}\) der Pfeile von Einheiten \(i\) zu Einheiten \(j\)
\(X'\)Menge der Trainingsinstanzen \(x\)

Im Falle eines zweischichtiges Feedforward-Netzes mit Sigmoid-Einheiten gilt

\(\begin{align*} && h_j(w, x)=o_j((o_i(x))_{i\in\mathcal{H}}) \end{align*}\)

sowie

\(\begin{align*} && o_i(x) &= \sigma(\alpha_i)=\frac{1}{1+e^{-\alpha_i}}\\ && \alpha_i &= \sum_{h\in\mathcal{I}}w_{hi}x_h-w^i_0\\ && o_j((o_i(x))_{i\in\mathcal{H}}) &= \sigma(\alpha_j)=\frac{1}{1+e^{-\alpha_j}}\\ && \alpha_j &= \sum_{i\in\mathcal{H}}w_{ij}o_i(x)-w^j_0 \end{align*}\)

mit