Beschaffungsplanung unter unsicherer Ausbeute (procurement planning under uncertain yield)
Markovsches Entscheidungsproblem MDP (Verlustfall)
\(\large (\text{PPUQ})~~\left\{~~ \begin{align*} & \begin{aligned} & \rlap{\text{Min.}}\phantom{\text{u. d. N.}} && C(\boldsymbol{q})=\lim_{T\to\infty}\mathbb{E}\Big(\frac{1}{T}\sum_{t=1}^T (\pi\cdot q_t+h\cdot\max\{0, X_{t+1}\} +\ k\cdot\delta(q_t)+v\cdot\max\{0, -X_{t+1}\})\Big|X_1=x^a\Big) \end{aligned} \\ & \begin{aligned} & \text{u. d. N.} && X_{t+1}=\min\{\max\{0, X_t\}+\mathrm{nint}(Y_t\cdot q_t)-D_t, \bar{x}\} & (t=1, 2, \ldots) \end{aligned} \end{align*}\right. \) |
Primales lineares Programm zur Lösung der MDP-Formulierung
\(\large (\text{MDP-P})~~\left\{~~ \begin{align*} & \begin{aligned} & \rlap{\text{Min.}}\phantom{\text{u. d. N.}} && \bar{r} \end{aligned} \\ & \begin{aligned} & \text{u. d. N.} && \bar{r} + b_s \ge r(s, a)+\sum_{s'\in\mathcal{S}}p_{ss'}^a\cdot b_{s'} & (s\in\mathcal{S};~a\in\mathcal{A}(s)) \end{aligned} \end{align*}\right. \) |
Duales lineares Programm zur Lösung der MDP-Formulierung
\(\large (\text{MDP-D})~~\left\{~~ \begin{align*} & \begin{aligned} & \rlap{\text{Min.}}\phantom{\text{u. d. N.}} && \sum_{s\in\mathcal{S}}\sum_{a\in\mathcal{A}(s)} r(s, a)\cdot\sigma_{sa} \end{aligned} \\ & \begin{aligned} & \text{u. d. N.} && \sum_{s\in\mathcal{S}}\sum_{a\in\mathcal{A}(s)} \sigma_{sa} = 1 \\ & && \sum_{a\in\mathcal{A}(s')}\sigma_{s'a}=\sum_{s\in\mathcal{S}}\sum_{a\in\mathcal{A}(s)} p_{ss'}^a\cdot\sigma_{sa} && (s'\in\mathcal{S}) \\ & && \sigma_{sa}\ge 0 && (s\in\mathcal{S};~a\in\mathcal{A}(s)) \end{aligned} \end{align*}\right. \) |
\(\delta\) | Indikatorfunktion mit \(\delta(q)=1\), falls \(q>0\), und \(\delta(q)=0\), sonst | |
\(\pi\) | Einkaufspreis bei Lieferant | |
\(\ast\) | \(\sigma_{sa}\) | Stationäre Wahrscheinlichkeit von Zustand \(s\) bei Wahl von optimaler Aktion \(a=q(s)\), und \(0\), sonst |
\(\mathcal{A}\) | Menge der Aktionen \(a\) | |
\(\ast\) | \(b_s\) | Bias von Zustand \(s\) |
\(\bullet\) | \(D_t\sim D\) | Zu deckender Bedarf in Periode \(t\) |
\(h\) | Lagerungskostensatz | |
\(k\) | Bestellfixe Kosten | |
\(\mathrm{nint}(\cdot)\) | Rundungsoperator | |
\(p_{ss'}^a\) | Übergangswahrscheinlichkeit von Zustand \(s\) zu \(s'\) bei Wahl von Aktion \(a\) | |
\(\ast\) | \(\boldsymbol{q}\) | Stationäre deterministische Politik |
\(\ast\) | \(q_t\) | Bestellmenge in Periode \(t\) |
\(r(s, a)\) | Reward in Zustand \(s\) bei Wahl von Aktion \(a\) | |
\(\ast\) | \(\bar{r}\) | Maximaler Reward pro Stufe |
\(\mathcal{S}\) | Menge der Zustände \(s\) | |
\(v\) | Fehlmengenkosten pro ME | |
\(x^a\) | Anfangslagerbestand | |
\(\bullet\) | \(X_t\sim X\) | Disponibler Bestand zu Beginn von Periode \(t\) |
\(\bullet\) | \(Y_t\sim Y\) | Ausbeute in Periode \(t\) |