jennypng

❯

Jun 04, 20251 min read

loss over entire dataset = avg loss over examples $L = \frac{1}{N} Σ_{i = 1}^{N} L_{i} (y_{i}, \overset{y}{^}_{i})$

examples

L2 loss: squared error $(y_{i} - \overset{y_{i}}{^})^{2}$
- not robust to outliers
L1 loss $∣ y_{i} - \overset{y}{^}_{i} ∣$

to minimize loss → gradient descent

Explorer