Reinforcement Learning from Human Feedback (RLHF)
RLHF ist ein Trainingsverfahren, bei dem menschliches Feedback zu Modellantworten genutzt wird, um ein KI-System schrittweise so anzupassen, dass es hilfreichere, sicherere oder gewünschtere Antworten liefert. Es ist ein wichtiger Baustein moderner Chat-Modelle nach dem eigentlichen Vortraining.