Agent safety

Agents Fail Safety, Probes Miss Fanatics, Better RLHF

Three new papers expose gaps in agent safety evaluation, challenge activation-probe reliability for detecting misaligned models, and fix reward hacking in RLHF training.

Agent safety

Agents Fail Safety, Probes Miss Fanatics, Better RLHF

Google Analytics