{"type":"link","version":"1.0","title":"Auxiliary shaping penalties must stay small relative to task reward or the agent optimizes the penalty instead of the goal","author_name":"AI Archs","author_url":"https://ai-arch.pages.dev","provider_name":"AI Archs","provider_url":"https://ai-arch.pages.dev","url":"https://ai-arch.pages.dev/n/small-magnitude-auxiliary-penalties-avoid-dominating-task-reward","thumbnail_url":"https://ai-arch.pages.dev/og/small-magnitude-auxiliary-penalties-avoid-dominating-task-reward.png","thumbnail_width":1200,"thumbnail_height":630}