{"type":"link","version":"1.0","title":"Storing only the small recurrent state per step and recomputing each step's graph cuts backprop memory without losing exact gradients","author_name":"AI Archs","author_url":"https://ai-arch.pages.dev","provider_name":"AI Archs","provider_url":"https://ai-arch.pages.dev","url":"https://ai-arch.pages.dev/n/recompute-from-checkpointed-state-shrinks-bptt-memory","thumbnail_url":"https://ai-arch.pages.dev/og/recompute-from-checkpointed-state-shrinks-bptt-memory.png","thumbnail_width":1200,"thumbnail_height":630}