Feature/game state recovery restart by tasaje1 · Pull Request #109 · SS26-SE2-Codenames/Backend

tasaje1 · 2026-05-19T10:07:05Z

Context

Implements persistent backend state storage to preserve active lobbies and games across backend restarts by automatically saving runtime snapshots after state changes.

Description

Added persistence infrastructure that stores the current in-memory system state whenever lobby or gameplay changes occur. Runtime snapshots now include active lobbies, player assignments, and ongoing game sessions, enabling recovery services to restore consistent state after restart.

Changes in the codebase

Added SystemStatePersistenceService to collect and persist current lobby and game snapshots
Added getLobbySnapshots() in LobbyService for serializable lobby state retrieval
Added getGameSnapshots() in GameService for serializable game state retrieval
Persisted state after lobby lifecycle events:
- lobby creation
- player join
- player leave
- role/team selection
- game start
Persisted state after gameplay events:
- clue submission
- card reveal
- turn passing
Integrated persistence handling into REST and WebSocket controllers
Simplified recovery flow by removing redundant GameRecoveryState
Updated game reconstruction to use GameStateDataTransferObject directly

Additional information

This implementation improves reliability by:

Persisting runtime state continuously instead of only during shutdown
Reducing data loss risk during unexpected backend termination
Keeping snapshot generation centralized through dedicated persistence services
Unifying persistence and recovery around existing DTO representations to avoid duplicate state mappings
Enabling restored games to continue with preserved turn state, clues, guesses, and revealed cards

…tate-recovery-restart

… path

…tate-recovery-restart

…ests

…ervice usage in lobby controller test

the-only-queen-anna

Also, ich habe mir das ganze durchgesehen, auch kurz mit AI darüber diskutiert, und habe folgende Bedenken:

Bei jeder Aktion (Lobby erstellen, joinen, verlassen, Spiel starten, Hinweis geben, Karte aufdecken, ...) den ganzen Game State zu aktualisieren und als File neu zu speichern, ist extrem IO-aufwendig. Durch das ATOMIC_MOVE werden zwar wenigstens Konsistenz-Probleme vermieden, aber wir werden andere Probleme haben, weil wenn ich das richtig sehe, die Funktion keinen neuen Thread startet und daher bei den ganzen Requests blockierend wirkt. Das heißt, jede Request muss warten, bis der ganze Game State gespeichert worden ist, bevor sie verarbeitet wird.
Eine JSON-File bringt uns auch nur was bei einem graceful shutdown oder wenn wirklich Spring Boot crasht, sobald der Container was abbekommt ist die File dann auch weg, schützt also nur mäßig.
Warum nicht einfach eine simple Datenbank? Wäre vermutlich mit weniger Custom Code, der doch irgendwo auch fehleranfälliger ist, erledigt. Da müssten wir nur uns nur ein Datenbankschema überlegen.
Eine Alternative für das ständige Updaten der Files wäre ein Thread, falls wir keine Datenbank wollen, der z.B. alle 30 Sekunden einen Snapshot macht und den dann in einem File speichert. Dann ersparen wir uns die Synchronisationsprobleme etc.
Ich finde die Variante, wie die Lobbies wieder erstellt werden, etwas ineffizient. Jede Lobby einzeln neu erstellen, alle Spieler joinen, bei jedem Spieler doppelt den username auf null checken, und dann einzeln in die Liste schreiben dauert ewig, falls es keine RAM-Probleme macht hätte ich einfach die ganze Liste genommen, kopiert und dann als Ganzes wieder ausgetauscht, um bisschen Zeit zu sparen.

Also sollten wir als erstes prüfen, ob die Recovery-Variante zur Art von Ausfall passt, vor der wir uns schützen wollen, und dann nochmal überdenken, wie oft und was gesavet werden muss. Z.B. würde ich nur ingame-lobbies saven, die, die noch kein Spiel gestartet haben, können uns theoretisch auch egal sein (joinen und Rolle auswählen ist eine Sache von nicht mal 10 Sekunden).

tasaje1 · 2026-05-20T11:46:41Z

Also, ich habe mir das ganze durchgesehen, auch kurz mit AI darüber diskutiert, und habe folgende Bedenken:

Bei jeder Aktion (Lobby erstellen, joinen, verlassen, Spiel starten, Hinweis geben, Karte aufdecken, ...) den ganzen Game State zu aktualisieren und als File neu zu speichern, ist extrem IO-aufwendig. Durch das ATOMIC_MOVE werden zwar wenigstens Konsistenz-Probleme vermieden, aber wir werden andere Probleme haben, weil wenn ich das richtig sehe, die Funktion keinen neuen Thread startet und daher bei den ganzen Requests blockierend wirkt. Das heißt, jede Request muss warten, bis der ganze Game State gespeichert worden ist, bevor sie verarbeitet wird.

Eine JSON-File bringt uns auch nur was bei einem graceful shutdown oder wenn wirklich Spring Boot crasht, sobald der Container was abbekommt ist die File dann auch weg, schützt also nur mäßig.

Warum nicht einfach eine simple Datenbank? Wäre vermutlich mit weniger Custom Code, der doch irgendwo auch fehleranfälliger ist, erledigt. Da müssten wir nur uns nur ein Datenbankschema überlegen.

Eine Alternative für das ständige Updaten der Files wäre ein Thread, falls wir keine Datenbank wollen, der z.B. alle 30 Sekunden einen Snapshot macht und den dann in einem File speichert. Dann ersparen wir uns die Synchronisationsprobleme etc.

Ich finde die Variante, wie die Lobbies wieder erstellt werden, etwas ineffizient. Jede Lobby einzeln neu erstellen, alle Spieler joinen, bei jedem Spieler doppelt den username auf null checken, und dann einzeln in die Liste schreiben dauert ewig, falls es keine RAM-Probleme macht hätte ich einfach die ganze Liste genommen, kopiert und dann als Ganzes wieder ausgetauscht, um bisschen Zeit zu sparen.

Also sollten wir als erstes prüfen, ob die Recovery-Variante zur Art von Ausfall passt, vor der wir uns schützen wollen, und dann nochmal überdenken, wie oft und was gesavet werden muss. Z.B. würde ich nur ingame-lobbies saven, die, die noch kein Spiel gestartet haben, können uns theoretisch auch egal sein (joinen und Rolle auswählen ist eine Sache von nicht mal 10 Sekunden).

Mir wurde kommuniziert, dass eine Datenbank erst später geplant ist bzw. nicht mehr sinnvoll in diesen Sprint passt. Deshalb habe ich versucht, mit möglichst wenig zusätzlicher Infrastruktur zumindest Backend-Restarts besser abzufangen. Die Lösung ist also eher Recovery-Infrastruktur für den jetzigen Sprint, nicht als Ersatz für eine spätere Datenbank gedacht.

Member

Danke fürs Feedback, die Punkte versteh ich.

Die JSON-Lösung war hier eher als temporäre Recovery-Lösung gedacht, weil eine DB-Lösung soweit ich verstanden hab eher später geplant war und ich für den Sprint noch eine Möglichkeit einbauen wollte, Backend-Restarts abzufangen.

Ich seh aber die Nachteile auch voll vor allem I/O bei jeder Änderung und dass JSON natürlich keine langfristige Persistenz ersetzt. Für später wären asynchrone Snapshots oder eine DB viel sinnvoller.

Ich hab die Persistenz zusätzlich manuell getestet: Nach Lobby-Erstellung wird tatsächlich state.json erzeugt und gespeichert, Recovery lädt den Zustand beim Neustart wieder ein. Soll ich state.json bzw. den data Ordner committen ??

the-only-queen-anna · 2026-05-20T14:02:48Z

Nein, ich würde die Datei nicht committen, solange wir wissen, dass sie erstellt wird, sobald es states gibt, die persistiert werden müssen. Mein Vorschlag wäre, die Back-up Strukur so wie sie in deinem Code ist, zu übernehmen, aber halt nicht bei jeder Aktion zu updaten sondern alle 30-60 Sekunden, um I/O Aktivität zu sparen (ich weiß, bei uns ist es ja nur hypothetisch, aber dann würde es wesentlich besser skalieren, als bei jeder Aktion). Und ich gehe davon aus, dass wenn der Server zu tun kriegt, es immer viel auf einmal ist, deshalb auch bei wenigen aktiven Spielen gleichzeitig evtl. Verzögerungen auftreten können. Was hältst du von dieser Zwischenlösung?

the-only-queen-anna

LGTM; danke für die Anpassungen. Das ist eine saubere Übergangslösung, bis wir in Sprint 3 die Datenbank haben.

XtophB · 2026-05-20T18:29:33Z

+    org.junit.jupiter.api.Assertions.assertEquals(
+        SystemSnapshot.CURRENT_SCHEMA_VERSION, snapshot.schemaVersion());
+    org.junit.jupiter.api.Assertions.assertEquals(lobbySnapshots, snapshot.lobbies());
+    org.junit.jupiter.api.Assertions.assertEquals(gameSnapshots, snapshot.games());


Können wir bitte normale imports machen und asserEquals normal verwenden 🥹

XtophB

LGTM, Habe Kommentar in einer Testklasse hinterlassen, können wir in dieser PR fixen oder im Post sprint refactoring. Dir überlassen.

sonarqubecloud · 2026-05-20T18:43:38Z

Quality Gate passed

Issues
0 New issues
0 Accepted issues

Measures
0 Security Hotspots
97.0% Coverage on New Code
0.0% Duplication on New Code

See analysis details on SonarQube Cloud

the-only-queen-anna

LGTM

XtophB

LGTM

tasaje1 added 21 commits May 18, 2026 16:53

Merge remote-tracking branch 'origin/development' into feature/game-s…

f9802da

…tate-recovery-restart

feat: add system snapshot model for restart recovery

2bde83a

feat: add json state store for atomic snapshot persistence

4f6ec34

docs: add javadocs

a888582

test: add unit tests for json state store load and save behavior

11c84b1

test: replace redundant lobby emptiness assertion with size check

55bae8f

test: add json state store exception path coverage

aa5e990

refactor: extract snapshot load helper in json state store test

ef7145a

test: improve JsonStateStore coverage for getters and parentless save…

cb9d408

… path

test: replace self-assertion on ioLock getter with non-null assertion

cc55c71

Merge remote-tracking branch 'origin/development' into feature/game-s…

bfd2daf

…tate-recovery-restart

feat: add startup state recovery service

36fa601

feat: add lobby and game restore hooks

7dc1752

feat: add GameManager and Board constructors for snapshot restore

87708a4

refactor: use CardDataTransferObject in game snapshots for recovery

7a170d9

test: add startup recovery tests for SystemStateRecoveryService

078d507

test: maximize SystemStateRecoveryService branch coverage

9b99653

test: add tests for recovery

9d654bd

style: reorder imports in LobbyServiceTest

7393f5e

test: configure Mockito mock maker for local test stability

885cf5e

docs: add javadocs

a0a41de

tasaje1 marked this pull request as draft May 19, 2026 10:07

tasaje1 added 8 commits May 19, 2026 12:12

test: replace final DTO mocks with concrete instances in controller t…

cad7578

…ests

style: fix import order

2dc0d40

refactor: delete unused clue snapshot record

080726d

refactor: delete unused lobby snapshot record

a04a04a

refactor: use ClueDto in game snapshot

bd5cf0c

refactor: use player dto list in system snapshot

b9d9f25

refactor: adapt game manager factory to dto based clue recovery

be85731

refactor: adapt lobby recovery to dto based snapshot structure

746ceec

tasaje1 added 9 commits May 20, 2026 00:37

test: update recovery tests for direct game state dto

b516914

feat: add snapshot retrieval for lobby and game state

ada50ff

feat: add system state persistence service

7301272

test: add persistence service and snapshot tests

7c9bbc1

docs: add javadocs for system state persistence service

2848ef1

refactor: persist system state after lobby and gameplay actions

8d4bf23

test: update controller tests for state persistence calls

5c23caf

style: fix imports

d689b01

refactor: remove redundant response variable and verify persistence s…

a31b94e

…ervice usage in lobby controller test

tasaje1 marked this pull request as ready for review May 19, 2026 23:56

style: fix checkstyle issues

e2b0e46

the-only-queen-anna reviewed May 20, 2026

View reviewed changes

Comment thread src/main/java/com/codenames/codenames/backend/recovery/snapshot/SystemSnapshot.java

tasaje1 added 4 commits May 20, 2026 17:45

chore: persist backend state with docker volume

e4ea92e

refactor: reduce pre-game lobby persistence

24fabaa

test: align lobby and game controller persistence expectations

e05976e

refactor: remove unused persistence dependency from game controller

e2898e4

the-only-queen-anna previously approved these changes May 20, 2026

View reviewed changes

Merge branch 'development' into feature/game-state-recovery-restart

87318a6

XtophB reviewed May 20, 2026

View reviewed changes

XtophB previously approved these changes May 20, 2026

View reviewed changes

test: fix imports

38c490d

tasaje1 dismissed stale reviews from XtophB and the-only-queen-anna via 38c490d May 20, 2026 18:42

the-only-queen-anna approved these changes May 20, 2026

View reviewed changes

XtophB approved these changes May 20, 2026

View reviewed changes

tasaje1 merged commit 67c801a into development May 20, 2026
2 checks passed

tasaje1 linked an issue May 20, 2026 that may be closed by this pull request

Wiederherstellung des Spielzustands bei Neustart des Docker-Containers #80

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature/game state recovery restart#109

Feature/game state recovery restart#109
tasaje1 merged 63 commits into
developmentfrom
feature/game-state-recovery-restart

tasaje1 commented May 19, 2026 •

edited

Loading

Uh oh!

the-only-queen-anna left a comment

Uh oh!

Uh oh!

tasaje1 commented May 20, 2026

Uh oh!

the-only-queen-anna commented May 20, 2026

Uh oh!

the-only-queen-anna left a comment

Uh oh!

XtophB May 20, 2026

Uh oh!

XtophB left a comment

Uh oh!

sonarqubecloud Bot commented May 20, 2026

Uh oh!

the-only-queen-anna left a comment

Uh oh!

XtophB left a comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

tasaje1 commented May 19, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Context

Description

Changes in the codebase

Additional information

Uh oh!

the-only-queen-anna left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

tasaje1 commented May 20, 2026

Uh oh!

the-only-queen-anna commented May 20, 2026

Uh oh!

the-only-queen-anna left a comment

Choose a reason for hiding this comment

Uh oh!

XtophB May 20, 2026

Choose a reason for hiding this comment

Uh oh!

XtophB left a comment

Choose a reason for hiding this comment

Uh oh!

sonarqubecloud Bot commented May 20, 2026

Quality Gate passed

Uh oh!

the-only-queen-anna left a comment

Choose a reason for hiding this comment

Uh oh!

XtophB left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

tasaje1 commented May 19, 2026 •

edited

Loading