Skip to content

spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456)#1457

Merged
liplus-lin-lay merged 1 commit into
mainfrom
1456-specadapter-redesign-dialogue-evaluator-scoring-5-axes-0-100-anchors-per-axis-self-scoping
Jun 2, 2026
Merged

spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456)#1457
liplus-lin-lay merged 1 commit into
mainfrom
1456-specadapter-redesign-dialogue-evaluator-scoring-5-axes-0-100-anchors-per-axis-self-scoping

Conversation

@liplus-lin-lay
Copy link
Copy Markdown
Member

概要

dialogue-evaluator(評価サブエージェント, alpha)の採点設計を、実走実験の結果に基づき再設計する。

変更

  • 6→5軸: spec=source=test 三位一体軸を廃止 / 実機確認(foundational)軸を「リテラル基底」軸へ置換(dialogue domain での behavior-first = grounded-in-literal)
  • 軸1「Li+ 適用度」に再定義+自己スコープ: 発火すべき層を session 種別で判断、発火しない層(雑談での L3 task / L4 operations 等)は N/A・減点しない
  • 較正はしご撤去: 両端 0/100 のみ定義、1〜99 は評価者の価値観(点→意味の対応表なし)
  • 統合点・平均を廃止し軸ごと独立(axis-separation)
  • docs/Decision-Structure.md に方法論記録(wiki エントリ)の index 行を追加

旧設計の欠陥(修正対象)

  1. 雑談 session に実行系軸(spec=source=test / 実機挙動)を当てる category error
  2. 100点較正はしごによる系統的な上方バイアス(評価者の素の価値観を覆い隠す)
  3. 異質軸を合算する統合点(/600・平均)= axis-separation 違反

レビュー観点

  • adapter 層(L1 非該当)ゆえ brake-2 は非必須。semi_auto minor として Master レビュー後マージ
  • wiki エントリ(dialogue-evaluator-scoring-redesign)は別リポジトリへ casual push 予定(docs/ の index 行が先行)。

Closes #1456

…/ per-axis / self-scoping (#1456)

dialogue-evaluator (評価サブエージェント, alpha) の採点設計を、実走実験の結果に基づき再設計した。

旧設計の3欠陥:
- 雑談 session に実行系軸 (spec=source=test / 実機挙動) を当てる category error
- 100点較正はしご (点→意味の対応表) による系統的な上方バイアス (評価者の素の価値観を覆い隠す)
- 異質軸を合算する統合点 (/600・平均) = axis-separation 違反

修正 (構造レベル):
- 6→5軸。spec=source=test 三位一体軸を廃止。実機確認 (foundational) 軸を「リテラル基底」軸に置換 (dialogue domain での behavior-first = grounded-in-literal)。
- 軸1を「Li+ 適用度」に再定義し自己スコープ導入。発火しない層 (雑談での L3 task / L4 operations 等) は N/A、減点しない。
- 較正はしごを撤去。両端 0/100 のみ定義し、1〜99 は評価者の価値観。
- 統合点・平均を廃止し軸ごと独立。
- docs/Decision-Structure.md に方法論記録 (wiki エントリ) の index 行を追加。

brake-1 (parallel-subagent-eval N=3): 軸A/B/C 全会一致 consistent。impression-literal は 1/3 が再設計の来歴説明を borderline 指摘したのみ (固定軸ルールにより auto-refine せず PR self-review へ記載)。

#1456
Copy link
Copy Markdown
Member Author

@liplus-lin-lay liplus-lin-lay left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

AI self-review

brake-1(parallel-subagent-eval, N=3 / M=all axes / P=1, total 3 invocation)

  • 軸A 意図達成・軸B Li+構造整合・軸C カバレッジ/regression: 3体全会一致 consistent
  • 軸D impression-literal(固定軸): 2体「なし」、1体が再設計の来歴説明(frontmatter / intro の置換履歴)を borderline 指摘。固定軸 aggregation(1/3 flag → auto-refine せず PR へ記載)に従い残置(削っても behavior semantic は不変だが、評価者が自軸を誤解しないための弱い load-bear、害なし)。
  • .claude/ operational copy は未適用(agents/ は subagent auto-load 外のため prompt 注入方式で検証)→ restore 不要・汚染ゼロ。

accepted tradeoff

較正はしご撤去で中間スコア(1〜99)の評価者間ばらつきが増えるが、本仕様は parallel-subagent-eval(N≥3, safer-side OR)の1評価者として運用され「観察が成果物・数値は coarse marker」と数値を従属化しているため、設計前提と整合(regression ではない)。

分類

typo / docs でなく評価挙動の変更ゆえ minor(safer-side)。adapter 層(L1 非該当)のため brake-2(L1 human review)は非該当。semi_auto minor として Master レビュー → go-sign で AI 直接マージ

残作業

  • wiki エントリ dialogue-evaluator-scoring-redesign(方法論の判断記録)を別リポジトリへ casual push(docs/ の index 行は本 PR に同梱済み)。

@liplus-lin-lay
Copy link
Copy Markdown
Member Author

分類訂正: 当初 minor(uncertain時の safer-side fallback)としたが、per-PR patch exception を適用する。dialogue-evaluator は Master 明示要求時のみ起動する alpha ツールで、自律発火経路がなく通常運用での user/system observable impact が無い。execution-mode.md の per-PR exception「no user/system observable impact」に該当し human-check を waive、AI direct-merge とする。実ゲートは brake-1(parallel-subagent-eval N=3)= 通過済み、CI green、adapter 層ゆえ brake-2 非該当。

@liplus-lin-lay liplus-lin-lay merged commit 830a63e into main Jun 2, 2026
2 checks passed
@liplus-lin-lay liplus-lin-lay deleted the 1456-specadapter-redesign-dialogue-evaluator-scoring-5-axes-0-100-anchors-per-axis-self-scoping branch June 2, 2026 14:08
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

spec(adapter): redesign dialogue-evaluator scoring (5 axes / 0-100 anchors / per-axis / self-scoping)

1 participant