spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456)#1457
Merged
Conversation
…/ per-axis / self-scoping (#1456) dialogue-evaluator (評価サブエージェント, alpha) の採点設計を、実走実験の結果に基づき再設計した。 旧設計の3欠陥: - 雑談 session に実行系軸 (spec=source=test / 実機挙動) を当てる category error - 100点較正はしご (点→意味の対応表) による系統的な上方バイアス (評価者の素の価値観を覆い隠す) - 異質軸を合算する統合点 (/600・平均) = axis-separation 違反 修正 (構造レベル): - 6→5軸。spec=source=test 三位一体軸を廃止。実機確認 (foundational) 軸を「リテラル基底」軸に置換 (dialogue domain での behavior-first = grounded-in-literal)。 - 軸1を「Li+ 適用度」に再定義し自己スコープ導入。発火しない層 (雑談での L3 task / L4 operations 等) は N/A、減点しない。 - 較正はしごを撤去。両端 0/100 のみ定義し、1〜99 は評価者の価値観。 - 統合点・平均を廃止し軸ごと独立。 - docs/Decision-Structure.md に方法論記録 (wiki エントリ) の index 行を追加。 brake-1 (parallel-subagent-eval N=3): 軸A/B/C 全会一致 consistent。impression-literal は 1/3 が再設計の来歴説明を borderline 指摘したのみ (固定軸ルールにより auto-refine せず PR self-review へ記載)。 #1456
liplus-lin-lay
commented
Jun 2, 2026
Member
Author
liplus-lin-lay
left a comment
There was a problem hiding this comment.
AI self-review
brake-1(parallel-subagent-eval, N=3 / M=all axes / P=1, total 3 invocation)
- 軸A 意図達成・軸B Li+構造整合・軸C カバレッジ/regression: 3体全会一致 consistent
- 軸D impression-literal(固定軸): 2体「なし」、1体が再設計の来歴説明(frontmatter / intro の置換履歴)を borderline 指摘。固定軸 aggregation(1/3 flag → auto-refine せず PR へ記載)に従い残置(削っても behavior semantic は不変だが、評価者が自軸を誤解しないための弱い load-bear、害なし)。
.claude/operational copy は未適用(agents/は subagent auto-load 外のため prompt 注入方式で検証)→ restore 不要・汚染ゼロ。
accepted tradeoff
較正はしご撤去で中間スコア(1〜99)の評価者間ばらつきが増えるが、本仕様は parallel-subagent-eval(N≥3, safer-side OR)の1評価者として運用され「観察が成果物・数値は coarse marker」と数値を従属化しているため、設計前提と整合(regression ではない)。
分類
typo / docs でなく評価挙動の変更ゆえ minor(safer-side)。adapter 層(L1 非該当)のため brake-2(L1 human review)は非該当。semi_auto minor として Master レビュー → go-sign で AI 直接マージ。
残作業
- wiki エントリ
dialogue-evaluator-scoring-redesign(方法論の判断記録)を別リポジトリへ casual push(docs/ の index 行は本 PR に同梱済み)。
Member
Author
|
分類訂正: 当初 minor(uncertain時の safer-side fallback)としたが、per-PR patch exception を適用する。dialogue-evaluator は Master 明示要求時のみ起動する alpha ツールで、自律発火経路がなく通常運用での user/system observable impact が無い。execution-mode.md の per-PR exception「no user/system observable impact」に該当し human-check を waive、AI direct-merge とする。実ゲートは brake-1(parallel-subagent-eval N=3)= 通過済み、CI green、adapter 層ゆえ brake-2 非該当。 |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
概要
dialogue-evaluator(評価サブエージェント, alpha)の採点設計を、実走実験の結果に基づき再設計する。
変更
spec=source=test 三位一体軸を廃止 /実機確認(foundational)軸を「リテラル基底」軸へ置換(dialogue domain での behavior-first = grounded-in-literal)docs/Decision-Structure.mdに方法論記録(wiki エントリ)の index 行を追加旧設計の欠陥(修正対象)
レビュー観点
dialogue-evaluator-scoring-redesign)は別リポジトリへ casual push 予定(docs/ の index 行が先行)。Closes #1456