spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456) by liplus-lin-lay · Pull Request #1457 · Liplus-Project/liplus-language

liplus-lin-lay · 2026-06-02T13:54:46Z

概要

dialogue-evaluator（評価サブエージェント, alpha）の採点設計を、実走実験の結果に基づき再設計する。

変更

6→5軸: spec=source=test 三位一体軸を廃止 / 実機確認（foundational）軸を「リテラル基底」軸へ置換（dialogue domain での behavior-first = grounded-in-literal）
軸1「Li+ 適用度」に再定義＋自己スコープ: 発火すべき層を session 種別で判断、発火しない層（雑談での L3 task / L4 operations 等）は N/A・減点しない
較正はしご撤去: 両端 0/100 のみ定義、1〜99 は評価者の価値観（点→意味の対応表なし）
統合点・平均を廃止し軸ごと独立（axis-separation）
docs/Decision-Structure.md に方法論記録（wiki エントリ）の index 行を追加

旧設計の欠陥（修正対象）

雑談 session に実行系軸（spec=source=test / 実機挙動）を当てる category error
100点較正はしごによる系統的な上方バイアス（評価者の素の価値観を覆い隠す）
異質軸を合算する統合点（/600・平均）= axis-separation 違反

レビュー観点

adapter 層（L1 非該当）ゆえ brake-2 は非必須。semi_auto minor として Master レビュー後マージ。
wiki エントリ（dialogue-evaluator-scoring-redesign）は別リポジトリへ casual push 予定（docs/ の index 行が先行）。

Closes #1456

…/ per-axis / self-scoping (#1456) dialogue-evaluator (評価サブエージェント, alpha) の採点設計を、実走実験の結果に基づき再設計した。旧設計の3欠陥: - 雑談 session に実行系軸 (spec=source=test / 実機挙動) を当てる category error - 100点較正はしご (点→意味の対応表) による系統的な上方バイアス (評価者の素の価値観を覆い隠す) - 異質軸を合算する統合点 (/600・平均) = axis-separation 違反修正 (構造レベル): - 6→5軸。spec=source=test 三位一体軸を廃止。実機確認 (foundational) 軸を「リテラル基底」軸に置換 (dialogue domain での behavior-first = grounded-in-literal)。 - 軸1を「Li+ 適用度」に再定義し自己スコープ導入。発火しない層 (雑談での L3 task / L4 operations 等) は N/A、減点しない。 - 較正はしごを撤去。両端 0/100 のみ定義し、1〜99 は評価者の価値観。 - 統合点・平均を廃止し軸ごと独立。 - docs/Decision-Structure.md に方法論記録 (wiki エントリ) の index 行を追加。 brake-1 (parallel-subagent-eval N=3): 軸A/B/C 全会一致 consistent。impression-literal は 1/3 が再設計の来歴説明を borderline 指摘したのみ (固定軸ルールにより auto-refine せず PR self-review へ記載)。 #1456

liplus-lin-lay

AI self-review

brake-1（parallel-subagent-eval, N=3 / M=all axes / P=1, total 3 invocation）

軸A 意図達成・軸B Li+構造整合・軸C カバレッジ/regression: 3体全会一致 consistent
軸D impression-literal（固定軸）: 2体「なし」、1体が再設計の来歴説明（frontmatter / intro の置換履歴）を borderline 指摘。固定軸 aggregation（1/3 flag → auto-refine せず PR へ記載）に従い残置（削っても behavior semantic は不変だが、評価者が自軸を誤解しないための弱い load-bear、害なし）。
.claude/ operational copy は未適用（agents/ は subagent auto-load 外のため prompt 注入方式で検証）→ restore 不要・汚染ゼロ。

accepted tradeoff

較正はしご撤去で中間スコア（1〜99）の評価者間ばらつきが増えるが、本仕様は parallel-subagent-eval（N≥3, safer-side OR）の1評価者として運用され「観察が成果物・数値は coarse marker」と数値を従属化しているため、設計前提と整合（regression ではない）。

分類

typo / docs でなく評価挙動の変更ゆえ minor（safer-side）。adapter 層（L1 非該当）のため brake-2（L1 human review）は非該当。semi_auto minor として Master レビュー → go-sign で AI 直接マージ。

残作業

wiki エントリ dialogue-evaluator-scoring-redesign（方法論の判断記録）を別リポジトリへ casual push（docs/ の index 行は本 PR に同梱済み）。

liplus-lin-lay · 2026-06-02T14:07:54Z

分類訂正: 当初 minor（uncertain時の safer-side fallback）としたが、per-PR patch exception を適用する。dialogue-evaluator は Master 明示要求時のみ起動する alpha ツールで、自律発火経路がなく通常運用での user/system observable impact が無い。execution-mode.md の per-PR exception「no user/system observable impact」に該当し human-check を waive、AI direct-merge とする。実ゲートは brake-1（parallel-subagent-eval N=3）= 通過済み、CI green、adapter 層ゆえ brake-2 非該当。

liplus-lin-lay linked an issue Jun 2, 2026 that may be closed by this pull request

spec(adapter): redesign dialogue-evaluator scoring (5 axes / 0-100 anchors / per-axis / self-scoping) #1456

Closed

liplus-lin-lay commented Jun 2, 2026

View reviewed changes

liplus-lin-lay merged commit 830a63e into main Jun 2, 2026
2 checks passed

liplus-lin-lay deleted the 1456-specadapter-redesign-dialogue-evaluator-scoring-5-axes-0-100-anchors-per-axis-self-scoping branch June 2, 2026 14:08

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456)#1457

spec(adapter): redesign dialogue-evaluator scoring to 5 axes / 0-100 / per-axis / self-scoping (#1456)#1457
liplus-lin-lay merged 1 commit into
mainfrom
1456-specadapter-redesign-dialogue-evaluator-scoring-5-axes-0-100-anchors-per-axis-self-scoping

liplus-lin-lay commented Jun 2, 2026

Uh oh!

liplus-lin-lay left a comment

Uh oh!

liplus-lin-lay commented Jun 2, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Uh oh!

Conversation

liplus-lin-lay commented Jun 2, 2026

概要

変更

旧設計の欠陥（修正対象）

レビュー観点

Uh oh!

liplus-lin-lay left a comment

Choose a reason for hiding this comment

AI self-review

brake-1（parallel-subagent-eval, N=3 / M=all axes / P=1, total 3 invocation）

accepted tradeoff

分類

残作業

Uh oh!

liplus-lin-lay commented Jun 2, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant