You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Segundo piloto da skill simplicio-autoresearch (wesleysimplicio/simplicio-loop#95). Este repo é o fit mais natural do ecossistema: o produto é literalmente "prompt afiado medido em bench" (+39/+51/+58 pts, 99% pass-rate são os números de marketing do próprio README) — e o harness de avaliação já existe: bench/cases.json + bench.py logando tokens_estimated por caso em runs.jsonl.
O autoresearch fecha o ciclo: em vez de afiar o prompt na mão e medir depois, o loop muta o template e o bench decide o que sobrevive.
Template principal (simplicio/prompt.py::build_prompt())
Eval (composto, nessa ordem):
GATE: pass-rate do bench não regride vs baseline (bench/cases.json, mesmo modelo, mesma seed/config) + ruff check + testes unitários verdes — regrediu → revert.
Contexto
Segundo piloto da skill
simplicio-autoresearch(wesleysimplicio/simplicio-loop#95). Este repo é o fit mais natural do ecossistema: o produto é literalmente "prompt afiado medido em bench" (+39/+51/+58 pts, 99% pass-rate são os números de marketing do próprio README) — e o harness de avaliação já existe:bench/cases.json+bench.pylogandotokens_estimatedpor caso emruns.jsonl.O autoresearch fecha o ciclo: em vez de afiar o prompt na mão e medir depois, o loop muta o template e o bench decide o que sobrevive.
Setup do run
simplicio/precedent.py::build_precedent_block()— hand-formatted, flagado como follow-up no PR feat: add TOON encoder for LLM prompt payloads #87)simplicio/skill_router.py)simplicio/prompt.py::build_prompt())bench/cases.json, mesmo modelo, mesma seed/config) +ruff check+ testes unitários verdes — regrediu → revert.tokens_estimatedmédio por caso vence (estimador ÚNICO e rotulado — pré-requisito da unificação de estimadores do feat: TOON no caminho handoff real (código mergeado nunca executa) + A/B no bench + ledger de usage (follow-up #85) #88).bench/cases.json(não mudar durante o run; separar um holdout para verificação final anti-overfit).Critérios de Aceitação
bench/results_autoresearch.{json,md}ao lado do A/B TOON do feat: TOON no caminho handoff real (código mergeado nunca executa) + A/B no bench + ledger de usage (follow-up #85) #88simplicio.savings-event/v1por run (source=autoresearch)Dependências
simplicio-autoresearch— loop evolutivo de otimização por métrica (Karpathy autoresearch), com guardrails yool, eval composto anti-Goodhart e receipt de savings por run simplicio-loop#95 (a skill com guardrails)Refs: #85, #87, #88, wesleysimplicio/simplicio-loop#95, wesleysimplicio/simplicio-runtime#2775.