Automate MinMax Scenario Runs and Leaderboard

Description
Run all MinMax scenarios automatically and generate a leaderboard.

Scenario set:
- 30 scenarios from @ChathurangiShyalika 
- 35 scenarios from @Miao900 
- Total: 65 scenarios

Methods to evaluate: directLLM, sttiup_agent

Tasks
1. Combine all 65 scenarios into one scenario registry/file.
2. Add automated runner for MinMax scenarios.
3. Run each scenario with directLLM and sttiup_agent.
4. Save outputs, final answers, and trajectories where applicable.
5. Score each run using the same evaluation process as before.
6. Aggregate results by method.
7. Generate leaderboard in CSV/Markdown.

Expected Flow
scenarios → automated runs → saved outputs/trajectories → scoring → leaderboard

Acceptance Criteria
- All 65 scenarios run automatically.
- Both methods are evaluated.
- Scores are generated per scenario.
- Final leaderboard compares directLLM vs sttiup_agent.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Automate MinMax Scenario Runs and Leaderboard #378

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Automate MinMax Scenario Runs and Leaderboard #378

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions