fix(evaluation): SWE-bench evaluation script supports multiprocessing (#4943)

2026-03-22 13:47:19 +08:00 · 2024-11-12 12:19:57 -07:00
parent 0cfb132ab7
commit 50e7da9c3d
2 changed files with 39 additions and 5 deletions
--- a/evaluation/utils/shared.py
+++ b/evaluation/utils/shared.py
@@ -346,6 +346,7 @@ def run_evaluation(
            f'model {metadata.llm_config.model}, max iterations {metadata.max_iterations}.\n'
        )
    else:
+        logger.warning('Running evaluation without metadata.')
        logger.info(f'Evaluation started with {num_workers} workers.')

    total_instances = len(dataset)