Move regression tests to evaluation/ (#86)

* Move regression tests to evaluation/ * use pythnon instead of docker in the script * add model para * change python to python3 * bug fix
2026-03-22 13:47:19 +08:00 · 2024-03-22 08:26:37 -07:00
parent 2ba6fb1e7b
commit cfefc47439
114 changed files with 67 additions and 27 deletions
--- a/agenthub/langchains_agent/regression/cases/client-server/workspace/client/.env
+++ b/agenthub/langchains_agent/regression/cases/client-server/workspace/client/.env
@@ -1 +0,0 @@
-PORT=3001
--- a/agenthub/langchains_agent/regression/run.sh
+++ b/agenthub/langchains_agent/regression/run.sh
@@ -1,26 +0,0 @@
-#!/bin/bash
-set -eo pipefail
-
-SCRIPT_DIR=$( cd -- "$( dirname -- "${BASH_SOURCE[0]}" )" &> /dev/null && pwd )
-CASES_DIR=$SCRIPT_DIR/cases
-
-docker build -t control-loop $SCRIPT_DIR/..
-
-# iterate over cases dir
-for case in $(ls $CASES_DIR); do
-  # run the case
-  if [[ -n $TEST_CASE && $case != $TEST_CASE ]]; then
-    continue
-  fi
-  echo "Running case: $case"
-  case_dir=$CASES_DIR/$case
-  task=$(cat $case_dir/task.txt)
-  rm -rf $case_dir/workspace
-  if [[ -d $case_dir/start ]]; then
-    cp -r $case_dir/start $case_dir/workspace
-  else
-    mkdir $case_dir/workspace
-  fi
-  docker run -e DEBUG=$DEBUG -e OPENAI_API_KEY=$OPENAI_API_KEY -v $case_dir/workspace:/workspace control-loop python /app/main.py -d /workspace -t "${task}" | tee $case_dir/logs.txt
-  rm -rf $case_dir/workspace/.git
-done
--- a/agenthub/langchains_agent/regression/.gitignore
+++ b/agenthub/langchains_agent/regression/.gitignore
--- a/agenthub/langchains_agent/regression/README.md
+++ b/agenthub/langchains_agent/regression/README.md
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/.gitignore
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/.gitignore
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/README.md
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/README.md
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/package-lock.json
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/package-lock.json
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/package.json
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/package.json
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/favicon.ico
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/favicon.ico
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/index.html
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/index.html
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/logo192.png
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/logo192.png
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/logo512.png
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/logo512.png
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/manifest.json
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/manifest.json
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/robots.txt
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/public/robots.txt
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.css
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.css
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.js
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.test.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/App.test.js
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/index.css
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/index.css
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/index.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/index.js
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/logo.svg
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/logo.svg
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/reportWebVitals.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/reportWebVitals.js
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/setupTests.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/client/src/setupTests.js
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/package-lock.json
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/package-lock.json
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/package.json
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/package.json
--- a/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/server.js
+++ b/evaluation/regression/cases/client-server/outputs/langchains_agent/workspace/server.js
--- a/agenthub/langchains_agent/regression/cases/client-server/task.txt
+++ b/agenthub/langchains_agent/regression/cases/client-server/task.txt
--- a/evaluation/regression/cases/express/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/express/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/express/outputs/langchains_agent/workspace/index.js
+++ b/evaluation/regression/cases/express/outputs/langchains_agent/workspace/index.js
--- a/evaluation/regression/cases/express/outputs/langchains_agent/workspace/package-lock.json
+++ b/evaluation/regression/cases/express/outputs/langchains_agent/workspace/package-lock.json
--- a/evaluation/regression/cases/express/outputs/langchains_agent/workspace/package.json
+++ b/evaluation/regression/cases/express/outputs/langchains_agent/workspace/package.json
--- a/agenthub/langchains_agent/regression/cases/express/task.txt
+++ b/agenthub/langchains_agent/regression/cases/express/task.txt
--- a/evaluation/regression/cases/hello-name/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/hello-name/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/hello-name/outputs/langchains_agent/workspace/hello_world.sh
+++ b/evaluation/regression/cases/hello-name/outputs/langchains_agent/workspace/hello_world.sh
--- a/agenthub/langchains_agent/regression/cases/hello-name/start/hello_world.sh
+++ b/agenthub/langchains_agent/regression/cases/hello-name/start/hello_world.sh
--- a/agenthub/langchains_agent/regression/cases/hello-name/task.txt
+++ b/agenthub/langchains_agent/regression/cases/hello-name/task.txt
--- a/evaluation/regression/cases/hello-world/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/hello-world/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/hello-world/outputs/langchains_agent/workspace/hello_world.sh
+++ b/evaluation/regression/cases/hello-world/outputs/langchains_agent/workspace/hello_world.sh
--- a/agenthub/langchains_agent/regression/cases/hello-world/task.txt
+++ b/agenthub/langchains_agent/regression/cases/hello-world/task.txt
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/cli.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/cli.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/index.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/index.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/length.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/length.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/length.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/length.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/lowercase.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/lowercase.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/lowercase.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/lowercase.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/reverse.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/reverse.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/reverse.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/reverse.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/scramble.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/scramble.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/scramble.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/scramble.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/spongebob.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/spongebob.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/spongebob.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/spongebob.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/uppercase.js
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/uppercase.js
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/uppercase.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/commands/uppercase.py
--- a/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/string_cli.py
+++ b/evaluation/regression/cases/node-cli-rewrite/outputs/langchains_agent/workspace/string_cli.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/length.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/length.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/lowercase.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/lowercase.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/reverse.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/reverse.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/scramble.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/scramble.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/spongebob.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/spongebob.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/uppercase.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/commands/uppercase.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/string_cli.py
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/workspace/string_cli.py
--- a/agenthub/langchains_agent/regression/cases/node-cli-rewrite/task.txt
+++ b/agenthub/langchains_agent/regression/cases/node-cli-rewrite/task.txt
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/length.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/length.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/lowercase.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/lowercase.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/reverse.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/reverse.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/scramble.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/scramble.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/spongebob.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/spongebob.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/uppercase.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/commands/uppercase.py
--- a/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/string_cli.py
+++ b/evaluation/regression/cases/python-cli-help/outputs/langchains_agent/workspace/string_cli.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/length.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/length.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/lowercase.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/lowercase.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/reverse.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/reverse.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/scramble.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/scramble.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/spongebob.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/spongebob.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/uppercase.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/workspace/commands/uppercase.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/start/string_cli.py
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/start/string_cli.py
--- a/agenthub/langchains_agent/regression/cases/python-cli-help/task.txt
+++ b/agenthub/langchains_agent/regression/cases/python-cli-help/task.txt
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/length.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/length.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/lowercase.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/lowercase.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/reverse.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/reverse.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/scramble.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/scramble.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/spongebob.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/spongebob.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/uppercase.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/commands/uppercase.py
--- a/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/string_cli.py
+++ b/evaluation/regression/cases/python-cli/outputs/langchains_agent/workspace/string_cli.py
--- a/agenthub/langchains_agent/regression/cases/python-cli/task.txt
+++ b/agenthub/langchains_agent/regression/cases/python-cli/task.txt
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/logs.txt
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/logs.txt
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/.gitignore
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/.gitignore
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/README.md
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/README.md
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/package-lock.json
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/package-lock.json
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/package.json
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/package.json
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/favicon.ico
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/favicon.ico
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/index.html
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/index.html
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/logo192.png
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/logo192.png
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/logo512.png
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/logo512.png
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/manifest.json
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/manifest.json
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/robots.txt
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/public/robots.txt
--- a/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/src/App.css
+++ b/evaluation/regression/cases/react-todo/outputs/langchains_agent/workspace/todo-app/src/App.css
--- a/Show More
+++ b/Show More