(improvement) revise evaluation and fix null pointer (#715)

This commit is contained in:
mainmain
2024-02-04 20:16:07 +08:00
committed by GitHub
parent 75853a8e9e
commit da5e7b9b75
29 changed files with 431 additions and 122 deletions

View File

@@ -1,8 +1,8 @@
# 评测流程
1. 正常启动项目(必须包括LLM服务)
2. 执行evalution.sh脚本主要包括构建表数据、获取模型预测结果执行对比逻辑。可以在命令行看到执行准确率错误case会写到同目录的error_case.json文件中。
2. 执行evalution.sh脚本主要包括构建表数据、数据建模、获取模型预测结果执行对比逻辑。可以在命令行看到执行准确率错误case会写到同目录的error_case.json文件中。
# 评测意义
制定评估工具对于提示词或代码更改的影响至关重要,方便supersonic快速对接其他模型、更改配置,可以帮助我们了解这些变化是否会提高或降低准确率、响应速度。
制定评估工具方便supersonic快速对接其他模型、更改参数配置,对于提示词或代码更改的影响至关重要,可以帮助我们了解这些变化是否会提高或降低准确率、响应速度。