Files
supersonic/evaluation

评测流程

  1. 正常启动项目(必须包括LLM服务)
  2. 执行evalution.sh脚本主要包括构建表数据、数据建模、获取模型预测结果执行对比逻辑。可以在命令行看到执行准确率错误case会写到同目录的error_case.json文件中。

评测意义

制定评测工具方便supersonic快速对接其他大模型、更改参数配置对于评估提示词、代码更改所带来的影响至关重要可以帮助我们了解这些变化是否会提高或降低准确率、响应速度。