From fdfad515dd87e96e647efb2346926a89b9c640b3 Mon Sep 17 00:00:00 2001
From: mainmain <57514971+mainmainer@users.noreply.github.com>
Date: Tue, 30 Jan 2024 16:44:12 +0800
Subject: [PATCH] [improvement] add evalution readme.md (#697)

---
 evaluation/README_CN.md | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/evaluation/README_CN.md b/evaluation/README_CN.md
index 6b2784ac2..41e3300d7 100644
--- a/evaluation/README_CN.md
+++ b/evaluation/README_CN.md
@@ -1,5 +1,10 @@
 # 评测流程
 
-1、正常启动项目(必须包括LLM服务)
-2、将要评测问题放到evalution/data目录下，如：internet.txt；将要评测问题对应的SQL也放到evalution/data目录下，如：gold_example_dusql.txt。
-3、执行evalution.sh脚本，主要包括构建表数据、获取模型预测结果，执行对比逻辑。可以在命令行看到执行准确率，错误case会写到同目录的eval.json文件中。
+1. 正常启动项目(必须包括LLM服务)
+2. 将要评测问题放到evalution/data目录下，如：internet.txt；将要评测问题对应的SQL也放到evalution/data目录下，如：gold_example_dusql.txt。
+3. 执行evalution.sh脚本，主要包括构建表数据、获取模型预测结果，执行对比逻辑。可以在命令行看到执行准确率，错误case会写到同目录的eval.json文件中。
+
+# 评测意义
+
+制定大模型评估框架对于提示词或代码更改的影响至关重要，可以帮助我们了解这些变化是否会提高或降低准确率、响应速度。 随着产品规模的扩大，如果没有这样的框架，就会发现自己在盲目地调整黑匣子，有助于帮助我们减少问题、提高效率、增强模型能力。大模型评测的核心目的是确定模型的"聪明"程度，深入探讨其性能、特点和局限性，为行业应用提供方向。
+通过评测，我们可以更好地了解模型的性能、特点、价值、局限性和潜在风险，并为其发展和应用提供支持，具有重要意义。