(improvement)(common|headless|chat|auth) 鉴权优化与召回优化

1 修复生成的用户token 一生成就失效的问题 2 如果用户设置的token ，需校验是否数据库存在，因为用户可设置一年的token 有泄露风险 3 结果解析优化，去除不可以解析的情况，解析问题需要改写后的问， 4 召回样例，用相似度，保住至少有一个样例是高相似度的 5 数据集召回，填加完全匹配格式筛选逻辑
2026-06-26 14:49:31 +08:00 · 2025-06-23 09:47:48 +08:00
parent 0721df2e66
commit 7e6639df83
8 changed files with 84 additions and 18 deletions
--- a/headless/api/src/main/java/com/tencent/supersonic/headless/api/pojo/SemanticParseInfo.java
+++ b/headless/api/src/main/java/com/tencent/supersonic/headless/api/pojo/SemanticParseInfo.java
@@ -18,6 +18,7 @@ import java.util.List;
 import java.util.Map;
 import java.util.Objects;
 import java.util.Set;
+import java.util.stream.Collectors;

 import static com.tencent.supersonic.common.pojo.Constants.DEFAULT_DETAIL_LIMIT;
 import static com.tencent.supersonic.common.pojo.Constants.DEFAULT_METRIC_LIMIT;
@@ -65,12 +66,23 @@ public class SemanticParseInfo implements Serializable {
            DataSetMatchResult mr2 = getDataSetMatchResult(o2.getElementMatches());

            double difference = mr1.getMaxDatesetSimilarity() - mr2.getMaxDatesetSimilarity();
-            if (difference == 0) {
+            if (Math.abs(difference) < 0.0005) { //  看完全匹配的个数，实践证明，可以用户输入规范后，该逻辑具有优势
+                if (!o1.getDataSetId().equals(o2.getDataSetId())) {
+                    List<SchemaElementMatch> elementMatches1 = o1.getElementMatches().stream()
+                            .filter(e -> e.getSimilarity() == 1).collect(Collectors.toList());
+                    List<SchemaElementMatch> elementMatches2 = o2.getElementMatches().stream()
+                            .filter(e -> e.getSimilarity() == 1).collect(Collectors.toList());
+                    if (elementMatches1.size() > elementMatches2.size()) {
+                        return -1;
+                    } else if (elementMatches1.size() < elementMatches2.size()) {
+                        return 1;
+                    }
+                }
                difference = mr1.getMaxMetricSimilarity() - mr2.getMaxMetricSimilarity();
-                if (difference == 0) {
+                if (Math.abs(difference) < 0.0005) {
                    difference = mr1.getTotalSimilarity() - mr2.getTotalSimilarity();
                }
-                if (difference == 0) {
+                if (Math.abs(difference) < 0.0005) {
                    difference = mr1.getMaxMetricUseCnt() - mr2.getMaxMetricUseCnt();
                }
            }
--- a/headless/chat/src/main/java/com/tencent/supersonic/headless/chat/parser/llm/PromptHelper.java
+++ b/headless/chat/src/main/java/com/tencent/supersonic/headless/chat/parser/llm/PromptHelper.java
@@ -14,10 +14,8 @@ import org.springframework.beans.factory.annotation.Autowired;
 import org.springframework.stereotype.Component;
 import org.springframework.util.CollectionUtils;

-import java.util.ArrayList;
-import java.util.Collections;
-import java.util.List;
-import java.util.Objects;
+import java.util.*;
+import java.util.stream.Collectors;

 import static com.tencent.supersonic.headless.chat.parser.ParserConfig.*;

@@ -51,13 +49,33 @@ public class PromptHelper {
        // use random collection of exemplars for each self-consistency inference
        for (int i = 0; i < selfConsistencyNumber; i++) {
            List<Text2SQLExemplar> shuffledList = new ArrayList<>(exemplars);
-            // only shuffle the exemplars from config
-            List<Text2SQLExemplar> subList =
-                    shuffledList.subList(llmReq.getDynamicExemplars().size(), shuffledList.size());
-            Collections.shuffle(subList);
-            results.add(shuffledList.subList(0, Math.min(shuffledList.size(), fewShotNumber)));
+            List<Text2SQLExemplar> same = shuffledList.stream() //  相似度极高的话，先找出来
+                    .filter(e -> e.getSimilarity() > 0.989).collect(Collectors.toList());
+            List<Text2SQLExemplar> noSame = shuffledList.stream()
+                    .filter(e -> e.getSimilarity() <= 0.989).collect(Collectors.toList());
+            if ((noSame.size() - same.size()) > fewShotNumber) {// 去除部分最低分
+                noSame.sort(Comparator.comparingDouble(Text2SQLExemplar::getSimilarity));
+                noSame = noSame.subList((noSame.size() - fewShotNumber) / 2, noSame.size());
+            }
+            Text2SQLExemplar mostSimilar = noSame.get(noSame.size() - 1);
+            Collections.shuffle(noSame);
+            List<Text2SQLExemplar> ts;
+            if (same.size() > 0) {// 一样的话，必须作为提示语
+                ts = new ArrayList<>();
+                int needSize = Math.min(noSame.size() + same.size(), fewShotNumber);
+                if (needSize > same.size()) {
+                    ts.addAll(noSame.subList(0, needSize - same.size()));
+                }
+                ts.addAll(same);
+            } else { // 至少要一个最像的
+                ts = noSame.subList(0, Math.min(noSame.size(), fewShotNumber));
+                if (!ts.contains(mostSimilar)) {
+                    ts.remove(ts.size() - 1);
+                    ts.add(mostSimilar);
+                }
+            }
+            results.add(ts);
        }
-
        return results;
    }