[improvement](llm) data de-identification for few-shots examples. (#17)

Co-authored-by: shaoweigong <shaoweigong@tencent.com>
This commit is contained in:
codescracker
2023-07-17 20:36:31 +08:00
committed by GitHub
parent 041daad1e4
commit 6492316e23

View File

@@ -2,13 +2,13 @@ examplars = [
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
"fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""", "fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question": "比较jerryjzhang和lexluo在内容库的访问次数", "question":"比较jerry和tom在内容库的访问次数",
"analysis": """让我们一步一步地思考。在问题“比较jerryjzhang和lexluo在内容库的访问次数“中,我们被问: "analysis": """让我们一步一步地思考。在问题“比较jerry和tom在内容库的访问次数“中,我们被问:
比较jerryjzhang和lexluo所以我们需要column=[用户名] 内容库的访问次数所以我们需要column=[访问次数]
内容库的访问次数所以我们需要column=[访问次数] 比较jerry和tom所以我们需要column=[用户名]
基于table和columns可能的cell values 是 = ['jerryjzhang', 'lexluo']。""", 基于table和columns可能的cell values 是 = ['jerry', 'tom']。""",
"schema_links": """["用户名", "访问次数", "'jerryjzhang'", "'lexluo'"]""", "schema_links":"""["访问次数", "用户名", "'jerry'", "'tom'"]""",
"sql": """select 用户名, 访问次数 from 内容库产品 where 用户名 in ('jerryjzhang', 'lexluo')""" "sql":"""select 用户名, 访问次数 from 内容库产品 where 用户名 in ('jerry', 'tom')"""
}, },
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
@@ -24,54 +24,54 @@ examplars = [
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
"fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""", "fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question": "内容库内容合作部、生态业务部的访问时长", "question":"内容库编辑部、美术部的访问时长",
"analysis": """让我们一步一步地思考。在问题“内容库内容合作部、生态业务部的访问时长“中,我们被问: "analysis": """让我们一步一步地思考。在问题“内容库编辑部、美术部的访问时长“中,我们被问:
“访问时长”所以我们需要column=[访问时长] “访问时长”所以我们需要column=[访问时长]
”内容库内容合作部、生态业务部“所以我们需要column=[部门] ”内容库编辑部、美术部“所以我们需要column=[部门]
基于table和columns可能的cell values 是 = ['内容合作', '生态业务']。""", 基于table和columns可能的cell values 是 = ['编辑', '美术']。""",
"schema_links": """["访问时长", "部门", "'内容合作'", "'生态业务'"]""", "schema_links":"""["访问时长", "部门", "'编辑'", "'美术'"]""",
"sql": """select 部门, 访问时长 from 内容库产品 where 部门 in ('内容合作', '生态业务')""" "sql":"""select 部门, 访问时长 from 内容库产品 where 部门 in ('编辑', '美术')"""
}, },
{ {
"table_name": "", "table_name":"",
"fields_list": """['优选版权归属系', '付费模式', '结算播放份额', '付费用户结算播放份额']""", "fields_list":"""['归属系', '付费模式', '结算播放份额', '付费用户结算播放份额']""",
"question": "近3天阔景系TME结算播放份额", "question":"近3天飞天系结算播放份额",
"analysis": """让我们一步一步地思考。在问题“近3天阔景系TME结算播放份额“中,我们被问: "analysis": """让我们一步一步地思考。在问题“近3天飞天系结算播放份额“中,我们被问:
TME结算播放份额”所以我们需要column=[结算播放份额] “结算播放份额”所以我们需要column=[结算播放份额]
阔景系“所以我们需要column=[优选版权归属系] 飞天系“所以我们需要column=[归属系]
基于table和columns可能的cell values 是 = ['阔景']。""", 基于table和columns可能的cell values 是 = ['飞天']。""",
"schema_links": """["结算播放份额", "优选版权归属系", "'阔景'"]""", "schema_links":"""["结算播放份额", "归属系", "'飞天'"]""",
"sql": """select 优选版权归属系, 结算播放份额 from 选 where 优选版权归属系 in ('阔景')""" "sql":"""select 归属系, 结算播放份额 from 选 where 归属系 in ('飞天')"""
}, },
{ {
"table_name":"歌曲库", "table_name":"歌曲库",
"fields_list": """['是否音乐人歌曲', 'Q音歌曲ID', 'Q音歌曲MID', '歌曲名', '歌曲版本', '歌曲类型', '翻唱类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '结算播放量', '运营播放量', '付费用户结算播放量', '历史累计结算播放量', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播率', '日均搜播量']""", "fields_list":"""['歌曲ID', '歌曲MID', '歌曲名', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放量', '历史累计结算播放量', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播率', '日均搜播量']""",
"question":"对比近3天翻唱版和纯音乐的歌曲播放量", "question":"对比近3天翻唱版和纯音乐的歌曲播放量",
"analysis": """让我们一步一步地思考。在问题“对比近3天翻唱版和纯音乐的歌曲播放量“中我们被问 "analysis": """让我们一步一步地思考。在问题“对比近3天翻唱版和纯音乐的歌曲播放量“中我们被问
“歌曲播放量”所以我们需要column=[结算播放量] “歌曲播放量”所以我们需要column=[结算播放量]
”翻唱版和纯音乐的歌曲所以我们需要column=[歌曲类型] ”翻唱版和纯音乐“所以我们需要column=[歌曲类型]
基于table和columns可能的cell values 是 = ['翻唱版', '纯音乐']。""", 基于table和columns可能的cell values 是 = ['翻唱版', '纯音乐']。""",
"schema_links":"""["结算播放量", "歌曲类型", "'翻唱版'", "'纯音乐'"]""", "schema_links":"""["结算播放量", "歌曲类型", "'翻唱版'", "'纯音乐'"]""",
"sql":"""select 歌曲类型, 结算播放量 from 歌曲库 where 歌曲类型 in ('翻唱版', '纯音乐')""" "sql":"""select 歌曲类型, 结算播放量 from 歌曲库 where 歌曲类型 in ('翻唱版', '纯音乐')"""
}, },
{ {
"table_name":"艺人库", "table_name":"艺人库",
"fields_list": """['上下架状态', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '活跃区域', '年龄', '歌手才能', '歌手风格', '粉丝数', '抖音粉丝数', '网易粉丝数', '微博粉丝数', '网易歌曲数', '在架歌曲数', '网易分享数', '独占歌曲数', '网易在架歌曲评论', '有播放量歌曲数']""", "fields_list":"""['上下架状态', '歌手名', '歌手等级', '歌手类型', '歌手来源', '活跃区域', '年龄', '歌手才能', '歌手风格', '粉丝数', '在架歌曲', '有播放量歌曲数']""",
"question": "对比一下陈卓璇、孟美岐、赖美云的粉丝数", "question":"对比一下流得滑、锅富程、章雪友的粉丝数",
"analysis": """让我们一步一步地思考。在问题“对比一下陈卓璇、孟美岐、赖美云的粉丝数“中,我们被问: "analysis": """让我们一步一步地思考。在问题“对比一下流得滑、锅富程、章雪友的粉丝数“中,我们被问:
“粉丝数”所以我们需要column=[粉丝数] “粉丝数”所以我们需要column=[粉丝数]
陈卓璇、孟美岐、赖美云所以我们需要column=[歌手名] 流得滑、锅富程、章雪友所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['陈卓璇', '孟美岐', '赖美云']。""", 基于table和columns可能的cell values 是 = ['流得滑', '锅富程', '章雪友']。""",
"schema_links": """["粉丝数", "歌手名", "'陈卓璇'", "'孟美岐'", "'赖美云'"]""", "schema_links":"""["粉丝数", "歌手名", "'流得滑'", "'锅富程'", "'章雪友'"]""",
"sql": """select 歌手名, 粉丝数 from 艺人库 where 歌手名 in ('陈卓璇', '孟美岐', '赖美云')""" "sql":"""select 歌手名, 粉丝数 from 艺人库 where 歌手名 in ('流得滑', '锅富程', '章雪友')"""
}, },
{ {
"table_name":"歌曲库", "table_name":"歌曲库",
"fields_list": """['歌曲', '歌曲版本', '歌曲类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '是否音乐人歌曲', '网易歌曲ID', 'Q音歌曲ID', 'Q音歌曲MID', '结算播放量', '运营播放量', '分享', '收藏', '运营搜播量', '结算搜播量', '拉新用户数', '拉活用户数', '分享', '结算播放份额']""", "fields_list":"""['歌曲ID', '歌曲MID', '歌曲', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放', '历史累计结算播放', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播', '日均搜播量']""",
"question":"播放量大于1万的歌曲有多少", "question":"播放量大于1万的歌曲有多少",
"analysis": """让我们一步一步地思考。在问题“播放量大于1万的歌曲有多少“中我们被问 "analysis": """让我们一步一步地思考。在问题“播放量大于1万的歌曲有多少“中我们被问
“歌曲有多少”所以我们需要column=[歌曲名] “歌曲有多少”所以我们需要column=[歌曲名]
”播放量大于1万所以我们需要column=[结算播放量] ”播放量大于1万“所以我们需要column=[结算播放量]
基于table和columns可能的cell values 是 = [10000]。""", 基于table和columns可能的cell values 是 = [10000]。""",
"schema_links":"""["歌曲名", "结算播放量", 10000]""", "schema_links":"""["歌曲名", "结算播放量", 10000]""",
"sql":"""select 歌曲名 from 歌曲库 where 结算播放量 > 10000""" "sql":"""select 歌曲名 from 歌曲库 where 结算播放量 > 10000"""
@@ -79,14 +79,14 @@ examplars = [
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
"fields_list":"""['用户名', '部门', '模块', '访问时长', '访问次数', '访问人数']""", "fields_list":"""['用户名', '部门', '模块', '访问时长', '访问次数', '访问人数']""",
"question": "内容库访问时长小于1小时且来自内容合作部的用户是哪些", "question":"内容库访问时长小于1小时且来自美术部的用户是哪些",
"analysis": """让我们一步一步地思考。在问题“内容库访问时长小于1小时且来自内容合作部的用户是哪些“中,我们被问: "analysis": """让我们一步一步地思考。在问题“内容库访问时长小于1小时且来自美术部的用户是哪些“中,我们被问:
“用户是哪些”所以我们需要column=[用户名] “用户是哪些”所以我们需要column=[用户名]
内容合作部的“所以我们需要column=[部门] 美术部的“所以我们需要column=[部门]
”访问时长小于1小时“所以我们需要column=[访问时长] ”访问时长小于1小时“所以我们需要column=[访问时长]
基于table和columns可能的cell values 是 = ['内容合作', 1]。""", 基于table和columns可能的cell values 是 = ['美术', 1]。""",
"schema_links": """["用户名", "部门", "访问时长", "'内容合作'", 1]""", "schema_links":"""["用户名", "部门", "访问时长", "'美术'", 1]""",
"sql": """select 用户名 from 内容库产品 where 部门 = '内容合作' and 访问时长 < 1""" "sql":"""select 用户名 from 内容库产品 where 部门 = '美术' and 访问时长 < 1"""
}, },
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
@@ -101,25 +101,25 @@ examplars = [
}, },
{ {
"table_name":"艺人库", "table_name":"艺人库",
"fields_list": """['播放量层级', '播放量单调性', '播放量方差', '播放量突增类型', '播放量集中度', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放量', '结算播放量占比', '运营播放份额', '免费用户结算播放占比', '完播量']""", "fields_list":"""['歌手名', '歌手等级', '歌手类型', '歌手来源', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放量', '结算播放量占比', '运营播放份额', '完播量']""",
"question": "近90天袁娅维播放量平均值是多少", "question":"近90天袁呀味播放量平均值是多少",
"analysis": """让我们一步一步地思考。在问题“近90天袁娅维播放量平均值是多少“中,我们被问: "analysis": """让我们一步一步地思考。在问题“近90天袁呀味播放量平均值是多少“中,我们被问:
“播放量平均值是多少”所以我们需要column=[结算播放量] “播放量平均值是多少”所以我们需要column=[结算播放量]
”袁娅维所以我们需要column=[歌手名] ”袁呀味所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['娅维']。""", 基于table和columns可能的cell values 是 = ['呀味']。""",
"schema_links": """["结算播放量", "歌手名", "'娅维'"]""", "schema_links":"""["结算播放量", "歌手名", "'呀味'"]""",
"sql": """select avg(结算播放量) from 艺人库 where 歌手名 = '娅维'""" "sql":"""select avg(结算播放量) from 艺人库 where 歌手名 = '呀味'"""
}, },
{ {
"table_name":"艺人库", "table_name":"艺人库",
"fields_list": """['播放量层级', '播放量单调性', '播放量方差', '播放量突增类型', '播放量集中度', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '结算播放量', '历史累计结算播放量', '付费用户结算播放量', '结算播放量占比', '免费用户结算播放占比', '付费用户结算播放占比', '付费用户结算播放占比', '运营播放', '有播放量歌曲数', '历史累计运营播放']""", "fields_list":"""['歌手名', '歌手等级', '歌手类型', '歌手来源', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放', '结算播放占比', '运营播放份额', '完播']""",
"question": "近7天结算播放量总和是多少", "question":"近7天结算播放量总和是多少",
"analysis": """让我们一步一步地思考。在问题“周近7天结算播放量总和是多少“中我们被问 "analysis": """让我们一步一步地思考。在问题“周近7天结算播放量总和是多少“中我们被问
“结算播放量总和是多少”所以我们需要column=[结算播放量] “结算播放量总和是多少”所以我们需要column=[结算播放量]
”周所以我们需要column=[歌手名] ”周所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['']。""", 基于table和columns可能的cell values 是 = ['']。""",
"schema_links": """["结算播放量", "歌手名", "''"]""", "schema_links":"""["结算播放量", "歌手名", "''"]""",
"sql": """select sum(结算播放量) from 艺人库 where 歌手名 = ''""" "sql":"""select sum(结算播放量) from 艺人库 where 歌手名 = ''"""
}, },
{ {
"table_name":"内容库产品", "table_name":"内容库产品",
@@ -134,14 +134,14 @@ examplars = [
}, },
{ {
"table_name":"歌曲库", "table_name":"歌曲库",
"fields_list": """['歌曲', '歌手名' , '歌曲版本', '歌曲类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '是否音乐人歌曲', '网易歌曲ID', 'Q音歌曲ID', 'Q音歌曲MID', '结算播放量', '运营播放量', '分享', '收藏', '运营搜播量', '结算搜播量', '拉新用户数', '拉活用户数', '分享', '结算播放份额']""", "fields_list":"""['歌曲ID', '歌曲MID', '歌曲', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放', '历史累计结算播放', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播', '日均搜播量']""",
"question": "迅唱的所有的播放量大于20k的孤勇者有哪些", "question":"迅唱的所有的播放量大于20k的雇佣者有哪些",
"analysis": """让我们一步一步地思考。在问题“陈迅唱的所有的播放量大于20k的孤勇者有哪些“中,我们被问: "analysis": """让我们一步一步地思考。在问题“陈迅唱的所有的播放量大于20k的雇佣者有哪些“中,我们被问:
孤勇者有哪些”所以我们需要column=[歌曲名] 雇佣者有哪些”所以我们需要column=[歌曲名]
”播放量大于20k的“所以我们需要column=[结算播放量] ”播放量大于20k的“所以我们需要column=[结算播放量]
”陈迅唱的“所以我们需要column=[歌手名] ”陈迅唱的“所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = [20000, '']。""", 基于table和columns可能的cell values 是 = [20000, '']。""",
"schema_links": """["歌曲名", "结算播放量", "歌手名", 20000, "''"]""", "schema_links":"""["歌曲名", "结算播放量", "歌手名", 20000, "''"]""",
"sql": """select 歌曲名 from 歌曲库 where 结算播放量 > 20000 and 歌手名 = ''""" "sql":"""select 歌曲名 from 歌曲库 where 结算播放量 > 20000 and 歌手名 = ''"""
} }
] ]