[improvement](llm) data de-identification for few-shots examples. (#17)

Co-authored-by: shaoweigong <shaoweigong@tencent.com>
This commit is contained in:
codescracker
2023-07-17 20:36:31 +08:00
committed by GitHub
parent 041daad1e4
commit 6492316e23

View File

@@ -1,147 +1,147 @@
examplars = [
{
"table_name": "内容库产品",
"fields_list": """["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question": "比较jerryjzhang和lexluo在内容库的访问次数",
"analysis": """让我们一步一步地思考。在问题“比较jerryjzhang和lexluo在内容库的访问次数“中,我们被问:
比较jerryjzhang和lexluo所以我们需要column=[用户名]
内容库的访问次数所以我们需要column=[访问次数]
基于table和columns可能的cell values 是 = ['jerryjzhang', 'lexluo']。""",
"schema_links": """["用户名", "访问次数", "'jerryjzhang'", "'lexluo'"]""",
"sql": """select 用户名, 访问次数 from 内容库产品 where 用户名 in ('jerryjzhang', 'lexluo')"""
},
{
"table_name": "内容库产品",
"fields_list": """["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question": "内容库近12个月访问人数 按部门",
"analysis": """让我们一步一步地思考。在问题“内容库近12个月访问人数 按部门“中,我们被问:
examplars= [
{
"table_name":"内容库产品",
"fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question":"比较jerry和tom在内容库的访问次数",
"analysis": """让我们一步一步地思考。在问题“比较jerry和tom在内容库的访问次数“中,我们被问:
内容库的访问次数所以我们需要column=[访问次数]
比较jerry和tom所以我们需要column=[用户名]
基于table和columns可能的cell values 是 = ['jerry', 'tom']。""",
"schema_links":"""["访问次数", "用户名", "'jerry'", "'tom'"]""",
"sql":"""select 用户名, 访问次数 from 内容库产品 where 用户名 in ('jerry', 'tom')"""
},
{
"table_name":"内容库产品",
"fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question":"内容库近12个月访问人数 按部门",
"analysis": """让我们一步一步地思考。在问题“内容库近12个月访问人数 按部门“中,我们被问:
“内容库近12个月访问人数”所以我们需要column=[访问人数]
”按部门“所以我们需要column=[部门]
基于table和columns可能的cell values 是 = []。""",
"schema_links": """["访问人数", "部门"]""",
"sql": """select 部门, sum(访问人数) from 内容库产品 where 部门 group by 部门"""
},
{
"table_name": "内容库产品",
"fields_list": """["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question": "内容库内容合作部、生态业务部的访问时长",
"analysis": """让我们一步一步地思考。在问题“内容库内容合作部、生态业务部的访问时长“中,我们被问:
"schema_links":"""["访问人数", "部门"]""",
"sql":"""select 部门, sum(访问人数) from 内容库产品 where 部门 group by 部门"""
},
{
"table_name":"内容库产品",
"fields_list":"""["部门", "模块", "用户名", "访问次数", "访问人数", "访问时长"]""",
"question":"内容库编辑部、美术部的访问时长",
"analysis": """让我们一步一步地思考。在问题“内容库编辑部、美术部的访问时长“中,我们被问:
“访问时长”所以我们需要column=[访问时长]
”内容库内容合作部、生态业务部“所以我们需要column=[部门]
基于table和columns可能的cell values 是 = ['内容合作', '生态业务']。""",
"schema_links": """["访问时长", "部门", "'内容合作'", "'生态业务'"]""",
"sql": """select 部门, 访问时长 from 内容库产品 where 部门 in ('内容合作', '生态业务')"""
},
{
"table_name": "",
"fields_list": """['优选版权归属系', '付费模式', '结算播放份额', '付费用户结算播放份额']""",
"question": "近3天阔景系TME结算播放份额",
"analysis": """让我们一步一步地思考。在问题“近3天阔景系TME结算播放份额“中,我们被问:
TME结算播放份额”所以我们需要column=[结算播放份额]
阔景系“所以我们需要column=[优选版权归属系]
基于table和columns可能的cell values 是 = ['阔景']。""",
"schema_links": """["结算播放份额", "优选版权归属系", "'阔景'"]""",
"sql": """select 优选版权归属系, 结算播放份额 from 选 where 优选版权归属系 in ('阔景')"""
},
{
"table_name": "歌曲库",
"fields_list": """['是否音乐人歌曲', 'Q音歌曲ID', 'Q音歌曲MID', '歌曲名', '歌曲版本', '歌曲类型', '翻唱类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '结算播放量', '运营播放量', '付费用户结算播放量', '历史累计结算播放量', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播率', '日均搜播量']""",
"question": "对比近3天翻唱版和纯音乐的歌曲播放量",
"analysis": """让我们一步一步地思考。在问题“对比近3天翻唱版和纯音乐的歌曲播放量“中我们被问
”内容库编辑部、美术部“所以我们需要column=[部门]
基于table和columns可能的cell values 是 = ['编辑', '美术']。""",
"schema_links":"""["访问时长", "部门", "'编辑'", "'美术'"]""",
"sql":"""select 部门, 访问时长 from 内容库产品 where 部门 in ('编辑', '美术')"""
},
{
"table_name":"",
"fields_list":"""['归属系', '付费模式', '结算播放份额', '付费用户结算播放份额']""",
"question":"近3天飞天系结算播放份额",
"analysis": """让我们一步一步地思考。在问题“近3天飞天系结算播放份额“中,我们被问:
“结算播放份额”所以我们需要column=[结算播放份额]
飞天系“所以我们需要column=[归属系]
基于table和columns可能的cell values 是 = ['飞天']。""",
"schema_links":"""["结算播放份额", "归属系", "'飞天'"]""",
"sql":"""select 归属系, 结算播放份额 from 选 where 归属系 in ('飞天')"""
},
{
"table_name":"歌曲库",
"fields_list":"""['歌曲ID', '歌曲MID', '歌曲名', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放量', '历史累计结算播放量', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播率', '日均搜播量']""",
"question":"对比近3天翻唱版和纯音乐的歌曲播放量",
"analysis": """让我们一步一步地思考。在问题“对比近3天翻唱版和纯音乐的歌曲播放量“中我们被问
“歌曲播放量”所以我们需要column=[结算播放量]
”翻唱版和纯音乐的歌曲所以我们需要column=[歌曲类型]
”翻唱版和纯音乐“所以我们需要column=[歌曲类型]
基于table和columns可能的cell values 是 = ['翻唱版', '纯音乐']。""",
"schema_links": """["结算播放量", "歌曲类型", "'翻唱版'", "'纯音乐'"]""",
"sql": """select 歌曲类型, 结算播放量 from 歌曲库 where 歌曲类型 in ('翻唱版', '纯音乐')"""
},
{
"table_name": "艺人库",
"fields_list": """['上下架状态', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '活跃区域', '年龄', '歌手才能', '歌手风格', '粉丝数', '抖音粉丝数', '网易粉丝数', '微博粉丝数', '网易歌曲数', '在架歌曲数', '网易分享数', '独占歌曲数', '网易在架歌曲评论', '有播放量歌曲数']""",
"question": "对比一下陈卓璇、孟美岐、赖美云的粉丝数",
"analysis": """让我们一步一步地思考。在问题“对比一下陈卓璇、孟美岐、赖美云的粉丝数“中,我们被问:
"schema_links":"""["结算播放量", "歌曲类型", "'翻唱版'", "'纯音乐'"]""",
"sql":"""select 歌曲类型, 结算播放量 from 歌曲库 where 歌曲类型 in ('翻唱版', '纯音乐')"""
},
{
"table_name":"艺人库",
"fields_list":"""['上下架状态', '歌手名', '歌手等级', '歌手类型', '歌手来源', '活跃区域', '年龄', '歌手才能', '歌手风格', '粉丝数', '在架歌曲', '有播放量歌曲数']""",
"question":"对比一下流得滑、锅富程、章雪友的粉丝数",
"analysis": """让我们一步一步地思考。在问题“对比一下流得滑、锅富程、章雪友的粉丝数“中,我们被问:
“粉丝数”所以我们需要column=[粉丝数]
陈卓璇、孟美岐、赖美云所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['陈卓璇', '孟美岐', '赖美云']。""",
"schema_links": """["粉丝数", "歌手名", "'陈卓璇'", "'孟美岐'", "'赖美云'"]""",
"sql": """select 歌手名, 粉丝数 from 艺人库 where 歌手名 in ('陈卓璇', '孟美岐', '赖美云')"""
},
{
"table_name": "歌曲库",
"fields_list": """['歌曲', '歌曲版本', '歌曲类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '是否音乐人歌曲', '网易歌曲ID', 'Q音歌曲ID', 'Q音歌曲MID', '结算播放量', '运营播放量', '分享', '收藏', '运营搜播量', '结算搜播量', '拉新用户数', '拉活用户数', '分享', '结算播放份额']""",
"question": "播放量大于1万的歌曲有多少",
"analysis": """让我们一步一步地思考。在问题“播放量大于1万的歌曲有多少“中我们被问
流得滑、锅富程、章雪友所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['流得滑', '锅富程', '章雪友']。""",
"schema_links":"""["粉丝数", "歌手名", "'流得滑'", "'锅富程'", "'章雪友'"]""",
"sql":"""select 歌手名, 粉丝数 from 艺人库 where 歌手名 in ('流得滑', '锅富程', '章雪友')"""
},
{
"table_name":"歌曲库",
"fields_list":"""['歌曲ID', '歌曲MID', '歌曲', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放', '历史累计结算播放', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播', '日均搜播量']""",
"question":"播放量大于1万的歌曲有多少",
"analysis": """让我们一步一步地思考。在问题“播放量大于1万的歌曲有多少“中我们被问
“歌曲有多少”所以我们需要column=[歌曲名]
”播放量大于1万所以我们需要column=[结算播放量]
”播放量大于1万“所以我们需要column=[结算播放量]
基于table和columns可能的cell values 是 = [10000]。""",
"schema_links": """["歌曲名", "结算播放量", 10000]""",
"sql": """select 歌曲名 from 歌曲库 where 结算播放量 > 10000"""
},
{
"table_name": "内容库产品",
"fields_list": """['用户名', '部门', '模块', '访问时长', '访问次数', '访问人数']""",
"question": "内容库访问时长小于1小时且来自内容合作部的用户是哪些",
"analysis": """让我们一步一步地思考。在问题“内容库访问时长小于1小时且来自内容合作部的用户是哪些“中,我们被问:
"schema_links":"""["歌曲名", "结算播放量", 10000]""",
"sql":"""select 歌曲名 from 歌曲库 where 结算播放量 > 10000"""
},
{
"table_name":"内容库产品",
"fields_list":"""['用户名', '部门', '模块', '访问时长', '访问次数', '访问人数']""",
"question":"内容库访问时长小于1小时且来自美术部的用户是哪些",
"analysis": """让我们一步一步地思考。在问题“内容库访问时长小于1小时且来自美术部的用户是哪些“中,我们被问:
“用户是哪些”所以我们需要column=[用户名]
内容合作部的“所以我们需要column=[部门]
美术部的“所以我们需要column=[部门]
”访问时长小于1小时“所以我们需要column=[访问时长]
基于table和columns可能的cell values 是 = ['内容合作', 1]。""",
"schema_links": """["用户名", "部门", "访问时长", "'内容合作'", 1]""",
"sql": """select 用户名 from 内容库产品 where 部门 = '内容合作' and 访问时长 < 1"""
},
{
"table_name": "内容库产品",
"fields_list": """['用户名', '部门', '模块', '访问次数', '访问人数', '访问时长']""",
"question": "内容库pv最高的用户有哪些",
"analysis": """让我们一步一步地思考。在问题“内容库pv最高的用户有哪些“中我们被问
基于table和columns可能的cell values 是 = ['美术', 1]。""",
"schema_links":"""["用户名", "部门", "访问时长", "'美术'", 1]""",
"sql":"""select 用户名 from 内容库产品 where 部门 = '美术' and 访问时长 < 1"""
},
{
"table_name":"内容库产品",
"fields_list":"""['用户名', '部门', '模块', '访问次数', '访问人数', '访问时长']""",
"question":"内容库pv最高的用户有哪些",
"analysis": """让我们一步一步地思考。在问题“内容库pv最高的用户有哪些“中我们被问
“用户有哪些”所以我们需要column=[用户名]
”pv最高的“所以我们需要column=[访问次数]
基于table和columns可能的cell values 是 = []。""",
"schema_links": """["用户名", "访问次数"]""",
"sql": """select 用户名 from 内容库产品 order by 访问次数 desc limit 10"""
},
{
"table_name": "艺人库",
"fields_list": """['播放量层级', '播放量单调性', '播放量方差', '播放量突增类型', '播放量集中度', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放量', '结算播放量占比', '运营播放份额', '免费用户结算播放占比', '完播量']""",
"question": "近90天袁娅维播放量平均值是多少",
"analysis": """让我们一步一步地思考。在问题“近90天袁娅维播放量平均值是多少“中,我们被问:
"schema_links":"""["用户名", "访问次数"]""",
"sql":"""select 用户名 from 内容库产品 order by 访问次数 desc limit 10"""
},
{
"table_name":"艺人库",
"fields_list":"""['歌手名', '歌手等级', '歌手类型', '歌手来源', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放量', '结算播放量占比', '运营播放份额', '完播量']""",
"question":"近90天袁呀味播放量平均值是多少",
"analysis": """让我们一步一步地思考。在问题“近90天袁呀味播放量平均值是多少“中,我们被问:
“播放量平均值是多少”所以我们需要column=[结算播放量]
”袁娅维所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['娅维']。""",
"schema_links": """["结算播放量", "歌手名", "'娅维'"]""",
"sql": """select avg(结算播放量) from 艺人库 where 歌手名 = '娅维'"""
},
{
"table_name": "艺人库",
"fields_list": """['播放量层级', '播放量单调性', '播放量方差', '播放量突增类型', '播放量集中度', '歌手名', '歌手等级', '歌手类型', '歌手来源', 'TME音乐人等级', '结算播放量', '历史累计结算播放量', '付费用户结算播放量', '结算播放量占比', '免费用户结算播放占比', '付费用户结算播放占比', '付费用户结算播放占比', '运营播放', '有播放量歌曲数', '历史累计运营播放']""",
"question": "近7天结算播放量总和是多少",
"analysis": """让我们一步一步地思考。在问题“周近7天结算播放量总和是多少“中我们被问
”袁呀味所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['呀味']。""",
"schema_links":"""["结算播放量", "歌手名", "'呀味'"]""",
"sql":"""select avg(结算播放量) from 艺人库 where 歌手名 = '呀味'"""
},
{
"table_name":"艺人库",
"fields_list":"""['歌手名', '歌手等级', '歌手类型', '歌手来源', '结算播放量', '运营播放量', '历史累计结算播放量', '有播放量歌曲数', '历史累计运营播放量', '付费用户结算播放', '结算播放占比', '运营播放份额', '完播']""",
"question":"近7天结算播放量总和是多少",
"analysis": """让我们一步一步地思考。在问题“周近7天结算播放量总和是多少“中我们被问
“结算播放量总和是多少”所以我们需要column=[结算播放量]
”周所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['']。""",
"schema_links": """["结算播放量", "歌手名", "''"]""",
"sql": """select sum(结算播放量) from 艺人库 where 歌手名 = ''"""
},
{
"table_name": "内容库产品",
"fields_list": """['部门', '模块', '用户名', '访问次数', '访问人数', '访问时长']""",
"question": "内容库访问次数大于1k的部门是哪些",
"analysis": """让我们一步一步地思考。在问题“内容库访问次数大于1k的部门是哪些“中我们被问
”周所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = ['']。""",
"schema_links":"""["结算播放量", "歌手名", "''"]""",
"sql":"""select sum(结算播放量) from 艺人库 where 歌手名 = ''"""
},
{
"table_name":"内容库产品",
"fields_list":"""['部门', '模块', '用户名', '访问次数', '访问人数', '访问时长']""",
"question":"内容库访问次数大于1k的部门是哪些",
"analysis": """让我们一步一步地思考。在问题“内容库访问次数大于1k的部门是哪些“中我们被问
“部门是哪些”所以我们需要column=[部门]
”访问次数大于1k的“所以我们需要column=[访问次数]
基于table和columns可能的cell values 是 = [1000]。""",
"schema_links": """["部门", "访问次数", 1000]""",
"sql": """select 部门 from 内容库产品 where 访问次数 > 1000"""
},
{
"table_name": "歌曲库",
"fields_list": """['歌曲', '歌手名' , '歌曲版本', '歌曲类型', 'TME歌曲ID', '是否优选窄口径歌曲', '是否优选宽口径歌曲', '是否音乐人歌曲', '网易歌曲ID', 'Q音歌曲ID', 'Q音歌曲MID', '结算播放量', '运营播放量', '分享', '收藏', '运营搜播量', '结算搜播量', '拉新用户数', '拉活用户数', '分享', '结算播放份额']""",
"question": "迅唱的所有的播放量大于20k的孤勇者有哪些",
"analysis": """让我们一步一步地思考。在问题“陈迅唱的所有的播放量大于20k的孤勇者有哪些“中,我们被问:
孤勇者有哪些”所以我们需要column=[歌曲名]
"schema_links":"""["部门", "访问次数", 1000]""",
"sql":"""select 部门 from 内容库产品 where 访问次数 > 1000"""
},
{
"table_name":"歌曲库",
"fields_list":"""['歌曲ID', '歌曲MID', '歌曲', '歌曲版本', '歌曲类型', '翻唱类型', '结算播放量', '运营播放量', '付费用户结算播放', '历史累计结算播放', '运营搜播量', '结算搜播量', '运营完播量', '运营推播量', '近7日复播', '日均搜播量']""",
"question":"迅唱的所有的播放量大于20k的雇佣者有哪些",
"analysis": """让我们一步一步地思考。在问题“陈迅唱的所有的播放量大于20k的雇佣者有哪些“中,我们被问:
雇佣者有哪些”所以我们需要column=[歌曲名]
”播放量大于20k的“所以我们需要column=[结算播放量]
”陈迅唱的“所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = [20000, '']。""",
"schema_links": """["歌曲名", "结算播放量", "歌手名", 20000, "''"]""",
"sql": """select 歌曲名 from 歌曲库 where 结算播放量 > 20000 and 歌手名 = ''"""
}
”陈迅唱的“所以我们需要column=[歌手名]
基于table和columns可能的cell values 是 = [20000, '']。""",
"schema_links":"""["歌曲名", "结算播放量", "歌手名", 20000, "''"]""",
"sql":"""select 歌曲名 from 歌曲库 where 结算播放量 > 20000 and 歌手名 = ''"""
}
]