Datasets:
The dataset viewer is not available for this split.
Job manager crashed while running this job (missing heartbeats).
Error code: JobManagerCrashedError
Need help to make the dataset viewer work? Open a discussion for direct support.
中文实体识别指令数据集
收集开源的实体识别数据集, 将其制作为 sft 数据集用于 LLM 微调.
该数据集的目的是构建通用实体识别的LLM研究.
数据集分类三大类:
{dataset_name}
, {dataset_name}_template
, {dataset_name}_prompt
.
{dataset_name}
: 为对应的实体识别数据集.{dataset_name}_template
: 是为各数据集编写的 prompt 模板, 因为各数据集的主题不同, 所以模板分别编写会更加准确.{dataset_name}_prompt
: 是根据{dataset_name}
和{dataset_name}_template
合成的 prompt 数据集. 由于是动态生成的 huggingface 可能无法展示, 以下是一些数据示例.
数据示例展开查看
{
"prompt": "在做手机智能助手上, 你需要识别用户话语中的关键实体, 实体类型包括:\n联系人姓名,场景,主旋律,乐器名称,曲风,手机号码,语言,时代,目的地,流行榜单,情绪,出发地点,曲名\n\n用户的话语为:\n来一首周华健的花心\n\n请按以下格式输出实体:\nText: 实体的原始文本, 从原句子中截取.\nLabel: 实体类型, 以上给出的实体类型之一.\n\nTips:\n1. 可同时输出多个实体.\n2. 没有实体时可回答: 找不到任何相关的实体.",
"response": "Text: 花心\nLabel: 曲名"
}
{
"prompt": "在手机或电脑助手的场景中, 我们需要识别用户指令中的实体.\n请给出以下句子中所有的主旋律,情感,时期,地址,曲子实体.\n------------\n播放我们都一样\n------------\n\n注意:\n1. 输出时如果有多个实体, 每行一个实体.\n\noutput:",
"response": "曲子: 我们都一样"
}
{
"prompt": "在做手机智能助手上, 你需要识别用户话语中的关键实体, 实体类型包括:\n流行榜单,曲名,乐器,年代,情感,电话号码,情景,语言,地址,音乐风格,歌手,音乐主题,联系人,出发地点,地址\n\n用户的话语为:\n播放不一样来一首我们不一样\n\n请按以下格式输出实体:\nText: 实体的原始文本, 从原句子中截取.\nLabel: 实体类型, 以上给出的实体类型之一.\n\nTips:\n1. 可同时输出多个实体.\n2. 没有实体时可回答: 找不到任何相关的实体.",
"response": "Text: 不一样\nLabel: 曲子\nText: 我们不一样\nLabel: 曲名"
}
{
"prompt": "我们在做一个手机智能助手, 它需要识别用户的指令中的实体, 包括:\n目的地,主题,时代,电话号码,乐器,歌手,音乐风格,始发地点,语言,联系人,曲子,情绪\n\n现在请你给出以下句子中所包含的实体.\n到信阳市汽车配件城\n\n请按以下格式输出:\nEntityText: 实体的原始文本.\nEntityLabel: 实体标签, 必须是以上给定的其中之一.\n\n可同时输出多个实体.",
"response": "EntityText: 信阳市汽车配件城\nEntityLabel: 目的地"
}
{
"prompt": "我们在做一个手机智能助手, 它需要识别用户的指令中的实体, 包括:\n地址,出发地点,时代,演唱者,情绪,音乐主题,热门榜单,电话号码,联系人姓名,语种\n\n现在请你给出以下句子中所包含的实体.\n米静\n\n请按以下格式输出:\nEntityText: 实体的原始文本.\nEntityLabel: 实体标签, 必须是以上给定的其中之一.\n\n可同时输出多个实体.",
"response": "没有从`米静`中找到任何关于`地址,出发地点,时代,演唱者,情绪,音乐主题,热门榜单,电话号码,联系人姓名,语种`的实体. "
}
{
"prompt": "在手机或电脑助手的场景中, 我们需要识别用户指令中的实体.\n请给出以下句子中所有的情绪,场景,联系人,歌曲,年代,地址实体.\n------------\n信阳汽配城\n------------\n\n注意:\n1. 输出时如果有多个实体, 每行一个实体.\n\noutput:",
"response": "地址: 信阳汽配城"
}
提示:
- 可能是数据太多,
subset
太多,Dataset Viewer
总是无效. 你可以查看文件chinese_ner_sft.py
中_entity_urls
,_template_urls
,_prompt_urls
的keys
来判断哪些subset
是可用的.
数据集从网上收集整理如下:
数据 | 原始数据/项目地址 | 样本个数 | 实体类型 | 原始数据描述 | 替代数据下载地址 |
---|---|---|---|---|---|
CMeEE | CBLUE; 天池下载 | 20000 | 儿科疾病, 身体部位, 临床表现, 医疗程序, 等 9 大类医学实体 | 医学实体识别任务 | nlhappy/CMeEE Rosenberg/CMeEE-V2 |
CCKS2019_task1 | Yidu-S4K | 1379 | 解剖部位, 手术, 疾病和诊断, 药物, 实验室检验, 影像检查 | CCKS2019面向中文电子病历的命名实体识别数据集 | |
CLUENER2020 | CLUE; CLUENER | 12091 | 游戏, 组织, 政府, 电影, 人名, 书籍, 公司, 场景, 职位, 地址 | CLUENER2020数据集 | |
MSRA | MSRA | 48442 | 地址, 组织, 人名 | MSRA微软亚洲研究院开源命名实体识别数据集 | doushabao4766/msra_ner_k_V3_wc_bioes |
NLPCC2018_task4 | NLPCC2018; NLPCC2018_task4 | 21352 | 歌手, 歌曲, 主题, 情感, 风格, 目的地, 电话号码, 乐器, 聊系人, 年龄, 热门列表, 自定义目的地, 语种, 场景, 出发地 | 任务型对话系统数据数据集 | |
CCFBDCI | CCFBDCI填写申请表后可下载 | 15723 | LOC、GPE、ORG和PER | 中文命名实体识别算法鲁棒性评测数据集 | |
MMC | MMC MMC数据集 | 3498 | 实体类型 | 瑞金医院MMC人工智能辅助构建知识图谱大赛数据集 | |
1890 | LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM | 社交媒体中文命名实体识别数据集 | |||
ECommerce | ECommerce | 7998 | MISC、XH、HPPX和HCCX | 面向电商的命名实体识别数据集 | |
YouKu | YouKu | MISC、XH、HPPX和HCCX | 面向电商的命名实体识别数据集 | ||
FinanceSina | FinanceSina | 1579 | LOC、GPE、ORG和PER | 新浪财经爬取中文命名实体识别数据集 | |
Resume | Resume | 4761 | NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE | 中国股市上市公司高管的简历 | |
Bank | Bank | 10000 | BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT | 银行借贷数据数据集 | |
DLNER | DLNER | 28897 | Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term | 语篇级命名实体识别数据集 |
参考的数据来源,展开查看
[ttxy/cn_ner](https://huggingface.co/datasets/ttxy/cn_ner)
[xusenlin/clue-ner](https://huggingface.co/datasets/xusenlin/clue-ner)
[xusenlin/people-daily-ner](https://huggingface.co/datasets/xusenlin/people-daily-ner)
[peoples_daily_ner](https://huggingface.co/datasets/peoples_daily_ner)
[weibo_ner](https://huggingface.co/datasets/weibo_ner)
[Rosenberg/weibo_ner](https://huggingface.co/datasets/Rosenberg/weibo_ner)
[OneFly/NER](https://huggingface.co/datasets/OneFly/NER)
[djagatiya/ner-ontonotes-v5-eng-v4](https://huggingface.co/datasets/djagatiya/ner-ontonotes-v5-eng-v4)
[Adapting/chinese_biomedical_NER_dataset](https://huggingface.co/datasets/Adapting/chinese_biomedical_NER_dataset)
[nlhappy/CLUE-NER](https://huggingface.co/datasets/nlhappy/CLUE-NER)
[ttxy/resume_ner](https://huggingface.co/datasets/ttxy/resume_ner)
[doushabao4766/ccks_2019_ner_k_V3_wc](https://huggingface.co/datasets/doushabao4766/ccks_2019_ner_k_V3_wc)
- Downloads last month
- 33