ChatGPT热潮下的冷思考——AI数据集发展现状、挑战及建议

　　2023年3月14日，OpenAI发布了多模态大模型的最新版本GPT-4，通过采用更大规模的数据集进行训练,其推理能力超过了ChatGPT，已成为目前最成功、最受欢迎的大模型。

　　但GPT-4仍有很多限制，如对数据集的筛选、清洗等不充分，导致输出内容出现社会偏见、幻觉和对抗性提示等。同时据Appen（全球最大的AI数据服务公司）调查发现，41%的AI领域从业者认为数据管理将是AI发展面临的最大障碍。DeepMind团队也指出，在对训练数据集进行扩展时，需要重点关注数据集的质量管理，尤其是其中的伦理和隐私等问题。

　　AI领域典型大模型（ChatGPT）的数据集简介

　　ChatGPT的出现，打破了人们对AI技术复杂、使用门槛高的固有思维。虽然谷歌提出了比ChatGPT高10倍参数量的大模型（如Switch Transformer），且ChatGPT的核心算法采用谷歌提出的Transformer架构，但是谷歌却败给了OpenAI。我们分析数据规模、数据处理方式、用户数据-模型飞轮是ChatGPT成功的关键。

　　1. 庞大的数据集规模基础

　　ChatGPT训练的数据集主要包括网站、书籍、社交媒体平台等，80%以上的数据集来自GPT3使用的数据集。这些数据集包含大量的文本数据，用于自然语言处理等领域的研究和应用。

　　二、高效的数据处理方式

　　郑纬民院士认为，ChatGPT在基础技术方面并未有大的突破，主要是在数据清洗、人工标注反馈和整体系统工程化方面取得了进展，从而使其整体效果相比之前的系统取得了较大飞跃。OpenAI团队也表示他们采用了多项措施确保数据集的质量和准确性，尤其数据筛选、数据收集、工程化(千亿级token编码、人工标注)等起了关键作用。

　　3. 爆发式的用户数据促进产品质量与用户规模形成飞轮效应

　　ChatGPT的服务开放给公众，同时可收集海量、多样化的数据，抢得数据获取先机。几亿用户为ChatGPT贡献数据，进一步训练和微调使得ChatGPT更符合用户需求，吸引更多用户为其免费提供数据。由此模型的数据飞轮快速转动起来，用户数据质量越高，迭代模型效果越好。

　　由ChatGPT的分析可知，数据集将是决定模型好坏的关键。据DeepMind 研究团队预测大模型所需数据集规模随参数量的增加而增加。然而随着数据集规模增加，相应数据质量将越难控制。数据集的管理将是大模型发展面临的一大困境。

　　AI数据集的整体现状

　　随着大模型的持续火热，大规模、多样化数据集因模型的高参数、通用化需求也受到关注。我们将从数据集的布局、特点来分析目前数据集的发展现状。

　　一、 AI数据集的来源及分布

　　从数据集来源看，AI数据集主要来自美国且以英语语言为主，包括微软、斯坦福、谷歌等机构提供的数据集以及互联网爬虫数据集，见表1。AI数据集根据数据类型可分为文本、图像、音频、视频等，不同的AI任务根据其任务特点选择不同类型的数据集，如语言模型任务选WikiText-2文本类数据集，人脸识别选VGGface2图像类数据集等。

　　表1 AI数据集简介

　　备注：mC4是 C4(Colossal Clean Crawled Corpus)的一个变体:Common Crawl的网络爬虫语料库的一个大型、干净的版本。

　　从数据集分布看，全球数据集使用不平等情况凸显，据加利福尼亚大学和Google研究机构发现，机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供（如图1左），其中10家为美国机构，仅2家机构来自德国和中国。据图1（右）发现，数据集与数据机构的基尼系数有升高的趋势，即数据集被少数Top机构或特定数据库掌控的集中有所增加。

　　2. AI数据集的特点

　　目前AI数据集的发展已呈现大规模、多样化、实时性等特点。

　　一是数据集规模因大模型等场景需求爆发式增长，例如华为盘古系列大模型训练数据集为40TB，GPT-3.5大模型的数据集为超万亿单词的人类语言数据集（约45TB）；

　　二是多种应用需求导致数据类型呈现多样化，例如因机器翻译、文本分类需求出现了OpenWebText2等文本类数据集，因人脸识别、图像生成需求出现了以ImageNet为代表的图像类数据集；

　　三是高质量数据集实时性需求迫切，随着AR、自动驾驶等场景的出现，社交媒体、交通数据集的采集和处理需要更加及时的反馈，以实现实时分析和决策。

　　面临的挑战

　　由于AI数据集大部分来源于互联网公共数据集，包含用户或企业的大量隐私、敏感信息，导致其在数据监管、数据清洗、数据存量方面还存在很多挑战。

　　1. 数据来源的多样性、复杂性不断加深，加大数据安全风险

　　OpenAI表示，其数据集是“互联网规模的”，训练数据来自“各种被许可、被创建和公开可用的数据源，其中可能包括公开可用的个人信息”。面对数量庞大、种类多样的数据集调取与收集，若监管不当极易产生数据窃取、隐私泄露、数据滥用等风险，损害公民的合法利益，甚至威胁国家安全。

　　2. 内容涉及道德及伦理问题，引发社会偏见

　　规模庞大的互联网数据尤其容易带有偏见及负面词汇，即使进行过人工标注，数据集也会出现错误或道德问题。如微软与bing团队研发的对话式理解AI机器人Tay，因为数据集清洗、标注不充分，导致出现种族歧视等言论，被迫下架。

　　3. AI领域需求的高质量数据集存量将耗尽

　　训练数据集需求增速有高于数据存量增速的趋势，据Epoch AI研究团队预测2022年至2100年间数据总量（包括可用的图像和语言）以及未来大模型训练数据集规模的增长趋势，给出一个结论：到2026 年高质量的语言数据存量将耗尽，低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

　　关于AI数据集未来发展的建议

　　针对当前AI数据集存在的问题，建议从加强数据监管、提升数据质量、提高数据存量三方面入手，进一步应对AI发展可能面临的数据集困境。

　　1. 加快推进AI背景下我国数据安全监管

　　完善面向ChatGPT等新场景的数据安全保护。建议政府与商业运营主体应采取合作监管的模式，建立统一的数据监管系统，并针对不同类型的数据采取相应的监管机制，对于开放数据应加强分级分类明确数据开放程度，对于共享数据应采取强制许可措施防止企业垄断，对于专有数据应采用区块链、隐私计算等技术保护其数据隐私。

　　2. 加大对数据质量评估的关注

　　提升获取高质量数据集的比例。制定数据集评估标准（包括是否删除重复数据、排除敏感信息、删除隐私信息、删除异常符号等），确保获取数据集符合任务需求，从而提高整体数据集的质量。

　　3. 利用AIGC技术构建新的数据集

　　防患未来数据存量耗尽的危机。AI生成信息将是未来的趋势，据Gartner预测，到2025年，大型企业机构对外营销信息中的合成信息比例将从2022年的不到2%上升到30%。建议充分利用AIGC技术，根据模型的需求生成内容，转化为新的数据集，为AI模型的训练提供新的燃料。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业