您当前的位置是:  首页 > 资讯 > IT与互联网 >
 首页 > 资讯 > IT与互联网 >

ChatGPT热潮下的冷思考——AI数据集发展现状、挑战及建议

2023-04-04 11:57:22   作者:   来源:天翼智库   评论:0  点击:


  2023年3月14日,OpenAI发布了多模态大模型的最新版本GPT-4,通过采用更大规模的数据集进行训练,其推理能力超过了ChatGPT,已成为目前最成功、最受欢迎的大模型。

  但GPT-4仍有很多限制,如对数据集的筛选、清洗等不充分,导致输出内容出现社会偏见、幻觉和对抗性提示等。同时据Appen(全球最大的AI数据服务公司)调查发现,41%的AI领域从业者认为数据管理将是AI发展面临的最大障碍。DeepMind团队也指出,在对训练数据集进行扩展时,需要重点关注数据集的质量管理,尤其是其中的伦理和隐私等问题。

  AI领域典型大模型(ChatGPT)的数据集简介

  ChatGPT的出现,打破了人们对AI技术复杂、使用门槛高的固有思维。虽然谷歌提出了比ChatGPT高10倍参数量的大模型(如Switch Transformer),且ChatGPT的核心算法采用谷歌提出的Transformer架构,但是谷歌却败给了OpenAI。我们分析数据规模、数据处理方式、用户数据-模型飞轮是ChatGPT成功的关键。

  1. 庞大的数据集规模基础

  ChatGPT训练的数据集主要包括网站、书籍、社交媒体平台等,80%以上的数据集来自GPT3使用的数据集。这些数据集包含大量的文本数据,用于自然语言处理等领域的研究和应用。

  二、高效的数据处理方式

  郑纬民院士认为,ChatGPT在基础技术方面并未有大的突破,主要是在数据清洗、人工标注反馈和整体系统工程化方面取得了进展,从而使其整体效果相比之前的系统取得了较大飞跃。OpenAI团队也表示他们采用了多项措施确保数据集的质量和准确性,尤其数据筛选、数据收集、工程化(千亿级token编码、人工标注)等起了关键作用。

  3. 爆发式的用户数据促进产品质量与用户规模形成飞轮效应

  ChatGPT的服务开放给公众,同时可收集海量、多样化的数据,抢得数据获取先机。几亿用户为ChatGPT贡献数据,进一步训练和微调使得ChatGPT更符合用户需求,吸引更多用户为其免费提供数据。由此模型的数据飞轮快速转动起来,用户数据质量越高,迭代模型效果越好。

  由ChatGPT的分析可知,数据集将是决定模型好坏的关键。据DeepMind 研究团队预测大模型所需数据集规模随参数量的增加而增加。然而随着数据集规模增加,相应数据质量将越难控制。数据集的管理将是大模型发展面临的一大困境。

  AI数据集的整体现状

  随着大模型的持续火热,大规模、多样化数据集因模型的高参数、通用化需求也受到关注。我们将从数据集的布局、特点来分析目前数据集的发展现状。

  一、 AI数据集的来源及分布

  从数据集来源看,AI数据集主要来自美国且以英语语言为主,包括微软、斯坦福、谷歌等机构提供的数据集以及互联网爬虫数据集,见表1。AI数据集根据数据类型可分为文本、图像、音频、视频等,不同的AI任务根据其任务特点选择不同类型的数据集,如语言模型任务选WikiText-2文本类数据集,人脸识别选VGGface2图像类数据集等。

  表1 AI数据集简介

  备注:mC4是 C4(Colossal Clean Crawled Corpus)的一个变体:Common Crawl的网络爬虫语料库的一个大型、干净的版本。

  从数据集分布看,全球数据集使用不平等情况凸显,据加利福尼亚大学和Google研究机构发现,机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供(如图1左),其中10家为美国机构,仅2家机构来自德国和中国。据图1(右)发现,数据集与数据机构的基尼系数有升高的趋势,即数据集被少数Top机构或特定数据库掌控的集中有所增加。

  2. AI数据集的特点

  目前AI数据集的发展已呈现大规模、多样化、实时性等特点。

  一是数据集规模因大模型等场景需求爆发式增长,例如华为盘古系列大模型训练数据集为40TB,GPT-3.5大模型的数据集为超万亿单词的人类语言数据集(约45TB);

  二是多种应用需求导致数据类型呈现多样化,例如因机器翻译、文本分类需求出现了OpenWebText2等文本类数据集,因人脸识别、图像生成需求出现了以ImageNet为代表的图像类数据集;

  三是高质量数据集实时性需求迫切,随着AR、自动驾驶等场景的出现,社交媒体、交通数据集的采集和处理需要更加及时的反馈,以实现实时分析和决策。

  面临的挑战

  由于AI数据集大部分来源于互联网公共数据集,包含用户或企业的大量隐私、敏感信息,导致其在数据监管、数据清洗、数据存量方面还存在很多挑战。

  1. 数据来源的多样性、复杂性不断加深,加大数据安全风险

  OpenAI表示,其数据集是“互联网规模的”,训练数据来自“各种被许可、被创建和公开可用的数据源,其中可能包括公开可用的个人信息”。面对数量庞大、种类多样的数据集调取与收集,若监管不当极易产生数据窃取、隐私泄露、数据滥用等风险,损害公民的合法利益,甚至威胁国家安全。

  2. 内容涉及道德及伦理问题,引发社会偏见

  规模庞大的互联网数据尤其容易带有偏见及负面词汇,即使进行过人工标注,数据集也会出现错误或道德问题。如微软与bing团队研发的对话式理解AI机器人Tay,因为数据集清洗、标注不充分,导致出现种族歧视等言论,被迫下架。

  3. AI领域需求的高质量数据集存量将耗尽

  训练数据集需求增速有高于数据存量增速的趋势,据Epoch AI研究团队预测2022年至2100年间数据总量(包括可用的图像和语言)以及未来大模型训练数据集规模的增长趋势,给出一个结论:到2026 年高质量的语言数据存量将耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

  关于AI数据集未来发展的建议

  针对当前AI数据集存在的问题,建议从加强数据监管、提升数据质量、提高数据存量三方面入手,进一步应对AI发展可能面临的数据集困境。

  1. 加快推进AI背景下我国数据安全监管

  完善面向ChatGPT等新场景的数据安全保护。建议政府与商业运营主体应采取合作监管的模式,建立统一的数据监管系统,并针对不同类型的数据采取相应的监管机制,对于开放数据应加强分级分类明确数据开放程度,对于共享数据应采取强制许可措施防止企业垄断,对于专有数据应采用区块链、隐私计算等技术保护其数据隐私。

  2. 加大对数据质量评估的关注

  提升获取高质量数据集的比例。制定数据集评估标准(包括是否删除重复数据、排除敏感信息、删除隐私信息、删除异常符号等),确保获取数据集符合任务需求,从而提高整体数据集的质量。

  3. 利用AIGC技术构建新的数据集

  防患未来数据存量耗尽的危机。AI生成信息将是未来的趋势,据Gartner预测,到2025年,大型企业机构对外营销信息中的合成信息比例将从2022年的不到2%上升到30%。建议充分利用AIGC技术,根据模型的需求生成内容,转化为新的数据集,为AI模型的训练提供新的燃料。

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关阅读:

专题

CTI论坛会员企业