警惕AIGC数据污染稀释人类原创海量AIGC“冲淡”原创数据

qifei168 2024-10-17 国内 8 次浏览 0个评论

互联网的普及使得数据的生成、传播和获取变得便捷，网络上的数据量呈指数增长，数据种类和来源也更加多样化。这种爆发式增长推动了以深度学习为代表的人工智能技术的发展，进而孕育了人工智能生成内容（AIGC）这一新的数据生产方式和数据要素形态。

生成式人工智能技术的发展为人们的学习生活工作带来了便利，促进了内容创作行业的发展。这种新型的数据生产方式打破了传统创作的时间和空间限制，使内容生产更加高效灵活。AIGC引发了数据要素形态的深刻变革，推动数据从静态资源向动态智能要素转变，为各行各业的数字化转型和智能化升级提供了新动力。

随着生成式人工智能的普及，数据规模迅速增加，互联网上每日新增的图片、语料等内容中AI生成内容的占比已经超过了真实的人类生产内容。随之而来的是数据质量和数据污染问题，如深度伪造、偏见和有害内容生成等。大量低质量或不客观的数据不仅对模型训练产生负面影响，还可能导致错误决策和偏差，引发人们对“数据污染”的担忧。

对于机器学习而言，数据污染是指用于训练的数据集中掺杂了低质量的数据，主要体现在数据缺失、冲突、重复、过时和隐私数据泄露等方面。在生成式人工智能模型大行其道的当下，AIGC可能会加剧有效数据获取的难度，进而造成全社会层面的数据污染，影响构建优质数据要素的进程。

海量AIGC“冲淡”人类产生的原创数据。一项关于插画绘制网站Pixiv的研究指出，AI绘图兴起后，人类画师的活跃度下降了4.3%。当AIGC生成的内容开始主导信息生态时，具有独创性的人类内容可能被大量的人工智能生成内容“稀释”乃至“淹没”。《Nature》的一项研究指出，当大语言模型或图片生成模型不断使用自身生成的数据进行迭代训练时，会导致模型性能快速退化，称为“模型崩溃”。这将越来越难以收集优质的原创性数据进行利用，长此以往或将破坏优质数据要素的构建。

生成式模型的训练依赖于大量公开的网络数据，而互联网上的信息质量良莠不齐，网友们的观点通常带有强烈的个人色彩。即使尽力清洗和过滤训练数据，也很难完全避免有害内容的渗透。如果训练数据中含有偏见或错误信息，模型不仅会继承这些信息，还可能通过生成新内容的方式进一步放大这些问题。由于生成式人工智能模型可以高效地生成海量内容，错误观点和有害信息通过AIGC得以更广泛、更快速地传播，并且由于其逼真的表现形式，极易影响公众判断，污染网络数据导向。

生成式人工智能可以根据人的指令生成不存在的内容，极易被用于自动生成虚假新闻和谣言。深度伪造技术正快速发展，图片伪造、音频合成和视频换脸在生成式AI的帮助下变得轻而易举，这些虚假内容能够以逼真的形式迅速传播，带来严重的社会影响。

从全社会层面来看，倘若低质量的生成内容涌入公共数据源，将进一步污染全社会的数据来源。当数据源被大量低质量生成内容占据，数据生态将逐步崩溃，构建优质数据要素将无从谈起。这不仅影响人工智能行业的发展，还会波及各个依赖数据要素进行生产活动的行业和领域，例如新闻、教育、公共安全等。

AIGC数据需要“清污”。现存的隐私保护、知识产权和数据信息相关的法律与大数据时代已经不匹配。面对互联网上新增的海量原始数据，我们亟须构建完善的数据内容维护、数据质量管理和数据安全监管体系。

联合国大学关于AIGC数据利用与风险的一份调研报告建议：全面推进AIGC相关立法，从源头防范数据污染问题；构建全面的AIGC数据质量与安全评价体系，促进合成数据的合理利用；将AIGC数据管理纳入全球AI治理合作，促成全球范围内全面解决合成数据带来的风险；加快明确生成式人工智能伦理与隐私准则，增强生成式人工智能技术的透明性，防范有违全人类共同价值的AIGC内容扩散，并解决用户隐私和数据滥用等问题。

在尚未建立完善的数据污染管理体系之前，应对AIGC数据污染的有效方法是AIGC检测技术。依托AIGC检测技术，可以在构建数据集和设计模型结构的过程中筛选出真实的、公正的、有效的数据进行训练，从而在新模型训练的层面减少数据污染的影响，阻断数据污染扩散。

我国已在AI生成文本检测、深度伪造图片视频检测等方面取得了一定的研究成果。然而，现行AIGC检测工具的泛化性能较差，检测准确率并不稳定，一旦受到特定攻击干扰，其检测准确度会大幅下降。AIGC检测方法仍然有很长的路要走。

AIGC数据的泛滥引发了人们对生成内容的质量、可靠性和可信度的担忧。为了确保AIGC服务的可信性和可监管性，应该综合发展打造完善的AIGC水印技术，以便对AI生成的虚假信息、深度伪造视频等具有社会危害性的数据进行溯源和问责。此外，不妨利用“数据税”这一概念，旨在对上传大量无效数据或敏感数据的个体征税。