置顶按钮
文章封面

【解析快讯】苹果、英伟达等企业涉足AI训练,利用5.7GB数据集,涵盖4.8万频道、17.4万视频字幕,资源来源引发争议

【原文大意】


来源:网上搜集

文章主要报道了非营利性新闻工作室 ProofNews 的一项发现,即包括苹果、英伟达、Salesforce 和 Anthropic 在内的大型科技公司在训练其 AI 模型时,使用了来自 YouTube 的视频资源。这些公司利用了一个名为 YouTube Subtitles 的数据集,该数据集由 EleutherAI 创建,包含超过 48000 个频道的 173536 个 YouTube 视频字幕内容,总大小为 5.7GB,涵盖了 4.89 亿个单词。值得注意的是,这个数据集还包括了 12000 多个已被 YouTube 删除的视频的字幕内容。YouTube Subtitles 数据集是“The Pile”数据集的一部分,后者包含多个训练数据集,并且对拥有足够空间和计算能力的人开放。这一发现揭示了大型科技公司在 AI 模型训练中对公开可用数据资源的依赖。


【分析结果】


  1. 数据使用与版权问题: 新闻中提到的大型科技公司如苹果、英伟达等在训练AI模型时使用了YouTube Subtitles数据集,这涉及到版权和数据使用的合法性问题。尽管该数据集由EleutherAI创建并发布,但其中包含了大量YouTube视频的字幕,这些字幕可能受到版权保护。因此,这些公司在使用这些数据时需要确保遵守相关的版权法规,否则可能会面临法律风险。

  2. 数据集的多样性与偏见问题: YouTube Subtitles数据集主要采集自热门YouTube频道的资源,这意味着该数据集可能存在偏见,因为它可能未能充分代表所有类型的内容和观点。AI模型在训练时如果只使用这样的数据集,可能会导致模型在处理某些类型的数据或情境时表现不佳,甚至可能放大现有的偏见。因此,这些公司在使用该数据集时需要考虑如何平衡数据的多样性,以减少潜在的偏见。

  3. 数据集的可用性与伦理问题: 新闻中提到,“The Pile”数据集对任何有足够空间和计算能力的人开放。这种开放性虽然促进了数据的共享和AI技术的发展,但也带来了伦理问题。例如,这些数据可能被用于不当目的,如侵犯隐私或进行恶意行为。此外,数据集中包含的已删除视频的字幕内容也可能涉及到隐私或敏感信息。因此,数据集的提供者和使用者都需要在确保数据安全和伦理合规的前提下进行操作。

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

获取更多精彩文章请收藏本站。
背景封面
站长QQ图像