手把手教你构建数据集.docx
《手把手教你构建数据集.docx》由会员分享,可在线阅读,更多相关《手把手教你构建数据集.docx(5页珍藏版)》请在第一文库网上搜索。
1、数据从哪里找?手把手教你构建数据集导读:了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中,这两者都是非常主观的,但是存在一些通用的真理和建议。01去哪里找对于常见问题,有很多地方可以开始你的搜索。就像谷歌学术(Google Scholar)用于研究论文那样,Google Dataset Search用于数据集。谷歌搜索的应用是无处不在的。这是了解特定主题的绝佳起点。谷歌还管理自己的通用公共数据存储库,称为Google Public Data ,亚马逊也拥有自己的AWS数据注册中心。K是致力于数据科学的在线社区。它具有由社区和组织贡献的大型数据集存储库,其
2、中包含大量主题,任你选择。该站点还是以比赛或讨论方式学习数据分析细节的重要资源。研究机构通常会发布科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO )之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为 data.gov.aue在世界其他地方,著名的机构包括NASA、NOAA NIST. CDC. WHO、UNICEF.CERN、Max Planck Institute. CNR. EPA 等。同样,许多国家或地区都有中央政府数据存储库,例如data.gov (美国)、op
3、en.canada.ca. data.govt.nz、data.europa.eu 和 data.gov.uk 等。一些具有m斛学目的的公司,如果达到了自己能够进行内部研究或被要求进行内部研究的规模,甚至会发布数据存储库。世界银行和国际货币基金组织(IMF)就是一个很好的例子,它们已经成为开放的金融和大众数据的主要来源。在允许的情况下,从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。FiveThirtyEight和BuzzFeed这样的新闻网站,提供了从公众调查中获得的数据以及关键文章收集的数据,从可能涉及公众福祉的重要社会和政治数据(网络审查、政府监控、枪支
4、、医疗保健等),到体育等一切内容的分数或民意测验。Reddit的/r/datasets是一个信息共享的好地方。你可以浏览人们发布的有趣的东西,或者在特定的问题上寻求帮助。甚至还有一些很好的元信息,比如有人发布了一个详尽的每个开放数据门户的列表。当你浏览Reddit的时候,/MachineLearning也是一个好选择。有时,随机发烧友也会真正为你服务。作者个人最喜欢的网站是Jonathan s SpaceHome Page ,其中一位来自哈佛大学史密森天体物理学中心的天体物理学家,在网站上保存着发射到太空的所有物体的广泛列表。只是作为附带项目,太奇妙了。稍微不寻常的数据的另一个重要来源是整数数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 手把手 构建 数据
