各领域数据集

2019-04-14 21:33发布

上网找到了个数据集的整理,原文地址: https://zhuanlan.zhihu.com/p/25138563

金融

美国劳工部统计局官方发布数据 房地产公司 Zillow 公开美国房地产历史数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票 深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票 深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票 上证A股日线数据,1999.12.09至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09至 2016.06.08,前复权,1766支股票 深证创业板日线数据,1999.12.09 至2016.06.08,前复权,510支股票 MT4平台外汇交易历史数据 Forex平台外汇交易历史数据 几组外汇交易逐笔(Ticks)数据 美国股票新闻数据【Kaggle数据】 美国医疗保险市场数据【Kaggle数据】 美国金融客户投诉数据【Kaggle数据】 Lending Club 网贷违约数据【Kaggle数据】 信用卡欺诈数据【Kaggle数据】 美国股票数据XBRL【Kaggle数据】 纽约股票交易所数据【Kaggle数据】 贷款违约预测竞赛数据【Kaggle竞赛】 Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】 Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】 Homesite 保险定价竞赛数据【Kaggle竞赛】 Winton 股票回报率预测竞赛数据【Kaggle竞赛】 房屋租赁信息查询次数预测竞赛【Kaggle竞赛】

交通

2013年纽约出租车行驶数据 2013年芝加哥出租车行驶数据 Udacity自动驾驶数据 纽约Uber 接客数据 【Kaggle数据】 英国车祸数据(2005-2015)【Kaagle数据】 芝加哥汽车超速数据【Kaggle数据】 KITTI 自动驾驶任务数据【数据太大仅有部分】 Cityscapes 场景标注数据【数据太大仅有部分】 德国交通标志识别数据 交通信号识别数据 芝加哥Divvy共享自行车骑行数据(2013年至今) 美国查塔努加市共享单车骑行数据 Capital 共享单车骑行数据 Bay Area 共享单车骑行数据 Nice Ride 共享单车骑行数据 花旗银行共享单车骑行数据 运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】 纽约出租车管理委员会官方的乘车数据(2009年-2016年)

商业

Airbnb 开放的民宿信息和住客评论数据 Amazon 食品评论数据【Kaggle数据】 Amazon 无锁手机评论数据【Kaggle数据】 美国视频游戏销售和评价数据【Kaggle数据】 Kaggle 各项竞赛情况数据【Kaggle数据】 Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】 预测公寓租金竞赛数据 广告点击预测竞赛数据 餐厅营业收入预测建模竞赛 银行产品推荐竞赛数据 网站用户推荐点击预测竞赛数据 在线广告实时竞价数据【Kaggle数据】 购物车商品关联竞赛数据【Kaggle竞赛】 Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】 Yelp 点评网站公开数据 KKBOX 音乐用户续订预测竞赛【Kaggle竞赛】 Grupo Bimbo 面包店库存和销量预测竞赛【Kaggle竞赛】

推荐系统

Netflix 电影评价数据 MovieLens 20m 电影推荐数据集 WikiLens Jester HetRec2011 Book Crossing Large MovieReview Retailrocket 商品评论和推荐数据 1万本畅销书的6百万读者评分数据

医疗健康

人识别物体时大脑核磁共振影像数据 人理解单词时大脑核磁共振影像数据 心脏病心房图像及标注数据 细胞病理识别 FIRE 视网膜眼底病变图像数据 食物营养成分数据 【Kaggle数据】 EGG 大脑电波形状数据【Kaggle数据】 某人基因序列数据【Kaggle数据】 癌症CT影像数据【Kaggle数据】 软组织肉瘤CT图像数据【Kaggle数据】 美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】 Data ScienceBowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】 TCGA-LUAD 肺癌CT图像数据 RIDER Lung CT 肺癌CT影像 TCGA-COAD癌症CT影像数据 TCIA-TCGA-OV 癌症CT影像数据 TCIA RIDER NEURO癌症MRI影像数据 QIN Beast 乳腺癌MRI影像数据 SPIE-AAPM-NCIPROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数 
据)
SPIE-AAPM-NCIPROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度 
数据)
RIDER Breast 乳腺癌 MRI 影像数据 Lung Phantom 癌症 CT 影像数据集 TCIA-QIN-LUNG 肺癌 CT 影像数据集 医疗CT影像、年龄和对比标注数据【Kaggle竞赛】 TCGA-ESCA癌症 CT 影像数据集 TCGA-CESC癌症 CT 影像数据集 TCGA-KICH癌症 CT 影像数据集 从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】 通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】 遗传突变分类竞赛【Kaggle竞赛】 MIMIC-III 临床监护数据

图像数据

综合图像

Visual Genome 图像数据 Visual7w 图像数据 COCO 图像数据 SUFR 图像数据 ILSVRC 2014 训练数据(ImageNet的一部分) PASCAL Visual Object Classes 2012 图像数据 PASCAL Visual Object Classes 2011 图像数据 PASCAL Visual Object Classes 2010 图像数据 80 Million Tiny Image 图像数据【数据太大仅有介绍】 ImageNet【数据太大仅有介绍】 Google Open Images【数据太大仅有介绍】 Imagenet 小尺寸图像数据集 Yahoo Flickr 照片和视频数据集

场景图像

Street Scences 图像数据 Places2 场景图像数据 UCF GoogleStreet View 图像数据 SUN 场景图像数据 The Celebrity inPlaces 图像数据

Web标签图像

HARRISON 社交标签图像 NUS-WIDE 标签图像 Visual Synset 标签图像 Animals WithAttributes 标签图像

人形轮廓图像

MPII Human Shape人体轮廓数据 Biwi Kinect Head Pose 头部姿势数据 上半身人像数据 INRIA Person 数据集

视觉文字识别图像

Street View House Number 门牌号图像数据 MNIST 手写数字识别图像数据 3D MNIST 数字识别图像数据【Kaggle数据】 MediaTeam Document 文档影印和内容数据 Text Recognition 文字图像数据 NIST Handprinted Forms and Characters 手写英文字符数据 NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据 NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据

特定一类事物图像

著名的猫图像标注数据 Caltech-UCSDBirds200 鸟类图像数据 Stanford Car 汽车图像数据 Cars 汽车图像数据 MIT Cars 汽车图像数据 Stanford Cars 汽车图像数据 Food-101 美食图像数据 17_Category_Flower 图像数据 102_Category_Flower 图像数据 UCI Folio Leaf 图像数据 Labeled Fishes in the Wild 鱼类图像 美国 Yelp 点评网站酒店照片 CMU-Oxford Sculpture 塑像雕像图像 Oxford-IIIT Pet 宠物图像数据 Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】 Stanford Dogs Dataset 数据集 辛普森一家卡通形象图像【Kaggle竞赛】 Fashion-MNIST 时尚服饰图像数据

材质纹理图像

CURET 纹理材质图像数据 ETHZ Synthesizability 纹理图像数据 KTH-TIPS 纹理材质图像数据 Describable Textures 纹理图像数据

物体分类图像

COIL-20 图像数据 COIL-100 图像数据 Caltech-101 图像数据 Caltech-256 图像数据 CIFAR-10 图像数据 CIFAR-100 图像数据 STL-10 图像数据 LabelMe_12_50k图像数据 NORB v1.0 图像数据 NEC Toy Animal 图像数据 iCubWorld 图像分类数据 Multi-class 图像分类数据 GRAZ 图像分类数据

人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据 Labeled Faces in the Wild 人脸数据 Extended Yale Face Database B 人脸数据 Bao Face 人脸数据 DC-IGN 论文人脸数据 300 Face in Wild 图像数据 BioID Face 人脸数据 CMU Frontal Face Images FDDB_Face Detection Data Set and Benchmark NIST Mugshot Identification Database Faces in the Wild 人脸数据 CelebA 名人人脸图像数据 VGG Face 人脸图像数据 Caltech 10k WebFaces 人脸图像数据

姿势动作图像

HMDB_a large human motion database Human Actionsand Scenes Dataset Buffy Stickmen V3 人体轮廓识别图像数据 Human Pose Evaluator 人体轮廓识别图像数据 Buffy pose 人类姿势图像数据 VGG Human Pose Estimation 姿势图像标注数据

指纹识别

NIST FIGS 指纹识别数据 NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据 NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指 
纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

其它图像数据

Visual Question Answering V1.0 图像数据 Visual Question Answering V2.0 图像数据

视频数据

综合视频

DAVIS_Densely Annotated Video Segmentation 数据 YouTube-8M 视频数据集【数据太大仅有介绍】 YouTube 网站视频备份【数据太大仅有介绍】

人类动作视频

Microsoft Research Action 人类动作视频数据 UCF50 Action Recognition 动作识别数据 UCF101 Action Recognition 动作识别数据 UT-Interaction 人类动作视频数据 UCF iPhone 运动中传感器数据 UCF YouTube 人类动作视频数据 UCF Sport 人类动作视频数据 UCF-ARG 人类动作视频数据 HMDB 人类动作视频 HOLLYWOOD2 人类行为动作视频数据 Recognition of human actions 动作视频数据 Motion Capture 动作捕捉视频数据 SBU Kinect Interaction 肢体动作视频数据

目标检测视频

UCSD Pedestrian 行人视频数据 Caltech Pedestrian 行人视频数据 ETH 行人视频数据 INRIA 行人视频数据 TudBrussels 行人视频数据 Daimler 行人视频数据 ALOV++ 物体追踪视频数据

密集人群视频

Crowd Counting 高密度人群图像 Crowd Segmentation 高密度人群视频数据 Tracking in High Density Crowds 高密度人群视频

其它视频

Fire Detection 视频数据

音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】

语音识别

Sinhala TTS 英语语音识别 TIMIT 美式英语语音识别数据 LibriSpeech ASR corpus 语音数据 Room Impulse Response and Noise 语音数据 ALFFA 非洲语音数据 THUYG-20 维吾尔语语音数据 AMI Corpus 语音识别

自然语言处理

RCV1英语新闻数据 20news 英语新闻数据 First Quora Release Question Pairs 问答数据 JRC Names各国语言专有实体名称 Multi-Domain Sentiment V2.0 LETOR 信息检索数据 Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】 美国假新闻数据【Kaggle数据】 NIPS会议文章信息数据(1987-2016)【Kaggle数据】 2016年美国总统选举辩论数据【Kaggle数据】 WikiLinks 跨文档指代语料 European Parliament Proceedings Parallel Corpus 机器翻译数据 WikiText 英语语义词库数据 WMT 2011 News Crawl 机器翻译数据 Stanford Sentiment Treebank 词汇数据 英语语言模型单词预测竞赛数据 WikiAnswers 问题复述数据集 中文经典典籍语料 几个网上采集的自然语言语料中文姓名语料 81万互联网词汇词库 Question-Answer 问答数据集 Wikilinks 跨文档语料扩展版 几个聊天机器人语料 TED 平行语料库

社会数据

希拉里邮件门泄露邮件 波士顿Airbnb 公开数据【Kaggle数据】 世界各国经济发展数据【Kaagle数据】 世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】 世界范围显著地震数据(1965-2016)【Kaagle数据】 美国婴儿姓名数据【Kaagle数据】 全世界鲨鱼袭击人类数据【Kaagle数据】 1908年以来空难数据【Kaagle数据】 2016年美国总统大选数据【Kaagle数据】 2013年美国社区统计数据【Kaagle数据】 2014年美国社区统计数据【Kaagle数据】 2015年美国社区统计数据【Kaagle数据】 欧洲足球运动员赛事表现数据【Kaagle数据】 美国环境污染数据【Kaagle数据】 美国H1-B签证申请数据【Kaggle数据】 IMDB五千部电影数据【Kaggle数据】 2015年航班延误和取消数据【Kaggle数据】 凶杀案报告数据【Kaggle数据】 人力资源分析数据【Kaggle数据】 美国费城犯罪数据【Kaggle数据】 安然公司邮件数据【Kaggle数据】 历史棒球数据【Kaggle数据】 美联航 Twitter 用户评论数据【Kaggle数据】 波士顿 Airbnb 公开数据【Kaggle数据】 芝加哥市2001年以来犯罪记录数据 美国查塔努加市犯罪记录数据(2003年至今) 芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据 芝加哥餐馆卫生检查结果数据 几个人类运动位置路线GPS数据集(骑行、跑步等) 希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】 美国连环凶案数据(1980-2014)【Kaggle竞赛】 广告实时竞价数据【Kaggle竞赛】 美国费城犯罪记录数据【Kaggle竞赛】 Reddit 用户交互记录【Kaggle竞赛】 泰坦尼克灾难数据【Kaggle竞赛】 Wikipedia 页面点击流量数据【Kaggle竞赛】 纽约市出租车乘车时间预测竞赛数据【Kaggle竞赛】 新闻和网页内容推荐及点击竞赛【Kaggle竞赛】 科比布莱恩特投篮命中率数据【Kaggle竞赛】 几个城市气象交换站日间天气数据 Reddit 2.5 百万社交新闻数据 Google的机群访问数据 MIT Saliency 眼睛浏览轨迹数据集 根据安检人体扫描成像预测威胁竞赛【Kaggle竞赛】

处理后的科研和竞赛数据

NIPS 2003 属性选择竞赛数据 台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据 Large-scale 分类建模数据 几个UCI 中 large-scale 分类建模数据 Social Computing Data Repository 社交网络数据 猫和狗分类识别竞赛数据【Kaggle竞赛】 DSTL 卫星图像识别竞赛数据【Kaggle竞赛】 根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】 人脸关键点标定竞赛数据【Kaggle竞赛】 Kaggle竞赛数据合辑(部分竞赛数据) UCI多分类组合出的二分类数据集 UCI经典二分类数据集 场景图像分类竞赛数据【ChallengerAI 竞赛】 人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】 图像中文表述竞赛数据【ChallengerAI 竞赛】 英文同声传译竞赛数据【ChallengerAI 竞赛】 中英文本翻译竞赛数据【ChallengerAI 竞赛】 虚拟股票趋势预测【ChallengerAI 竞赛数据】 机器视觉推理实验数据 BigMM 2015 竞赛验证数据集 KONECT 网络图结构和网络科学数据合辑   无论是数据挖掘还是目前大热的深度学习,都离不开“大数据”。大公司们一般会有自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get large datasets open to the public” 是一个不得不面对的问题。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。   一.如何使用这些资源? 使用它们最简单的方法是进行数据项目,并在网站上发布它们。这不仅能提高你的数据和可视化技能,还能改善你的结构化思维。 另一方面,如果你正在考虑/处理基于数据的产品,这些数据集可以通过提供额外的/新的输入数据来增加您的产品的功能。 我们已经在不同的部分中划分了这些数据源,以帮助你根据应用程序对数据源进行分类。首先从简单、通用和易于处理数据集开始,然后转向大型/行业相关数据集。然后,我们为特定的目的——文本挖掘、图像分类、推荐引擎等提供数据集的链接。这将为您提供一个完整的数据资源列表。   二.由简单和通用的数据集开始 1.data.gov ( https://www.data.gov/ )  这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。  640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 2.data.gov.in  ( https://data.gov.in/ )  这是印度政府公开数据的所在地,通过各种行业、气候、医疗保健等来寻找数据,你可以在这里找到一些灵感。根据你居住的国家的不同,你也可以从其他一些网站上浏览类似的网站。   3.World Bank ( http://data.worldbank.org/ )  世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。   4.RBI  (https://rbi.org.in/Scripts/Statistics.aspx)  印度储备银行提供的数据。这包括了货币市场操作、收支平衡、银行使用和一些产品的几个指标。   5.Five Thirty Eight Datasets  (https://github.com/fivethirtyeight/data)  Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,没有比这个更好。   三.大型数据集 1.Amazon Web Services(AWS)datasets  (https://aws.amazon.com/cn/datasets/)  Amazon提供了一些大数据集,可以在他们的平台上使用,也可以在本地计算机上使用。您还可以通过EMR使用EC2和Hadoop来分析云中的数据。在亚马逊上流行的数据集包括完整的安然电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。 640?wx_fmt=png 2.Google datasets  ( https://cloud.google.com/bigquery/public-data/ )  Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。   3.Youtube labeled Video Dataset  ( https://research.google.com/youtube8m/ )  几个月前,谷歌研究小组发布了YouTube上的“数据集”,它由800万个YouTube视频id和4800个视觉实体的相关标签组成。它来自数十亿帧的预先计算的,最先进的视觉特征。 640?wx_fmt=png   四.预测建模与机器学习数据集 1.UCI Machine Learning Repository  ( https://archive.ics.uci.edu/ml/datasets.html )  UCI机器学习库显然是最著名的数据存储库。如果您正在寻找与机器学习存储库相关的数据集,通常是首选的地方。这些数据集包括了各种各样的数据集,从像Iris和泰坦尼克这样的流行数据集到最近的贡献,比如空气质量和GPS轨迹。存储库包含超过350个与域名类似的数据集(分类/回归)。您可以使用这些过滤器来确定您需要的数据集。 640?wx_fmt=png   2.Kaggle  ( https://www.kaggle.com/datasets )  Kaggle提出了一个平台,人们可以贡献数据集,其他社区成员可以投票并运行内核/脚本。他们总共有超过350个数据集——有超过200个特征数据集。虽然一些最初的数据集通常出现在其他地方,但我在平台上看到了一些有趣的数据集,而不是在其他地方出现。与新的数据集一起,界面的另一个好处是,您可以在相同的界面上看到来自社区成员的脚本和问题。 640?wx_fmt=png 3.Analytics Vidhya  (https://datahack.analyticsvidhya.com/contest/all/ )  您可以从我们的实践问题和黑客马拉松问题中参与和下载数据集。问题数据集基于真实的行业问题,并且相对较小,因为它们意味着2 - 7天的黑客马拉松。  640?wx_fmt=png 4.Quandl  ( https://www.quandl.com/ )  Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如,来自印度的证券交易所数据是免费的。 640?wx_fmt=png 5.Past KDD Cups  ( http://www.kdd.org/kdd-cup )  KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。   6.Driven Data  ( https://www.drivendata.org/ )  Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模拟竞赛,从而开发出最好的模型来解决这些问题。   五.图像分类数据集 1.The MNIST Database  ( http://yann.lecun.com/exdb/mnist/ )  最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。   2.Chars74K  (http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )  这里是下一阶段的进化,如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像,因此数据集的名称。   3.Frontal Face Images  (http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )  如果你已经完成了前两个项目,并且能够识别数字和字符,这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的,排列在四个文件夹中。   4.ImageNet ( http://image-net.org/ ) 现在是时候构建一些通用的东西了。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前,该集合平均每个节点有超过500个图像(而且还在增加)。   六.文本分类数据集 1.Spam – Non Spam  (http://www.esp.uem.es/jmgomez/smsspamcorpus/)  区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。   2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。   3.Movie Review Data  (http://www.cs.cornell.edu/People/pabo/movie-review-data/)  这个网站提供了一系列的电影评论文件,这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如,“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。   七.推荐引擎数据集 1.MovieLens  ( https://grouplens.org/ ) MovieLens  是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐,推荐界面,基于标签的推荐页面等在线实验。这些数据集可供下载,可用于创建自己的推荐系统。   2.Jester  (http://www.ieor.berkeley.edu/~goldberg/jester-data/)  在线笑话推荐系统。   八.各种来源的数据集网站 1.KDNuggets  (http://www.kdnuggets.com/datasets/index.html)  KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面,但是某些来源不再提供数据集。因此,需要谨慎选择数据集和来源。   2.Awesome Public Datasets  (https://github.com/caesar0301/awesome-public-datasets)  一个GitHub存储库,它包含一个由域分类的完整的数据集列表。数据集被整齐地分类在不同的领域,这是非常有用的。但是,对于存储库本身的数据集没有描述,这可能使它非常有用。   3.Reddit Datasets Subreddit  (https://www.reddit.com/r/datasets/)  由于这是一个社区驱动的论坛,它可能会遇到一些麻烦(与之前的两个来源相比)。但是,您可以通过流行/投票来对数据集进行排序,以查看最流行的数据集。另外,它还有一些有趣的数据集和讨论。