参与者查看了超过10,000条推文,其中包括“着火”、“隔离”和“防疫”等各种关键字的搜索,然后指出这条推文是否提到了灾难事件(而不是带有关键字的电影评论或笑话,和一些非灾难性的事件)。我们的任务是检测哪些推文是关于灾难性事件的,而不是像电影这样无关紧要的话题。这个任务的特别在于,两个类都包含相同搜索词,因此我们将不得不使用更微妙的差异来区分它们。在这篇文章的余下部分中,我们将把有关灾难的推文称为“灾难”,并把其他的推文称为“无关”。标签我们已经标记了数据,因此我们知道哪些推文属于哪个类别。正如Richard Socher所描述的那样,与试图优化复杂的无监督方法相比,用查找和标记足够的数据来训练模型,更快、更简单、成本更低。 Richard Socher的观点
我们遵循的第一条规则是:“数据的好坏影响着你的模型。”数据科学家的关键技能之一就是知道下一步应该是研究模型还是数据。经验告诉我们应该先查看数据然后再洗数据集。干净的数据集将允许模型学习有意义的特性,而不是过度拟合无关的噪音。以下是用来清洗你的数据的清单(详见代码):