这是美赛第一天清洗真实数据的一些记录,简要记录了些之前没想过会有的问题(也就是想吐槽的问题)。当时还是感觉挺欢乐的。

title大小写也有不一样的。。。
id\parent\title的关系:product_parent就是我们平常的那种商品页上看到的那整个可选择颜色、大小的产品的ID,product_id和title相当于具体的某个size\color的物品的名字和id,但可能因为现实中的某些情况,同一个title可能不只对应一个id或parent。
这三个列的关系折腾了一下午真的。。。第一次接触到这种真实的数据集。。。不过想出来的那一刻还是很开心的。。。

不太能理解excel为啥会出这个问题,百度也没找到,然后我打算把数据集不断二分,一个一个的试,突然看到一个心形图案(见下),我大概懂了。。。虽然这个心形图案不是造成这个问题的原因,但我猜估计是某个类似的东西造成的吧。。。

经过我先是对几个怀疑列的排查,然后又是对数据集不断的划分,终于找到这个鬼东西了

在excel里输这两个符号会这样

虽然找到这个东西意义不大,毕竟不是非要用excel开这个数据文件,但找到了心里舒服些吧。。。然后我把他改成nice了哈哈
