Coding,the witchery of the real world

0%

数据集结构

Yelp数据集结构

Review

字段名 描述
review_id 评论id
user_id 用户id
business_id 商店id
stars 分布在0~5浮点数
useful 实用性
funny 。。
cool 这三个都是其他用户对于该评论的评估,相当于赞(分成了三种,yelp
==text== 评论内容
date 评论日期
### user
字段名称 描述
user_id 用户id
name 用户名
review_count 总评论数目
yelping_since 账户起始日期
useful 评论标签
funny 评论标签
cool 评论标签
elite 精英年份(类似于一种身份认证,保存年列表,也是一种对用户的划分
friends 用户好友
fans 用户粉丝,elite粉丝相对多,和曝光度、用户内容质量等也是有关的
==average_stars== 平均打分
compliment信息 hot/more/profile/cute/ist/note/plain/cool/funny/writer/photos
### Business(粗粒度的)
字段名称 描述
business_id 商店id(大雾
categories
city/postal_code/state/address 地址信息
is_open 是否营业(细粒度的对应周一到周日的情况
latitude/longitude 经纬度
name 店名
review_count 评论数
==stars== 综合评分
Attribution 这个可能会很有用,里面有一些服务商店(主体)的属性,开放时间,需要预定,是否可以抽烟等用到的时候需要关注一下

photo

字段名称 描述
business_id
caption
label 图片标签inside/food/outside/drink etc.
photo_id

checkin(校验登记的感觉

字段名称 描述
business_id
date

tip

字段名称 描述
business_id
user_id
date
==text== 似乎是比较好的评论,具体评判标准未知,可以再仔细看看
compliment_count 指代意义不明…(猜测是否有补充什么东西)

Amazon DataSet

image-20191231003512482

image-20191231003549024

image-20191231003604455

TaobaoKOBE描述生成数据集

content_tag_dataset.txt

描述字段,面向用户种类以及权重字段

image-20200102172500710

可能需要预处理一下,每个标签权重之间分隔符为‘:’,整体分隔符为‘;’

item_desc_dataset.txt

商品标题和商品描述