Coding,the witchery of the real world

0%

自查指南有一些个人实用的debug tips,主要是用来提醒自己,随缘更新,应该不至于图文翔实,欢迎大家补充

知识范围内的错误

  1. 看错误输出
  2. 看调试日志
  3. 合理推测
  4. print调试
  5. 善用搜索引擎
    1. 搜索错误信息
    2. 保留语境义
  6. 断点调试
Read more »

这里是一些平常做的一些导图

  • 待更新
  • 暂时的更新
    • 生成任务
    • 软件工程
    • 计算机系统基础
    • 数据结构与算法
    • 高等数学
    • 线性代数
Read more »

o

OOOOOOORZ

这是上班第一天写下的东西

轻松的整个

晚上好好去结束学校生涯的最后一段

随便写写了,很多东西不足为外人道也

虽然失落有很多,但开心也有一点

毕竟总归是逃离996还有愉快的双休

希望可以学到很多东西

希望可以让自己变得更厉害

希望可以让自己发自内心的更快乐一些

希望可以继续坚持下去以前爱的事情

说完了希望

那就说目标与计划

大抵上,总要向前辈看齐,努力做的比自己期望的更出色一些

好好锻炼身体,向160斤看齐

调整作息,健康生活,保证充足的睡眠

每天都要吃早餐

热爱家人,热爱自己,热爱生活

将从前没学好的东西慢慢的再来一遍

还有些难以下笔的话,不会忘记

也就到此为止了~~

zzz

Task

对于给定的商品信息以及商品所属评论,生成侧重于商品属性的仿真评论

思路

  • 对于商品信息进行转化,将属性转化成描述性语句,生成对应属性不同态度下的评论
  • 句法结构的抽取,按照结构填充需要的内容
    • 先手动生成一个差不多的模板跑起来
    • 考虑从评论语料中提取能用的东西
      • 句子结构
      • 常用词
      • 评论模板

选择数据集

比较有感觉的电脑相关商品评论和商品信息亚马逊数据集

属性相关

  • 属性转化
  • 从feature和description中抽取语料
    • 细类/属性描述词
  • 考虑只保留PC/Tablet
    • 四个系统(Linux/Windows/Macintosh/Android)
    • 多种特性(高性能/续航/轻薄/屏幕素质/大内存/信仰/颜值/)
  • a stupid search
    • 从评论中找属性(Problem/advantages/Screen/(Intel/AMD)/GB/MB
    • 对附近的短句做处理
  • 通用的构建描述集合(对于不同属性不同状态的不同描述)

生成相关

初步

  • 构建模板config
  • 根据态度,商品选择
  • 看情况选择好属性差属性组合
  • 根据句法结构填充

进一步的

  • Rule-based + 从评论中抽取到的内容
  • 丰富属性相关中生成的模板
    • 知识库
    • 评论抽取
    • 模板组合
    • etc.
  • Data2seq
    • 模板选取打分机制
    • 模板生成

0.前言

这会是一个思路与工具以及实操注意点的混合版本,基于下图进行扩充,若无特殊说明,所用编程语言皆为Python3.6

文档结构化

1. 数据获取

1.1. 爬虫

1.1.1. 工具

  • Beautiful Soup
    • 将获取的网页内容转换成树结构解析
  • Selenium
    • 模仿浏览器行为获取内容

1.1.2.Tips

  • 以下未说明selenium或者Beautiful Soup的大体上思想是可以通用的

  • 需要规避审查机制的时候可以考虑selenium模拟浏览器行为去操作

    • 需要与chrome driver这一类浏览器驱动配合使用
    • 流程
      • 调用driver加载自定义配置打开浏览器
      • 模拟用户在地址栏输入
      • 模拟用户在页面点击访问
      • 模拟用户进行下载行为
    • 因此也常用于自动化测试
  • 注意几种定位元素的方式,配合正则表达式

    • xpath
      • 相对位置
      • 绝对位置
    • class
    • id
    • tag
  • 注意操作顺序,有强制性的前后顺序,可以参考wait机制,等待一个操作结束后进行另一个操作的部分

  • 需要先获取一个list的可以考虑

    • 一个元素,然后就去下
    • 分步获取一部分,一部分一部分的完成
    • 获取整个list,再等到限制条件达到的时候停止

1.2. 批处理

1.2.1. 工具

  • 文件操作相关的一些库
    • shutil
    • os
    • sys
    • etc.
  • 其他重复性工作用到的库也可以用来批处理简化

1.2.2. Tips

  • 数据获取部分的批处理主要是对数据的命名、格式做一个初步的规范
  • 获取路径
    • 注意路径上的空格,考虑转义或者用引号标注
    • 进而获取文件目录
    • 获取每一个需要处理文件的路径,生成处理完成目标的目录
  • 批处理实际上就是循环的处理脚本
  • 处理时可以通过命令行命令在程序中调用其他已有的程序来做一些事情

2. 信息初步分解

2.1. PDF抽取

2.1.0. Tips

  • 对于一些不太容易处理的标签错误或很多标签交杂
    • 选择性的去除一些标签
    • 整体转为文本用规则的方法去除标签
    • 分段时句尾符号,考虑去除空格之后做判断
    • 断行时连接符去除考虑“- ”或者“-\n”这种视具体情况去除
  • 编码格式
    • unicode/utf8/other
    • 注意python2.x系列似乎不支持unicode,3.6版本可以
  • 为了持久可复用,建议写好requirements和大版本信息等或venv部署要求

2.1.1. PDF2HTML

2.1.1.1. 工具
2.1.1.2. Tips
  • 生成的html的特征
    • 片段化文本组织成的页面
  • 处理注意点
    • 字体大小
    • 相对位置
    • Abstract,Introduction,Reference等关键词

2.1.2. PDF2XML

2.1.2.1. 工具
2.1.2.2. Tips
  • cermine用于提取元信息,这个处理的挺不错的
    • 布局比较离散化的容易识别出错
  • pdfx对于篇章结构生成的xml结构相对清晰
    • 去除unknown的块和figure、table的块也没有丢失很多信息,分段基本清晰
    • 左右栏标题高度相近的容易被误判成一个标题
    • 也有小标题无法识别,大标题基本都可以

2.1.3. PDF_Extract

2.1.3.1. 工具

2.2. 信息分类

2.2.1. 类别

image-20200120154543303

2.2.2. Tips

  • 结构规定好之后把类写好,依据这个填充内容

2.3. 进一步结构化

2.3.1. Tips

  • 观察结构的不同,和通用的部分
  • 根据不同的分段特点、句子特点等处理
  • 处理建议观察一小段
    • 之后发现有问题的,再去结合正确情况和错误情况
    • 日趋鲁棒

3. 生成markdown

3.1. Tips

  • 注意markdown的语法,增强可读性
  • 需要特殊标记用于其他用途的规避语法

Yelp数据集结构

Review

字段名 描述
review_id 评论id
user_id 用户id
business_id 商店id
stars 分布在0~5浮点数
useful 实用性
funny 。。
cool 这三个都是其他用户对于该评论的评估,相当于赞(分成了三种,yelp
==text== 评论内容
date 评论日期
### user
字段名称 描述
user_id 用户id
name 用户名
review_count 总评论数目
yelping_since 账户起始日期
useful 评论标签
funny 评论标签
cool 评论标签
elite 精英年份(类似于一种身份认证,保存年列表,也是一种对用户的划分
friends 用户好友
fans 用户粉丝,elite粉丝相对多,和曝光度、用户内容质量等也是有关的
==average_stars== 平均打分
compliment信息 hot/more/profile/cute/ist/note/plain/cool/funny/writer/photos
### Business(粗粒度的)
字段名称 描述
business_id 商店id(大雾
categories
city/postal_code/state/address 地址信息
is_open 是否营业(细粒度的对应周一到周日的情况
latitude/longitude 经纬度
name 店名
review_count 评论数
==stars== 综合评分
Attribution 这个可能会很有用,里面有一些服务商店(主体)的属性,开放时间,需要预定,是否可以抽烟等用到的时候需要关注一下

photo

字段名称 描述
business_id
caption
label 图片标签inside/food/outside/drink etc.
photo_id

checkin(校验登记的感觉

字段名称 描述
business_id
date

tip

字段名称 描述
business_id
user_id
date
==text== 似乎是比较好的评论,具体评判标准未知,可以再仔细看看
compliment_count 指代意义不明…(猜测是否有补充什么东西)

Amazon DataSet

image-20191231003512482

image-20191231003549024

image-20191231003604455

TaobaoKOBE描述生成数据集

content_tag_dataset.txt

描述字段,面向用户种类以及权重字段

image-20200102172500710

可能需要预处理一下,每个标签权重之间分隔符为‘:’,整体分隔符为‘;’

item_desc_dataset.txt

商品标题和商品描述

排序的一些说明

image-20191215193056423

img

计数排序即对各个数计数然后取出来成一个列表,其中k代表桶的个数

img

CMM/CMMI

image-20191215204122666

内存分块

image-20191216130607801

image-20191216130633107

流水线的局限性

  • 不一致的划分
  • 流水线过深,收益反而下降
    • 考虑到每个阶段的延迟

几种存储

(RAS Row Access Strobe||CAS Column Access Strobe)

SRAM Static Random-Access Memory

DRAM Dynamic Random-Access Memory

PROM Programmable Read-Only Memory只能被编程一次

EPROM Erasable Programmable Read-Only Memory

EEPROM Electric~~

库打桩

编译时打桩

链接时打桩

运行时打桩

非本地跳转

setjmp(buf)获取longjmp(buf,num)中num的值,实现跳转,也可以配合switch做异常处理

页表

VPO==PPO

VPN中的TLBT为标记位,TLBI为有效位,去找PPN,找到即生成PPN+PPO的物理地址

找不到就要去查询页表了,看是几级页表,对VPN进行划分,一级一级查询下去

空闲链表

隐式空闲链表 头部大小字段隐含连接

优点简单,缺点开销与堆中已分配块和空闲块的总数呈线性关系

etc.

显式空闲链表 按地址排序的首次适配比LIFO排序的首次适配有更高的内存利用率,接近最佳适配利用率

缺点:空闲块必须足够大,包含所有需要的指针,头部和可能的脚部。。导致更大的最小块大小提高内部碎片的程度

分类空闲链表

  • 简单分离存储
    • 大小相等的块集合
  • 分离适配
    • 对合适的块(可选的)分割,剩余的合并回去
    • 首次适配搜索内存利用率近似对整个堆的最佳适配搜索内存利用率
  • 伙伴系统
    • 分配2^k大小的块,二分分割
    • 可能有显著的内存碎片
    • 不适合通用场景,但对于特定应用的工作场景(固定二次幂)就非常有吸引力了

万物皆是IO

英语拾遗

作文:

Essay 6:

==关于备考==

注意现象的对比,现象的后果,应该怎么做比较好,从自身或者考试的角度来说

strive for a A

illustrate/demonstrate/show

According to an anonymous survey

slack off 懈怠

cram for a exam 为考试补习

let alone (do sth.)

prestigious postgraduate schools 著名的研究生院

upon graduation 毕业后

Making full preparation is the key to accomplishing the goal.

Essay 7:

==关于智能手机的影响==

图片描述,现象对比,现象的原因,手机的作用,可能的副作用,正确使用,升华主题

power bank/portable charge

cartoonist

highlight/stress/underline/emphasize

drastic changes 剧烈变化/巨大变化

dramatic changes 戏剧性的变化

run out 耗尽

But the change is not without problems

become slave of ~~/be slave to

Essay 8:

==关于小孩子教育的选择==

报补习班与家长辅导的对比,两种方式各自的优劣,对比对比就有话说了,综合说一下,最好各来一部分

Doing sth. is never an easy matter

settle a problem

costly/expensive

under systematic arrangements

have less time on their own stuffs

have a quick, clear grasp of how much their children know about a particulaar sbject.

To sum up

should not place hope solely on either

get into debt 负债累累

be free/when are you free和have time 和 available

Essay 9:

==关于志愿者招募==

两种态度对比,从女孩角度分析,反驳无可厚非,但是错过了很多,引出社会责任etc.升华主题

As is described in the cartoon

billboard广告板 Bulletin Board公告板

I think the cartoon is used to highlight two different attitudes towards life

reproach 责备

be above reporach 无可非议

qualities that play important roles throughout one’s life

shoulder responsibilities for our society 承担社会责任

money is important to us college students but should not be placed at top of our agendas.

cure the society 改善社会

小作文:

70周年

Notice:

​ The annual English Writing Contest help by the school of Foreign Languages is due to commence on September 28th. To celebrate the fothcoming 70th anniversary of the foundation of People’s Repulic of China, the contest is titled “My people, My Country’. In addition to a certificate and a sum of award, all the winners are expeced to recevie a specially designed silver medallion.

​ Registration is now accepted. Given that the number of appilcants may hit a record high this year, every applicant sould submit an essay about 300 words on “To Be a Responsible College Student in this Era” in order for the committee to select 100 candidates for the final competiton.

​ Good luck to everyone and happy birthday to our country in advance.

Zhang Hua

Students’ Union

​ The 70th anniversar of the foundation of People’s Republicc of China is at hand, which is due to take place next month. In order to celebrate and sing high praise of the great achievements we have accomplished in the past seven decades impressively, fantastic performances are badly needed.

​ For one thing, performances are expected to be extremely meaningful and full of youthful spirit. More significantly, those embodying Chinese culture unique to our mmotherland are preferred. For another, in view of the fact that not only do a variety of performances enable us to get rid of pressure from our study but also they inspire us to work hard and make great contributins to our country.

​ If you are interested, please send an email to example@example.com during working hours.

Postgraduate Association

有趣的

调和数列与对数

左边利用ln(n+1)<n来证明

右边利用作差生成新数列,然后判断数列单调性

一个直觉(调和数列缓慢增长,可以用ln(n)+C逼近,C大约是零点5几的样子


椭圆长短轴计算

image-20191213133932689

不直观的话,可以通过距离公式(知道中心之后)x^2 + y^2,找椭圆上最大值,最小值

三角换元 easy go~(极坐标

比较fashion的就是用矩阵的变换来做

具体原理可以理解一下仿射变换,简单来说就是一个合适的矩阵可以用来表示旋转,平移,缩放等变换,所以图形学矩阵一定要学好~

下面是贴图,注意,矩阵方法主要是参照的二次型的原理,因此可以得出原式以及变换方式,进而再做一些有趣的事情

92d9349ff0b3580aaecd239da6b529e


瑕点型反常积分收敛性

其实就是可以把它和x的n次幂做个等价,看看情况

image-20191213144728609

image-20191213145029587

image-20191213145150036

image-20191213145013288

中值定理

0.有几个定点的值可以配凑一下x的多项式去近似,具体以后可以贴张图mm,也可能不贴了哈哈哈

image-20191213155240693

image-20191213160541563

image-20191213160801912
image-20191213162703444

这个的第一问就很有意思,分类讨论可做,也可以先一次求导,然后根据罗尔定理得出的极值点性质(导数左右正负性相反【导数存在】)与正负号相同的a,b导数讨论一下,就可以得出另一个导数零点的位置

image-20191213165036764

记录这个主要是因为我一下子真不会2333

image-20191213185517710

极限论

image-20191213191940351

夹逼的一种情况推导出来的一个常用结论

image-20191213192307055

极值判定

image-20191215153912494

调研时暂时的搜索关键词:e-commence, commodity/commodities’/~~ comment generation, comment analysis, nature language generation,etc.

基于人工智能的评论生成方法及装置、设备与可读介质

image-20191204102011161

动机:

自动生成评论语句
Read more »