发布时间:October 18, 2010
分类:闲言碎语
4 Comments
故事是这样的
张三开了一家电影院,雇了李四做保安,一日大片上映,观众甚多:
来了一个观众A
李四:你叫什么名字?
A:张艺谋
李四:我看看黑名单,最近冒充张艺谋的挺多的,嗯,叫这个名字的都不许进!你是冒牌的!下一个!
A:……
后来真的张艺谋来了,也没让进
这就是文件名查杀病毒,效率高,但改个名字就不认识
来了一个观众B
李四:你叫什么名字?
B:陈凯歌
李四:嗯,名字不在黑名单上。但是我这儿还有不少照片,你长得跟一个盗版商一样!不许进!
B:(心里话:莫非要进去还得整容?)
后来B真化妆进去了
这就是病毒特征码查杀病毒,准确率是比较高的,也是目前使用较多的方式,但是前提是病毒库中有某个病毒的特征,病毒通过加壳及其他方式改变特征,可以躲过。
来了一个观众C
名字和照片都不在名单上,但是好像带着个摄像机,于是李四就格外关注这个C
电影开始了,C真掏出摄像机开始摄像,李四怒了,张老板不让录像啊,过来把C请出了影院。
这就是行为分析,也就是安全软件主动防御的方式,与特征、文件名无关,可能会发现未知的病毒。
来了一个观众D
张三打电话给李四,说D是他朋友,可以进,于是李四就放进去了
这就是安全软件的忽略功能,用户设定了某个文件或目录不用检查,安全软件就会放行
来了一个观众E
E带着电影协会的证明,是过来检查放映情况的,在核对了E的证件之后,李四放行
这就是数字签名的方式,由权威机构给软件背书,证明安全
来了一个观众F
偷偷从影院的后台进入,李四不知情
这就是系统有了漏洞,所以有补丁还是要打的
--Back to top--
发布时间:October 12, 2010
分类:闲言碎语
1 Comment
给上网本升级到了ubuntu 10.10 netbook edition,顺便用wubi给笔记本安装kubuntu 10.10,记录一下不太复杂的过程。
原计划是使用Universal USB Installer制作一个live USB来安装,制作过程很是顺利,启动安装之后,发现进入了一个BT种子下载的过程,耗时颇长,于是中止安装(断网安装比较好),卸载ubuntu。
使用镜像刻录了CD,放入光驱,运行光盘中的wubi.exe,几步选择之后就行了,没什么好说……
那为什么要写此篇日志呢?
kubuntu 10.10在安装了完整中文语言支持之后有一个小问题。默认的任务栏等面板是在下部,给该面板添加一个“输入法”部件之后重启,会发现影响到了菜单的布局,点击左下角类似windows开始菜单的K按钮,弹出的部分变成了左上角对齐,多点几次会发现这个弹出菜单会逐步向右下角移动,取消或者把“输入法”部件之后会恢复正常(不添加“输入法”部件,拼音输入中文的时候看不到备选词)。我的解决方案是把整个面板放到屏幕的上面去,然后在该面板添加新部件,没技术含量吧……
ubuntu 10.10更有意思,启用了新的UI,我找不到自己挂载的其他硬盘分区了(10.04在文件夹项中很清楚),点击10.10的文件目录项只能看到搜索条、最近使用文件、下载目录中文件(右键是没法操作的)、用户目录,寻觅了半天,终于发现怎么进入其他分区了,点击用户目录中的某个目录,如图片,就进入了图片目录(废话),在搜索条的最右侧,有一个小小的文件夹图标,就是它了,点击就启用了资源管理器。
顺便说一句,kubuntu 10.10也有netbook edition
--Back to top--
发布时间:October 5, 2010
分类:资源资料
No Comments
给上网本安装了Ubuntu Netbook Edition,发现无线网络经常掉线,实际上在安装其他发行版的时候也遇到了这个问题,一番搜索得知可能是network-manager造成的,解决方案是安装wicd来管理无线网络,步骤如下:
1、sudo apt-get install wicd
2、sudo apt-get autoremove network-manager
3、重启
记录一下方便下次查找。
PS:经过测试,依然会出现掉线的情况,不过没那么频繁,有其他方法请不吝赐教。
20101012补充:
进路由器更改信道会有效改善掉线情况,默认一般是6,可能在复杂无线环境中出现冲突,改成其他的会比较好
--Back to top--
发布时间:October 3, 2010
分类:闲言碎语
6 Comments
有很多类型的歌词文件带有时间标签,如市面上几乎所有的播放器都支持的LRC,以下是辛晓琪《领悟》这首歌LRC的一部分:
[ti:领悟]
[ar:辛晓琪]
[00:00.00]辛晓琪 领悟
[00:01.00]我以为我会哭
[00:05.00]但是我没有
[00:09.00]我只是怔怔望着你的脚步
[00:14.00]给你我最后的祝福
[00:19.00]这何尝不是一种领悟
[00:23.00]让我把自己看清楚
[00:27.00]虽然那共爱的痛苦
[00:30.00]将日日夜夜
[00:32.00]在我灵魂最深处
……
可以看出,LRC歌词的时间标签标注了某句歌词的开头(实际上是可以给每个字加上标签来实现卡拉OK效果的,由于成本太高,所以目前的播放器都是采用标识整句,均分到字的方式),下面来计算每个字所占用的时间:
两个相邻时间标签的时间差值/该句歌词字数=每字时长
通常在歌曲的副歌或是说高潮(也就是我们对这首歌最熟悉的部分,如《领悟》里的“啊!多么痛的领悟,你曾是我的全部”)出现的之前,会有一小段纯音乐的过渡,这段过渡会计入上一句的时长里,影响到每字时长的计算,使计算得到的每字时间变长,为了减少误差,当歌曲某一句的每字时长明显超过其他句每字时长的时候,抛弃该句的计算值。这样,我们就获得了《领悟》这首歌曲的人声分布区域、全曲平均每字时长、单句每字时长这三个数据,接下来利用这三个数据来形成推荐相似歌曲的基础。
1、人声分布区域,这是一个时间段的概念,结合全曲时长,来获得人声演唱的相对时间段。曲风、旋律、节奏相近的歌曲,在人声分布区域上也是相近的(凤凰传奇的歌应该是比较明显了)。
补充:也可以不抛弃计算值,只保存单句每字时长明显超过其他句每字时长的那几句歌词,这几句多半就是副歌开始及歌曲最后的抒情。
2、全曲平均每字时长,这与歌曲的节奏是一致的,通过节奏把歌曲分类为慢、偏慢、偏快、快四个类型或是更多类型,就能实现谷歌音乐挑歌功能里的按节奏挑选。
3、单句每字时长,这描述的是单位时间里歌词的密集程度,用一个图来说明意义(没精确算,只说明思路),如下:

横轴是全曲的时间轴(刻度是相对时间,如全曲的1/50),纵轴是歌词密集程度,越密集值越大,如果在歌曲中有一段rap,那么在图中就会出现一个尖锐的波峰。在相似歌曲的推荐中,就可以采用常见的波形相似性算法了。
注:简化一下,横轴的刻度是“句”,纵轴参数是每句歌词密度,就形成了一个波形图,与时间无关,有利于不同时长歌曲的匹配。
如果所处理的歌词是KMC格式,能更准确的获得每字的时长,可以更精确表现人声分布区域及节奏。下面是一个KMC格式歌词,引自百度百科KMC词条:
<kmc ti="小薇" ar="黄品源" al="精选集" by="某某" offset="0" duration="3:16">
<l t="00:28.556,00:33.752,165,291,2450,163,253,219,315,260,1080">有一个美丽的小女孩</l>
<l t="00:34.515,00:39.383,230,167,291,2063,198,356,483,1080">她的名字叫作小薇</l>
t 属性(time) 表示行内容对应的时间组,用英文逗号,隔开
前两个时间值为行开始和结束时间,格式为:分:秒
后面的时间值对应为行内每一段经历的时间,单位:毫秒
最后,这个推荐模型的歌曲相似性所描述的是曲风、编曲节奏相似的歌曲。
相关阅读:
基于歌词情感特征的歌曲推荐模型
--Back to top--
发布时间:September 26, 2010
分类:闲言碎语
8 Comments
歌词是承载歌曲情感的文字,是歌曲本意所在,本文旨在构建一个基于中文文本情感倾向分析的歌曲推荐模型。
作用:
1、输入一首歌曲,可以找到与该歌曲类似情感的其他歌曲
2、输入一个情感词,如“伤感”,可以找到“伤感的歌曲”
以歌词作为情感特征分析的原料有如下优势:
1、存储成本低,歌词全文(即使是带有时间标签的LRC或是KSC)一般不会超过5KB。声纹或者音频特征的存储则需要更大的空间
2、文本分析技术已经比较成熟,有很多现成的开源项目可以借鉴
3、分析规模小,多个歌手演唱的不同版本歌曲也只会有一个歌词
4、文本歌词容易获取
基本的流程可以这样描述:

举例说明歌词情感分析,首先看辛晓琪《领悟》的歌词
辛晓琪领悟
我以为我会哭
但是我没有
我只是怔怔望着你的脚步
给你我最后的祝福
这何尝不是一种领悟
让我把自己看清楚
虽然那共爱的痛苦
将日日夜夜
在我灵魂最深处
我以为我会报复
但是我没有
当我看到我深爱过的男人
竟然像孩子一样无助
这何尝不是一种领悟
让你把自己看清楚
被爱是奢侈的幸福
可惜你从来不在乎
啊!一段感情就此结束
啊!一颗心眼看要荒芜
我们的爱若是错误
愿你我没有白白受苦
若曾真心真意付出
就应该满足
啊!多么痛的领悟
你曾是我的全部
只是我回首来时路的每一步
都走的好孤独
啊!多么痛的领悟
你曾是我的全部
只愿你挣脱情的枷锁
爱的束缚任意追逐
别再为爱受苦
1、中文分词。可以借鉴chrome使用的分词技术以及搜狗输入法的细胞词库。目的是获取到带有比较强烈情感倾向的词,本歌词里有“哭”、“痛苦”、“报复”、“无助”、“不在乎”、“荒芜”、“错误”、“受苦”、“痛”、“孤独”等等等等
2、关键词情感倾向匹配。这里需要一个建设一个文本情感倾向的词库,有学者把个人的情感分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”七种,为了说明方便,简化成“喜”、“怒”、“哀”、“乐”、“惧”五种,每种情感类型下面有若干代表该类情感的形容词、名词、词组。根据情感强烈与否,标识为“乐1”、“乐2”、“乐3”(也可以忽略情感程度,单纯考虑数量)。
3、形成歌曲的情感特征值。匹配所有关键词之后进行积分累加,一首歌曲的情感特征可以抽象为:
喜:55
怒:11
哀:2
乐:3
惧:1
利用此特征值搜索曲库,形成同类情感歌曲推荐。
本方法的难点在于文本情感倾向词库的建设及机器学习,可以为每种情感类型确定若干个典型词,通过检索同义近义词来扩充词库,构建基础库(进行人工分类是比较精准的方法),可以用到的资源有汉英词典、wordnet项目。
同样的方法还可以用于乐评、带音乐文件日志的分析,豆瓣、QQmusic这样的产品可以充分利用。
补充:LRC、KSC文件由于带有时间标签,可以有更深度的利用,下篇日志写。
相关阅读:
基于歌词时间标签的相似歌曲推荐模型
--Back to top--
- «
- 1
- ...
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- ...
- 104
- »