语料库总结-第一文库 | 海量文档资源下载与分享平台

免费试读已结束，剩余 2 页请下载文档后查看

16 金币

下载此文档

/ 12

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

其实，无论做文本信息隐藏的逆向还是正向工作，语料库都是很重要的，如果能找到好的语料库，会使得事半功倍，因此我从语料库开始总结，这个也是走得最辛苦的一步。问题出在查找同义词词典和同义词的搭配词典上。由于中文词典类的语料库相对来讲比较少，而且专门的中文同义词词典基本没有，可以免费用来做研究的也就是哈工大的同义词词林，而且该词林的同义词之间从肉眼看就觉得不是很好。下面这段是我做过一些实验得到对同义词柿值钠兰郏鹤ㄒ荡首楹芏啵热缗┮抵械摹按笈镒魑铩薄⒒е械摹跋跛帷保锢碇械?“核磁”等，这样的字典比较有针对性，不能随便应用于一般的文章。比如，之前考虑的网络小说就不适合用这个词典（现在改进后发现小说、人民日报、其他的文章都能隐藏）。还有，词典同义词组之间比较牵强，现在没有用还不知道效果，但是不看好。第三，很多都是一个词，可能会把一个词切成几个词，比如出现过把人名“江泽民”切成“江”、“泽”、“民”（人民日报中，领导人等的人名经常出现，但是却会被切错！，做过实验证实过）。为了提取其中的同义词，对该词林做了初步的处理（仅去掉只有一个词的行及其去掉每行前面原本存在的标记），使得原本681KB（同义词词林原始版.txt）的同义词词林缩小成309KB（同义词词林第一次处理.txt），缩小超过一半，然后，再通过删除相同同义词出现在不同行的一些词组，并且保留删除的行的词组个数必须>=2，得到的同义词词林只有152KB（同义词词林无重复版.txt）。从一开始的618KB（同义词词林原始版.txt）到此时的152KB（同义词词林无重复版.txt），已经是缩小为原来的，而且这些处理也是必须的，可以这么说，现在可以免费用来做研究的中文同义词词典差不多是152KB，而且还不能保证质量，因为这个质量还是和之前一样，没有做过删减。这同样说明了之后可以用来替换的同义词应该会很少，因为之后为了好的效果，肯定会做进一步的处理，其实很担心到最后剩下的词典还不足10KB。（还好最后没有出现这种结果）最初，在找同义词词典的时候，同时也在找好的搭配词典。我是这么想的，要找到和手头的同义词词林较搭配的词典，为了要保证两点：①搭配词典不能太大，因为当时的想法是这样，通过训练人民日报，把同义词跟搭配词在左右同现的次数算出来，然后根据公式：51251212(,)(,)log2()()jjPwwSwwPwpw?????????????????（这个公式是从一篇文章“孙茂松的《汉语搭配定量分析初探》”中得到的，据说效果很好，但看来要找到好的词典才能知道结果），得到两个词的搭配强度，如果同义词词典和搭配词典过大，二者的乘积将会很大导致搭配强度的计算很费时很费力。②如果搭配词典过大，会导致隐藏信息的过程变得很漫长，因为中文的词语之间是没有空格的，需要应用切词来找出句子中的词汇，如果词典过大，又因为切词没有过多优化，就会出现搭配强度词典过大，查找也很费时。总之，找到好的、精确的搭配词典也是很重要的。一开始我查找搭配词典是找中文普通的词典，然后删除其中出现在同义词词林中的词语得到的。但是这样效果不好，有些词典很大，而有些词典虽然较小，但是一些常用的词，比如“温馨”、“愉快”竟然没有，这无疑会导致之后的隐藏质量变差，因为如果这些常用词不能检测到的话，说明提取到的跟同义词搭配的词可能会是其它不常见的词语，而这些搭配强度是通过训练得到的，我们可能最后发现搭配强度中的强度信息都是同义词跟一些无关词的搭配强度，这样也就失去了通过语境来选择同义词的意义。这么说吧，就是由于搭配词典很差，可能导致一个同义词无法找到最好的搭配词，而是跟别的无关词乱搭配，然后通过无关词来找它的同义词，而此时搭配强度已经没有任何意义了，甚至会作出错误的判断。这时我就想着是否应该找高频词汇来作为搭配词语，于是搜了好多高频词汇集，比如人民日报词频1.txt、人民日报词频2.txt、中国古典小说词频.txt、最常见的中文词语1.txt、最常见的中文词语2.txt、词频.txt等等。这样，有了最初的同义词词林和最初的搭配词典，就可以通过公式51251212(,)(,)log2()()jjPwwSwwPwpw?????????????????来计算搭配强度词典。由于之前都是自己建的哈希表，很多函数都是自己写的，没有优化，得到结果时间很长，而且有些错误。关于代码，前后大刀阔斧改了三遍，惭愧