没有一个输入法词库能够囊括常用词。比如说,“曹操”在三国演义中是常用词,在西游记中频率为0。输入法词库不能满足统计一部作品词频的需求,这就需要手动添加新词(程序自动生成词库技术还不成熟,会产生大量垃圾词汇)。
可以使用word自带的拼写和语法检查功能将输入法没有的词语纳入到统计当中。
语法检查的原理是用分词技术划分词语,找到每个词的词性,再运用少量的语法符号分析语法,比如 [NV]主谓结...
完美解决PHP中文乱码
php编程遇到的最大问题就是中文乱码,经过上网查资料与探索,总算找到比较好的解决方法。PHP中文乱码一般是字符集问题,编码主要有下面几个问题。
一. 首先是PHP网页的编码
1. php文件本身的编码与网页的编码应匹配
a. 如果欲使用gb2312编码,那么php要输出头:header(“Content-Type: text/html; charset=gb2312"),静态页面添加<meta http-equiv="Content-Type" content="text/html; charset=gb2312...
PHP生成的XML以FLASH获取为乱码解决方法
PHP生成的XML,以FLASH获取却为乱码经过探索最终解决。记录之,顺便也记录了通用解决方案。如果你也遇到XML<->FLASH乱码情况,可以速查:
1.确信XML绝对没有问题的情况:
首先,flash读取xml出现乱码涉及到System.useCodepage这个静态属性属性 官方描述:“A Boolean value that tells Flash Player which code page to use to interpret external text files.”默认为false。 倘若...
含有中文的网址中显示百分号%等乱码是什么?
在浏览一些网址中,我们可以看到这样一些特别的现象,就是网址中会出现一些百分号(%)和一字母数字组成的让我们看不明白的乱码,这究竟是怎么回事,它们又都是些什么东西呢?
其实,这里由%和数字字母组成的有规律性的“乱码”它们并不真是乱码,它们是一种特殊的编码,有电脑基础的人就知道,计算机它是不认得中文汉字的,要让计算机认识这些编码必须要转换成一些字母和数字等组成的代码。
事...
Utf-8、gb2312都支持的汉字截取
cut_str(字符串, 截取长度, 开始长度, 编码);
编码默认为 utf-8
开始长度默认为 0
函数如下:
<?php
/***************************************************************************
* cut_string.php
* ------------------------------
* Date : Jul 16, 2005
* Copyright : jams
* Mail : info#21nw.com
** 作用:截取中文字符.
*
*
**********************************************************...
wordpress2.0 rss import文件分析及oblog导入
帮一位网友将oblog备份xml文件转换成适用于wordpress2.0 import的(伪)rss文件。
将此格式写出,方便大家搬家到wordpress。
<item>
<title>标题</title>
<pubdate>日期</pubdate><!-- post的日期,可选 -->
<dc :date>备选日期</dc><!-- pubdate的备选项。如果两个都没有,将使用导入时日期时间 -->
<category>目录<...