首页 > php开发

PHP/Shell大文件数据统计并且排序

诸多大互联网公司的面试都会有这么个问题,有个4G的文件,如何用只有1G内存的机器去计算文件中出现次数做多的数字(假设1行是1个数组,例如QQ号码),如果这个文件只有4B或者几十兆,那么最简单的办法就是直接读取这个文件后进行分析统计,但是这个是4G的文件,当然也可能是几十G甚至几百G的文件,这就不是直接读取能解决了的.

阅读全文

php文章相似度计算similar_text()函数升级

有时我们希望调用相关文章时肯定调用相似度高的我先是使用了php的similar_text()函数,但是测试两个相同的标题得出结果只有40%左右啊,下面看实例.

php默认有个函数similar_text()用于计算字符串之间的相似度,该函数也可以计算两个字符串的相似度(以百分比计),不过这个函数感觉对中文计算很不准确比如:

阅读全文