ddc
联网
平面设计 画册 VI欣赏 包装 CG-插画 搜索 个人网页 Alexa排名 CSS 建站资源 下载专区 JS特效 品牌服装 服装院校 专题欣赏 SEO 图标欣赏 专题
网站建设 域名注册 网站建设 虚拟主机 广州网站设计 域名注册 广州网站建设 上海网站建设 虚拟主机 广州网页设计 虚拟主机 域名注册 acg王国 ACG玩家 品牌设计 上海网站建设
求创科技
网站建设
中国互联
素材出售
中国设计秀
中资源
当前位置:网站综合首页 >> 建站资源 >> 站长手册 >> 网站优化注意:网页正文提取算法细节问题

网站优化注意:网页正文提取算法细节问题 (2)

来源:中国设计秀    作者:qq    点击:395     加入收藏    发表评论
0
顶一下
  问题:有若干段儿html文本块,去掉大多数为超链接的文本块思路:先算出每个文本块中所有汉字的数量,再算出每个文本块中被<a>标签包围的汉字数量,如果这两个值的比例大于某个阈值,就删除这个文本块以上几个文本解决后,网页的正文提取就能做的差不多了,最起码有百分之七八十的正确率吧。大家有兴趣和我一起解决哦,呵呵呵。

[1] [2]
2008-08-06 13:14:00    出处:中国设计秀cnwebshow.com
Google
网站地图 | 关于我们 | 联系我们 | 网站建设 | 广告服务 | 版权声明 | 免责声明 | 网站公告 | 友情链接 | 留言 | 旧版入口