博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
编码问题
阅读量:6435 次
发布时间:2019-06-23

本文共 328 字,大约阅读时间需要 1 分钟。

今天去听同事的网络爬虫的技术讲座。鄙人虽然不才也写过爬虫,也曾被一个点困扰过,就是处理汉字编码,于是就提了出来,这哥们回答的也挺好。

首先是是使用python的库charet进行检测,先转成unicode,最后转成utf8格式,系统内部处理一律以utf8进行处理。

进行检测我可以理解,内部一律以utf8我也可以理解,但是我很奇怪为什么转两次?为什么不直接转?

同事回答:是因为unicode包含(或者对应?)utf8和gbk等多种编码,所以先转成unicode再转utf8的成功性会大很多,直接转有可能转不过去

似乎很有道理,不过我想我需要查清楚

转载于:https://www.cnblogs.com/code-style/p/3628873.html

你可能感兴趣的文章
Android 轻松实现语音识别
查看>>
kylin(麒麟)分页遇到的问题
查看>>
C++对析构函数的误解
查看>>
RequestMapping注解 ant使用说明
查看>>
tcp/ip socket http 区别
查看>>
fstab损坏修复过程总结
查看>>
linux系统安装(CentOS 6.5)
查看>>
对象不支持“startsWith”属性或方法
查看>>
java提高篇(六)-----关键字static
查看>>
Activiti(四)创建一个最简单的activiti项目
查看>>
HttpWatch v10.x发布,支持在Firefox 35-35版中使用HTTP/2丨附下载
查看>>
Easy Keygen练习
查看>>
微服务随笔
查看>>
限流 RateLimiter
查看>>
idea控制台进行彩色打印
查看>>
php基础系列之字符串——变量解析
查看>>
Mycat【数据库方式】实现全局序列号
查看>>
网信办征求意见:APP这些行为属违法违规收集个人信息
查看>>
Java定时任务Timer调度器【二】 多线程源码分析(图文版)
查看>>
神经科学新突破!新算法助力超算进行人类大脑模拟
查看>>