编码问题-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

编码问题

阅读量：6435 次

发布时间：2019-06-23

本文共 328 字，大约阅读时间需要 1 分钟。

今天去听同事的网络爬虫的技术讲座。鄙人虽然不才也写过爬虫，也曾被一个点困扰过，就是处理汉字编码，于是就提了出来，这哥们回答的也挺好。

首先是是使用python的库charet进行检测，先转成unicode,最后转成utf8格式，系统内部处理一律以utf8进行处理。

进行检测我可以理解，内部一律以utf8我也可以理解，但是我很奇怪为什么转两次？为什么不直接转？

同事回答：是因为unicode包含（或者对应？）utf8和gbk等多种编码，所以先转成unicode再转utf8的成功性会大很多，直接转有可能转不过去

似乎很有道理，不过我想我需要查清楚

转载于:https://www.cnblogs.com/code-style/p/3628873.html

你可能感兴趣的文章

Android 轻松实现语音识别

kylin(麒麟)分页遇到的问题

C++对析构函数的误解

RequestMapping注解 ant使用说明

tcp/ip socket http 区别

fstab损坏修复过程总结

linux系统安装（CentOS 6.5）

对象不支持“startsWith”属性或方法

java提高篇(六)-----关键字static

Activiti(四)创建一个最简单的activiti项目

HttpWatch v10.x发布，支持在Firefox 35-35版中使用HTTP/2丨附下载

Easy Keygen练习

微服务随笔

限流 RateLimiter

idea控制台进行彩色打印

php基础系列之字符串——变量解析

Mycat【数据库方式】实现全局序列号

网信办征求意见：APP这些行为属违法违规收集个人信息

Java定时任务Timer调度器【二】多线程源码分析（图文版）

神经科学新突破！新算法助力超算进行人类大脑模拟

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-16 11:01:44 当前IP: 3.144.104.175 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我