怎么用lxml处理xml时的字符编码问题-创新互联-古蔺大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

怎么用lxml处理xml时的字符编码问题-创新互联

本篇内容主要讲解“怎么用lxml处理xml时的字符编码问题”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么用lxml处理xml时的字符编码问题”吧!

成都创新互联专注于企业成都全网营销推广、网站重做改版、称多网站定制设计、自适应品牌网站建设、H5高端网站建设、商城系统网站开发、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为称多等各大城市提供网站开发制作服务。

为了简化问题，就把xml的内容简化为如下的形式:

它的encoding为gbk，其中的节点有一个为中文字符
使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

此时对应的Python脚本为：

tst = u''
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

不过简化之前，报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u''
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8"
于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

到此，相信大家对“怎么用lxml处理xml时的字符编码问题”有了更深的了解，不妨来实际操作一番吧！这里是创新互联成都网站设计公司网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

分享标题：怎么用lxml处理xml时的字符编码问题-创新互联
网站URL：http://scgulin.cn/article/ccdcho.html

新闻中心

其他资讯