1、不得不说的XML CDATA部件
在XML文档中的所有文本都会被解析器解析。
只有在CDATA部件之内的文本会被解析器忽略。
不合法的XML字符必须被替换为相应的实体。
如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。
< | < | 小于号 |
> | > | 大于号 |
& | & | 和 |
' | ' | 单引号 |
" | " | 双引号 |
实体必须以符号"&"开头,以符号";"结尾。
注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。
CDATA部件
在CDATA内部的所有内容都会被解析器忽略。
如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:
CDATA注意事项:
CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将很有可能出错哦。
同样要注意在字符串"]]>"之间没有空格或者换行符。
2、Dom4j格式化转义字符问题
person.xml
<?xml version="1.0" encoding="UTF-8"?>
<person>
<name>张三</name>
<addr><![CDATA[经三路<鑫苑>19F]]></addr>
</person>
<person>
<name>张三</name>
<addr><![CDATA[经三路<鑫苑>19F]]></addr>
</person>
上面的XML在被Dom4j格式化的时候,自动会被转义,转义后的内容如下:
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
这样,显然不是想要的结果,因为CDATA不需要再转义了。如何处理该问题,看下面的程序的处理:
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;
private String name;
private String addr;
public Person(String name, String addr) {
this.name = name;
this.addr = addr;
}
public static void main(String[] args) {
Person p = new Person("张三", "经三路<鑫苑>19F");
p.showXml();
}
public void showXml() {
String xml1, xml2, xml3;
Document doc = DocumentHelper.createDocument();
doc.setXMLEncoding("GBK");
Element root = doc.addElement("person");
if (addr != null)
addElement(root, "toname", "<![CDATA[" + this.addr + "]]>");
else
addElement(root, "toname", this.addr);
xml1 = doc.asXML(); //默认转义
xml2 = formatXml(doc, "GBK", true); //转义
xml3 = formatXml(doc, "GBK", false); //不转义
System.out.println(xml1);
System.out.println("-------------------------");
System.out.println(xml2);
System.out.println("-------------------------");
System.out.println(xml3);
}
/**
* 在指定的元素下添加一个新的子元素
*
* @param e 父元素
* @param name 子元素名
* @param value 子元素值
* @return 新加子元素
*/
public static Element addElement(Element e, String name, Object value) {
Element x = e.addElement(name);
if (value == null || "".equals(value.toString().trim())) {
x.setText("");
} else if (value instanceof Date) {
x.setText(DateToolkit.toISOFormat((Date) value));
} else {
x.setText(value.toString());
}
return x;
}
/**
* 格式化XML文档
*
* @param document xml文档
* @param charset 字符串的编码
* @param istrans 是否对属性和元素值进行转移
* @return 格式化后XML字符串
*/
public static String formatXml(Document document, String charset, boolean istrans) {
OutputFormat format = OutputFormat.createPrettyPrint();
format.setEncoding(charset);
StringWriter sw = new StringWriter();
XMLWriter xw = new XMLWriter(sw, format);
xw.setEscapeText(istrans);
try {
xw.write(document);
xw.flush();
xw.close();
} catch (IOException e) {
System.out.println("格式化XML文档发生异常,请检查!");
e.printStackTrace();
}
return sw.toString();
}
}
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;
Dom4j格式化转义字符问题
public class Person {private String name;
private String addr;
public Person(String name, String addr) {
this.name = name;
this.addr = addr;
}
public static void main(String[] args) {
Person p = new Person("张三", "经三路<鑫苑>19F");
p.showXml();
}
public void showXml() {
String xml1, xml2, xml3;
Document doc = DocumentHelper.createDocument();
doc.setXMLEncoding("GBK");
Element root = doc.addElement("person");
if (addr != null)
addElement(root, "toname", "<![CDATA[" + this.addr + "]]>");
else
addElement(root, "toname", this.addr);
xml1 = doc.asXML(); //默认转义
xml2 = formatXml(doc, "GBK", true); //转义
xml3 = formatXml(doc, "GBK", false); //不转义
System.out.println(xml1);
System.out.println("-------------------------");
System.out.println(xml2);
System.out.println("-------------------------");
System.out.println(xml3);
}
/**
* 在指定的元素下添加一个新的子元素
*
* @param e 父元素
* @param name 子元素名
* @param value 子元素值
* @return 新加子元素
*/
public static Element addElement(Element e, String name, Object value) {
Element x = e.addElement(name);
if (value == null || "".equals(value.toString().trim())) {
x.setText("");
} else if (value instanceof Date) {
x.setText(DateToolkit.toISOFormat((Date) value));
} else {
x.setText(value.toString());
}
return x;
}
/**
* 格式化XML文档
*
* @param document xml文档
* @param charset 字符串的编码
* @param istrans 是否对属性和元素值进行转移
* @return 格式化后XML字符串
*/
public static String formatXml(Document document, String charset, boolean istrans) {
OutputFormat format = OutputFormat.createPrettyPrint();
format.setEncoding(charset);
StringWriter sw = new StringWriter();
XMLWriter xw = new XMLWriter(sw, format);
xw.setEscapeText(istrans);
try {
xw.write(document);
xw.flush();
xw.close();
} catch (IOException e) {
System.out.println("格式化XML文档发生异常,请检查!");
e.printStackTrace();
}
return sw.toString();
}
}
输出结果:
<?xml version="1.0" encoding="GBK"?>
<person><toname><![CDATA[经三路<鑫苑>19F]]></toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person><toname><![CDATA[经三路<鑫苑>19F]]></toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
Process finished with exit code 0
可以看出,最后一种输出是真正想要的结果。
因此,要控制转义的问题,必须对XML重新格式化,格式化的时候,需要设置:
xw.setEscapeText(false);
相关推荐
9.2.4 字符串的模式匹配--一个字符串格式校验的例子 9.2.5 其他方法 9.3 字符串与字符数组 9.4 字符串与文本处理--JavaScript棋谱阅读器(一) 9.4.1 需求分析--什么是棋谱和棋谱阅读器 9.4.2...
17、使用Unicode转义字符 18、使用朝鲜语字符集 19、JSP中最简单的国际化程序 20、错误检测 21、抛出异常 22、<c:if> 的用法 23、和<c:remove> 的用法 24、<c:import> 的用法 25、jsp-include的用法 26、汉字处理 27...
17、使用Unicode转义字符 18、使用朝鲜语字符集 19、JSP中最简单的国际化程序 20、错误检测 21、抛出异常 22、<c:if> 的用法 23、和<c:remove> 的用法 24、<c:import> 的用法 25、jsp-include的用法 26、汉字处理 27...
4.2.3 格式化字符串以便存储:addslashes()和stripslashes() 4.3 用字符串函数连接和分割字符串 4.3.1 使用函数explode()、implode()和join() 4.3.2 使用strtok()函数 4.3.3 使用substr()函数 4.4 字符串的比较 ...
4.2.3 格式化字符串以便存储:addslashes()和stripslashes() 4.3 用字符串函数连接和分割字符串 4.3.1 使用函数explode()、implode()和join() 4.3.2 使用strtok()函数 4.3.3 使用substr()函数 4.4 字符串的比较...
4.2.3 格式化字符串以便存储:addslashes()和stripslashes() 4.3 用字符串函数连接和分割字符串 4.3.1 使用函数explode()、implode()和join() 4.3.2 使用strtok()函数 4.3.3 使用substr()函数 4.4 字符串的比较...
第7章 数据类型、多行字符串和转义符号、高阶函数、匿名函数 第8章 事件委托、时间操作、标签的可编辑属性、(本地存储) 和 JSON 格式 第9章 作业选讲、抽象化, 如何封装功能, 如何组织代码结构、变量命名的方法 第10...
Bugfix: del标签被定义在块级元素里,导致格式化HTML时自动换行。 Bugfix: 开启过滤模式,获取HTML时删除线被过滤。 Bugfix: [IE] 两张相邻图片添加超级链接,修改其中一个链接,另外一个链接也会被修改。 Bug...
7)注意特殊字符,使用时需要使用转义字符。 注意: 1.第一行一定要写 2.xml文件是由元素和元素的内容以及属性组成的,一个xml文件中只能有一个根元素,标签和标签的内容加在一起叫作一个元素。xml是大小写 敏感的,...
2、修正“正则元字符转义”子程序,对应个别替换符错误的BUG,感谢易友【@墨雨千寻】反馈。 3、改善“进程_枚举”处理效率,由易友【@御风软件】提供方案。 4、新增“窗口_是否被遮挡”,判断一个窗口是否被置顶窗口...
07 format字符串格式化 08 数学意义的函数与python中的函数 09 为何要有函数 10 函数返回值 11 可变长参数 第15章 01 上节课复习 02 全局变量与局部变量 03 风湿理论之函数即变量 04 函数递归 05 函数递归补充 第...
{14.4}dom4j}{207}{section.14.4} {14.5}XPath}{210}{section.14.5} {14.6}apache.commons}{211}{section.14.6} {15}sqlite3}{213}{chapter.15} {16}Web基础}{215}{chapter.16} {16.1}...