【www.guakaob.com--少儿兴趣】
抓取网页数据工具json提取示例
使用过最新版火车采集器V9的朋友应该都发现V9新增了json提取的功能,但是许多使用抓取网页数据工具的朋友在操作此功能的时候都会觉得有点弄不明白,这里特意为大家整理了json提取的教程示例,感兴趣的朋友可以仔细研究一下。
首先大家需要明白JSON 是有两种结构,简单的说json就是javascript中的对象和数组,所以这两种结构就是对象和数组两种,通过这两种结构可以表示各种复杂的结构。下面具体说明一下
1、对象:对象在js中表示为“{}”括起来的内容,数据结构为 {key:value,key:value,...}的键值对的结构,在面向对象的语言中,key为对象的属性,value为属性值,所以很容易理解,取值方法为对象key 获取属性值value,这个属性值的类型可以是数字、字符串、数组、对象几种。
2、数组:数组在js中是中括号“[]”括起来的内容,数据结构为
["java","javascript","vb",...],取值方式和所有语言中一样,使用索引获取,字段值的类型可以是 数字、字符串、数组、对象几种。
经过对象、数组2种结构就可以组合成复杂的数据结构了。如下:
{ "name": "中国", "province": [{ "name": "黑龙江", "cities": { "city": ["哈尔滨", "大庆"] } }, { "name": "广东", "cities": { "city": ["广州", "深圳", "珠海"] } }, { "name": "台湾", "cities": { "city":
["台北", "高雄"] } }, { "name": "新疆", "cities": { "city": ["乌鲁木齐"] } }] }
我们可以借助工具测试是否是JSON,格式化后如图:
下面举例说明JSON提取的2种方式:
1、JSON数据源:URL网址
如我们需要对JSON网址 做采集
分析得出:此URL的整个源代码是个完整的JSON。 所以JSON数据源选择 URL网址然后勾选循环匹配,就可以采集到整个JSON里的数据。
如图:
2、JSON数据源:JSON文本: 另外一种情况,网址里的源码不全是JSON,而只是一部分代码是JSON形式,此时我们需要提取出这段JSON文本,然后再格式化。例如网址【json源码】
所以我们需要通过多页的形式,来获取本页地址里这部分JSON代码,然后再设置JSON表达式。
如图
按照上面的步骤,两种JSON提取就完成了,广大用户朋友们是不是觉得简单又好用,所以抓取网页数据工具首选火车采集器V9,功能全面且易用,新手朋友们多多联系,一定能快速上手,如还有疑问或其他问题请随时联系官方客服为您解答哦!
下面这个是自己修改别人的小例子,主要是加一些注释和讲解,这个例子主要是使用android进行json解析。
1 单数据{'singer':{'id':01,'name':'tom','gender':'男'}}
2 多个数据{"singers":[
3 {'id':02,'name':'tom','gender':'男'},
4 {'id':03,'name':'jerry,'gender':'男'},
5 {'id':04,'name':'jim,'gender':'男'},
6 {'id':05,'name':'lily,'gender':'女'}]}
下面的类主要是解析单个数据parseJson()和多个数据的方法parseJsonMulti(): 查看源码
打印?
01 public class JsonActivity extends Activity {
02 /** Called when the activity is first created. */
03 private TextView tvJson;
04 private Button btnJson;
05 private Button btnJsonMulti;
06 @Override
07 public void onCreate(Bundle savedInstanceState) {
08 super.onCreate(savedInstanceState);
09 setContentView(R.layout.main);
10 tvJson = (TextView) this.findViewById(R.id.tvJson);
11 btnJson = (Button) this.findViewById(R.id.btnJson);
12 btnJsonMulti = (Button) this.findViewById(R.id.btnJsonMulti);
13 btnJson.setOnClickListener(new View.OnClickListener() {
14 @Override
15 public void onClick(View v) {
16 // url
17 // String strUrl = "18 String strUrl = ServerPageUtil.getStrUrl(UrlsOfServer.JSON_SINGER); 19 //获得返回的Json字符串
20 String strResult = connServerForResult(strUrl);
21 //解析Json字符串
22 parseJson(strResult);
23 }
24 });
25 btnJsonMulti.setOnClickListener(new View.OnClickListener() {
26 @Override
27 public void onClick(View v) {
28 String strUrl = ServerPageUtil.getStrUrl(UrlsOfServer.JSON_SINGERS); 29 String strResult = connServerForResult(strUrl);
30 //获得多个Singer
31 parseJsonMulti(strResult);
32 }
33 });
34 }
35 private String connServerForResult(String strUrl) {
36 // HttpGet对象
37 HttpGet httpRequest = new HttpGet(strUrl);
38 String strResult = "";
39 try {
40 // HttpClient对象
41 HttpClient httpClient = new DefaultHttpClient();
42 // 获得HttpResponse对象
43 HttpResponse httpResponse = httpClient.execute(httpRequest);
44 if (httpResponse.getStatusLine().getStatusCode() == HttpStatus.SC_OK) { 45 // 取得返回的数据
46 strResult = EntityUtils.toString(httpResponse.getEntity());
47 }【json源码】
48 } catch (ClientProtocolException e) {
49 tvJson.setText("protocol error");
50 e.printStackTrace();
51 } catch (IOException e) {
52 tvJson.setText("IO error");
53 e.printStackTrace();
54 }
55 return strResult;
56 }
57 // 普通Json数据解析
58 private void parseJson(String strResult) {
59 try {
60 JSONObject jsonObj = new JSONObject(strResult).getJSONObject("singer"); 61 int id = jsonObj.getInt("id");【json源码】
62 String name = jsonObj.getString("name");
63 String gender = jsonObj.getString("gender");
64 tvJson.setText("ID号"+id + ", 姓名:" + name + ",性别:" + gender); 65 } catch (JSONException e) {
66 System.out.println("Json parse error");
67 e.printStackTrace();
68 }
69 }
70 //解析多个数据的Json
71 private void parseJsonMulti(String strResult) {
72 try {
73 JSONArray jsonObjs = new JSONObject(strResult).getJSONArray("singers"); 74 String s = "";
75 for(int i = 0; i < jsonObjs.length() ; i++){
76 JSONObject jsonObj = ((JSONObject)jsonObjs.opt(i))
77 .getJSONObject("singer");
78 int id = jsonObj.getInt("id");
79 String name = jsonObj.getString("name");
80 String gender = jsonObj.getString("gender");
81 s += "ID号"+id + ", 姓名:" + name + ",性别:" + gender+ "\n" ; 82 }
83 tvJson.setText(s);
84 } catch (JSONException e) {
85 System.out.println("Jsons parse error !");
86 e.printStackTrace();
87 }
88 }
89 }
JSON入门
快速浏览JSON与XML表现形式
假如有一个employee对象,它有“姓、名、员工编号、头衔”等信息,先看看JSON是如何来描述它的:
再来看看XML是如何表示的,请看:
从上面描述看,JSON表示法不正是JavaScript中对象描述的一种方式么?正确,这正是JavaScript中的对象构造的原生代码。既然是原生代码,我们把它转换成JavaScript中的对象,这样我们操作对象就比操作字符串方便多了。
把JSON字符串转换成JavaScript对象:
JSON优缺点
优点:
乍看上去,使用JSON的数据分隔符的优点可能并不那么明显,但存在一个根本性的缘由:它们简化了数据访问。使用这些数据分隔符时, JavaScript引擎对数据结构(如字符串、数组、对象)的内部表示恰好与这些符号相同。
JSON的另一个优点是它的非冗长性。在XML中,打开和关闭标记是必需的,这样才能满足标记的依从性;而在JSON中,所有这些要求只需通过一个简单的括号即可满足。在包含有数以百计字段的数据交换中,传统的XML标记将会延长数据交换时间
此外,JSON受到了擅长不同编程语言的开发人员的青睐。这是因为无论在Haskell中或 Lisp中,还是在更为主流的C#和Java中,开发都可以方便地生成JSON。
不足:
和许多好东西都具有两面性一样,JSON的非冗长性也不例外,为此JSON丢失了XML具有的一些特性。命名空间允许不同上下文中的相同的信息段彼此混合,然而,显然在JSON中已经找不到了命名空间。JSON与XML的另一个差别是属性的差异,由于JSON采用冒号赋值,这将导致当XML转化为 JSON时,在标识符(XML CDATA)与实际属性值之间很难区分谁应该被当作文本考虑。
另外,JSON片段的创建和验证过程比一般的XML稍显复杂。从这一点来看,XML在开发工具方面领先于JSON。
JSON实践
预备知识
动态脚本函数eval ()
eval() 函数可计算某个字符串,并执行其中的的 JavaScript 代码。它接收一个参数s,如果s不是字符串,则直接返回s。否则执行s语句。如果s语句执行结果是一个值,则直接返回此值,否则返回undefined。
另外,该方法只接受原始字符串作为参数,如果 string 参数不是原始字符串,那么该方法将不作任何改变地返回。因此请不要为 eval() 函数传递 String 对象来作为参数:
最后,需要特别注意的是对象声明语法“{}”并不能返回一个值,需要用括号括起来才会返回值(括号里的脚本是表达式,有返回值,而不是无返回值的逻辑式,因为大括号里的脚本又可能是表达式,又可能是普通的逻辑表达,所以用小括号括起来后明确的说明是值表达式):
这样的对象声明语句,必须用括号括住,以将其转换为表达式,才能返回其值 。这也是使用JSON来进行Ajax开发的基本原理之一。
现来说说本节的重点,就是在应用eval时,,但很多时候我们可能在调用eval函数的外面使用生成的变量,eval不可能在全局空间内执行,这就给开发带来了不少问题,这该如何作?请看继续往下看吧。
我们先来证实一下eval产生的变量是局部性的,在调用eval函数外是不能访问到此变量的。
另外,eval生成的函数也是局部的,它只能在生成它的函数内使用,出函数域就不能调用的到。
现解释一下:
1、对于IE浏览器,默认已经提供了这样的函数:execScript,用于在全局空间执行代码。
2、对于Firefox浏览器,直接调用eval函数,则在调用者的空间执行;如果调用window.eval则在全局空间执行。
JavaScript中的JSON
我们知道,可以使用eval()方法调用JavaScript的编译器把JSON文本转变成对象。因为JSON是JavaScript的一个确切的子集,编译器可以正确地解析JSON文本,然后生成一个对象结构。
eval函数非常快速。它可以编译执行任何JavaScript程序,因此产生了安全性问题。当使用可信任与完善的源代码时才可以使用eval函数。这样可以更安全的使用JSON解析器。使用XMLHttpRequest的web应用,页面之间的通讯只允许同源,因此是可以信任的。但这却不是完善的。如果服务器没有严谨的JSON编码,或者没有严格的输入验证,那么可能传送包括危险脚本的无效JSON文本。eval函数将执行恶意的脚本。
如果关心安全的话,使用JSON解析器可以防止此类事件。JSON解析器只能辨识
JSON文本,拒绝所有脚本,因此它比较安全,JSON官方网站提供的一个开源的JSON解析器和字符串转换器()。
而JSON的字符串转换器(stringifier)则作相反的工作,它将JavaScript数据结构转换为JSON文本。JSON是不支持循环数据结构的,所以注意不能把循环的结构交给字符串转换器。
Java中的JSON
Java中的JSON解释器官方提供了好几种,我们这里使用的是 包,关于如何使用,请参见另一篇《JSON之org.json包测试》 ,它是基于官方包提供的测试改写而来的。
开始实战
本实例实现了客户端与服务器端通过JSON进行参数的传递与接收,而不是通过原来的XML方式进行通信。页面采用了Prototype的Ajax方式进行异步通信,并采用了官方 进行对象与JSON串的灵活互转。服务器端采用了官方提供 包进行JSON串与Java对象的互转。具体的细节请看代码注释。
客户端实现: