iOS下HTML/XML解析框架Ono的高級使用方法

最近在研究網頁HTML的解析,找了一些支持xpath語法的第三方框架,最后定位到Ono框架,但是官方的使用方法介紹太簡單了,導致用的過程中還是踏了不少坑,這里記錄一下,有一點介紹一點,直到目前手里的這個項目做完。

這里主要介紹HTML解析相關,XML不涉及。


1.Ono基礎用法

#import "Ono.h"

NSData *data = ...;
NSError *error;

ONOXMLDocument *document = [ONOXMLDocument HTMLDocumentWithData:data error:&error];
for (ONOXMLElement *element in document.rootElement.children) {
    NSLog(@"%@: %@", element.tag, element.attributes);
}

// Support for Namespaces
NSString *author = [[document.rootElement firstChildWithTag:@"creator"   inNamespace:@"dc"] stringValue];

// Automatic Conversion for Number & Date Values
NSDate *date = [[document.rootElement firstChildWithTag:@"created_at"] dateValue]; // ISO 8601 Timestamp
NSInteger numberOfWords = [[[document.rootElement firstChildWithTag:@"word_count"] numberValue] integerValue];
BOOL isPublished = [[[document.rootElement firstChildWithTag:@"is_published"] numberValue] boolValue];

// Convenient Accessors for Attributes
NSString *unit = [document.rootElement firstChildWithTag:@"Length"][@"unit"];
NSDictionary *authorAttributes = [[document.rootElement firstChildWithTag:@"author"] attributes];

// Support for XPath & CSS Queries
[document enumerateElementsWithXPath:@"http://Content" usingBlock:^(ONOXMLElement *element, NSUInteger idx, BOOL *stop) {
    NSLog(@"%@", element);
}];

是的這就是官方所有的使用方法,再放個鏈接

2.Ono中使用Xpath函數

如果你要用的xpath的函數,譬如 concat(), contains()等,則要用以下的方法:

- (nullable ONOXPathFunctionResult *)functionResultByEvaluatingXPath:(NSString *)XPath;

3.Ono莫名其妙的編碼問題

遇到一個奇怪的問題,記錄一下。
解析一個站的HTML網頁,網站編碼要求gbk,在請求完之后,直接用返回的 responseObject data類型,進行解析,并且一切順利,開始使用的代碼如下:

AFHTTPSessionManager *manager = [[AFHTTPSessionManager alloc] init];
NSStringEncoding encode =   CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
manager.requestSerializer.stringEncoding = encode;
    
[manager.requestSerializer setValue:@"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36" forHTTPHeaderField:@"User-Agent"];
[manager.requestSerializer setValue:@"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3" forHTTPHeaderField:@"Accept"];
    //            [manager.requestSerializer setValue:searchHomeUrlStr forHTTPHeaderField:@"Referer"];
    
manager.responseSerializer = [AFHTTPResponseSerializer serializer];
[manager GET:useDirUrl parameters:nil progress:nil success:^(NSURLSessionDataTask * _Nonnull task, id  _Nullable responseObject) {

    NSError *error;
    //這里直接用NSData類型的數據當入參解析
    ONOXMLDocument *doc = [ONOXMLDocument HTMLDocumentWithData:responseData error:&error];
    [doc enumerateElementsWithXPath:model.sourceDetail.parser._1._list usingBlock:^(ONOXMLElement * _Nonnull element, NSUInteger idx, BOOL * _Nonnull stop) {

    }];
}];

但是同樣是這個站的另外一個網頁,同樣是gbk編碼,用同樣的方法,就會報錯:

encoding error : input conversion failed due to input error, bytes 0xAC 0x4E 0x00 0x00

十分郁悶,最后試了各種辦法只能先用gbk解碼為string,然后用string當入參并且編碼格式為utf8,具體代碼如下:

//這里直接用先gbk解碼為字符串,然后編碼格式為utf8當入參解析
NSString *html = [[NSString alloc] initWithData:responseObject encoding:encode];
ONOXMLDocument *doc = [ONOXMLDocument HTMLDocumentWithString:html encoding:NSUTF8StringEncoding error:&error];
[doc enumerateElementsWithXPath:model.sourceDetail.parser._1._list usingBlock:^(ONOXMLElement * _Nonnull element, NSUInteger idx, BOOL * _Nonnull stop) {

}];

具體為什么還是沒弄明白。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,837評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,196評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,688評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,654評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,456評論 6 406
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,955評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,044評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,195評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,725評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,608評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,802評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,318評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,048評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,422評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,673評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,424評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,762評論 2 372

推薦閱讀更多精彩內容

  • 使用Ono讀取XML文件 在做App的過程中,讀取XML文件是最常見的功能之一。并且在iOS的發展過程中涌現出了多...
    CZ_iOS閱讀 3,354評論 1 14
  • 拜訪高家大院 才登榜眼孝由衷 贊嘆高門俊岳崧 市井根植儒道秀 家邦情切仕林功 官身七世民居戶 德樹千秋后樂宮...
    高歌歌閱讀 1,020評論 13 25
  • --寫給5月和那些歲月以及未來 A Woodland Night 01 今年的五一假期,我回到了故鄉。假期的前兩天...
    簡藝Janey閱讀 570評論 0 2
  • 多么不希望你長大 那樣我就能與你開心地隔著玻璃門 我追你跑,多可愛! 多么不希望你長大 那樣我就可以抱著你到處跑 ...
    喜歡廚房的人閱讀 361評論 0 2