Python xml解析庫xml_models2

今天給大家介紹一個用于處理xml的開源庫xml_models2,它主要能用來對xml文件進行解析。這個庫建立在lxml之上,相比python自帶的xmlElementTreelxml比較底層的xml處理方式(lxml其實還行),它充分利用了python元類的自省(元編程)特性,允許用戶根據(jù)相應(yīng)xml的結(jié)構(gòu)定義自己的model,在model的每個字段中指定對應(yīng)的xpath,利用lxml的xml處理功能將xml中對應(yīng)路徑的節(jié)點和內(nèi)容提取出來。與其說這是一個xml處理,更不如說它是一個輕量級的處理xml數(shù)據(jù)的ORM,只不過并沒有與數(shù)據(jù)庫打交道而已。

如引言里面描述的那樣,xml_models2能夠通過自定義model來序列化xml,獲取自己感興趣的節(jié)點的內(nèi)容。假如我們有如下一個xml:

<Person id="112">
  <firstName>Chris</firstName>
  <lastName>Tarttelin</lastName>
  <occupation>Code Geek</occupation>
  <website>http://www.pyruby.com</website>
  <contact-info>
    <contact type="telephone">
      <info>(555) 555-5555</info>
      <description>Cell phone, but no calls during work hours</description>
    </contact>
    <contact type="email">
      <info>me@here.net</info>
      <description>Where possible, contact me by email</description>
    </contact>
    <contact type="telephone">
      <info>1-800-555-5555</info>
      <description>Toll free work number for during office hours.</description>
    </contact>
  </contact-info>
</Person>

為了獲取相應(yīng)的數(shù)據(jù),我們就可以定義如下的model:

class Person(Model):
    id = IntField(xpath="/Person/@id")
    firstName = CharField(xpath="/Person/firstName")
    lastName = CharField(xpath="/Person/lastName")
    contacts = CollectionField(ContactInfo, order_by="contact_type", xpath="Person/contact-info/contact")

class ContactInfo(Model):
    contact_type = CharField(xpath="/contact/@type")
    info = CharField(xpath="/contact/info")
    description = CharField(xpath="/contact/description", default="No description supplied")

Person和ContactInfo model繼承自積累xml_models.Model,IntField,CharField,CollectionField等字段類型都是xml_models提供的字段類型,相信用過像比如SQLAlchemy或者Django ORM的童鞋應(yīng)該不會陌生,只不過這里在使用這些字段的時候指定的值是一些xpath的值用來指定xml文件中相應(yīng)節(jié)點的路徑。定義好model之后,只要簡單調(diào)用就能取到我們想要的數(shù)據(jù):

>>> person = Person(xml_str)
>>> person.contacts[0].info
me@here.com

在解析xml的時候,嵌套重復(fù)有規(guī)則的xml數(shù)據(jù)可能會經(jīng)常會用到CollectionField,除了像上面定義model的方式指定集合,也能夠直接在model里面指定collection_node:

class SomeModel(Model):
  fieldA = CharField(xpath="/some/node")

  collection_node = 'collection'

在這個庫里面還封裝了requests的一些基本功能,這樣允許我們直接通過自定義的model里面發(fā)起http請求從提供的api獲取數(shù)據(jù):

data = SomeModel.objects.filter_custom(url_address_xxx).get()

獲取直接能夠通過rest api查詢查詢一些數(shù)據(jù):

class Person(xml_models.Model:
    ...
    finders = { (firstName, lastName): "http://person/firstName/%s/lastName/%s",
                (id,): "http:xxxx//person/%s"}
>>> people = Person.objects.filter(firstName='Chris', lastName='Tarttelin')
>>> people.count()
1
>>> person = Person.objects.get(id=123)
>>> person.firstName
Chris

除了如上所示提到的這些,xml_models2還有一些比較好玩的功能:
to_xml(): 將xml序列化之后,我們可能會做一些更改,更改之后調(diào)用這個api能夠生成包含更改內(nèi)容的xml;甚至能夠先定義model,實例化自己的model實力然后生成xml。
validate_on_load(): 在model中這個方法一個很好的“鉤子”,方便我們在序列化的時候進行一些自定義的驗證。
blablablanla...

這個庫并沒有出來多久,是在另外一個開源庫xml_models上面fork而來,對大部分的代碼進行了重構(gòu),特別是元類Model/ModelBase那塊。另外項目的文檔,代碼注釋,單元測試都很完整,非常鼓勵有興趣的童鞋可以關(guān)注一下。

差不多就給大家介紹到這里,更多的內(nèi)容大家可以查看庫的文檔github主頁。感興趣的同學(xué)可以試用一下,有什么問題可以去主頁上提issue或者pr。

這篇文章大部分部分的內(nèi)容都是從文檔搬來的,稍稍加了些自己的一些理解加以豐富,方便大家開始使用。

https://github.com/alephnullplex/xml_models2

http://xml-models2.readthedocs.org/en/latest/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內(nèi)容