Hyper-basic wikitionary reader.

2017-05-09 23:59:01 +02:00 · 2017-05-09 23:59:01 +02:00 · a1925f5383
commit a1925f5383
parent 5bf75cf03e
5 changed files with 95306 additions and 0 deletions
--- a/wikitionary/.gitignore
+++ b/wikitionary/.gitignore
@ -0,0 +1 @@
 data.xml
--- a/wikitionary/parse.py
+++ b/wikitionary/parse.py
@ -0,0 +1,10 @@
 import wiktionary_reader
 reader = wiktionary_reader.WiktionaryReader('data.xml')
 for i, entry in enumerate(reader):
    print(entry['title'])
    if (entry['title'] == 'avatar'):
        print(entry['wikitext'])
        break
 print(i)
--- a/wikitionary/requirements.txt
+++ b/wikitionary/requirements.txt
@ -0,0 +1 @@
 libarchive
--- a/wikitionary/sample
+++ b/wikitionary/sample
--- a/wikitionary/wiktionary_reader.py
+++ b/wikitionary/wiktionary_reader.py
@ -0,0 +1,62 @@
 from xml.dom.minidom import parseString
 def read_headers(fname):
    with open(fname) as f:
        top_header = None
        siteinfo = []
        offset = 0
        for i, l in enumerate(f):
            offset += len(l)
            if top_header is None:
                top_header = l
                continue
            siteinfo.append(l)
            if l.strip() == '</siteinfo>':
                break
        return offset, ({
            'siteinfo': siteinfo,
            'top_header': top_header,
        })
 def parse_block(xmlblock):
    xmlentry = parseString(xmlblock)
    title = (xmlentry
             .getElementsByTagName('title')[0]
             .childNodes[0].wholeText)
    wikitext = (xmlentry
                .getElementsByTagName('revision')[0]
                .getElementsByTagName('text')[0]
                .childNodes[0].wholeText)
    return {
        'title': title,
        'wikitext': wikitext,
    }
 class WiktionaryReaderIter:
    def __init__(self, reader):
        self.f = open(reader.fname)
        self.f.seek(reader.data_start)
    def __next__(self):
        block = []
        for l in self.f:
            block.append(l)
            if l.strip() == '</page>':
                break
        if len(block) == 0:
            raise StopIteration
        return parse_block(''.join(block))
 class WiktionaryReader:
    def __init__(self, fname):
        self.fname = fname
        self.data_start, self.headers = read_headers(fname)
    def __iter__(self):
        return WiktionaryReaderIter(self)