lang-model/naive-nlu/tree_nlu/knowledge_base.py

import copy
import logging

from .session.org_mode import global_session as session

from .atoms import Atom
from . import parsing
from . import knowledge_evaluation
from .modifiable_property import is_modifiable_property
import random

def diff_knowledge(before, after):
    import jsondiff
    return jsondiff.diff(before, after)


def randomized_weighted_list(elements):
    # Randomized
    randomized = list(elements)
    random.shuffle(randomized)

    # And return only once
    already_returned = set()
    for e in randomized:
        if e in already_returned:
            continue

        yield e
        already_returned.add(e)


class KnowledgeBase(object):
    def __init__(self, knowledge={}, examples=[], trained=[]):
        self.knowledge = copy.copy(knowledge)
        self.originals = []
        self.examples = copy.copy(examples)
        self.trained = copy.copy(trained)
        self.structural_elements = set()
        self.token_chains = {}
        self.tokens = set()

    def add_token_pair(self, precedent, consequent):
        self.add_token(precedent)
        self.add_token(consequent)

        if precedent not in self.token_chains:
            self.token_chains[precedent] = []
        self.token_chains[precedent].append(consequent)

    def add_token(self, token):
        self.tokens.add(token)
        if (not isinstance(token, Atom)) and (token not in self.structural_elements):
            session().annotate('Found new structural element “{}”'.format(token))
            self.structural_elements.add(token)

    def expected_token_after_precedent(self, precedent=None):
        if precedent not in self.token_chains:  # If there's no known precedent, just return all tokens
            return randomized_weighted_list(self.tokens)

        return randomized_weighted_list(self.token_chains[precedent])

    def train_tokenizer(self, example):
        with session().log('Training tokenizer'):
            session().annotate("Example: {}".format(example))
            tokens = parsing.integrate_tokenization(self, example)

            # Integrate knowledge of concept
            for token in tokens:
                if not token in self.knowledge:
                    self.knowledge[token] = {}


    def train(self, examples):
        knowledge_before = copy.deepcopy(self.knowledge)
        with session().log('Train'):
            # Parse everything
            for example in examples:
                # If there's parsed data, leverage it ASAP
                if 'parsed' in example and isinstance(example['parsed'], tuple):
                    with session().log('parsed information integration'):
                        result = knowledge_evaluation.integrate_information(self.knowledge, {
                            "parsed": example['parsed'],
                        })
                        self.act_upon(result)

                with session().log("language integration"):
                    tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
                    session().annotate("Tokens: {}".format(tokens))
                    session().annotate("Inferred tree: {}".format(inferred_tree))

                with session().log("full information integration"):
                    result = knowledge_evaluation.integrate_information(self.knowledge, {
                        "elements": tokens,
                        "decomposition": decomposition,
                        "parsed": inferred_tree,
                    })

                    session().annotate("Result: {}".format(self.get_value(result)))
                    self.act_upon(result)
                    session().annotate("Set: {}".format(self.get_value(result)))
                    self.examples.append((decomposition, inferred_tree))
                    self.originals.append(example['text'])

                # Reduce values
                with session().log("reprocessing"):
                    self.trained = parsing.reprocess_language_knowledge(self, self.examples)

            knowledge_after = copy.deepcopy(self.knowledge)
            knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
                                                       knowledge_after)

            return knowledge_diff_getter

    def tokenize(self, row, return_one=True):
        row = row.lower()
        with session().log("Tokenize: {}".format(row)):
            options = list(parsing.to_tokens(self, row))
            session().log("Results:\n{}".format('\n'.join(map(str, options))))

            if return_one:
                chosen = parsing.pick_one_tokenization(options, self)
                session().log("Chosen: “{}”".format(chosen))
                self.train_tokenizer({'text': row, 'tokens': chosen})
                return chosen
            return options

    def process(self, row):
        knowledge_before = copy.deepcopy(self.knowledge)
        with session().log("Process: {}".format(row)):
            tokens = self.tokenize(row)

            fit = parsing.get_fit(self, tokens)
            if fit is None:
                return None

            tokens, inferred_tree = fit
            result = knowledge_evaluation.integrate_information(self.knowledge,
                                                                {
                                                                    "elements": tokens,
                                                                    "parsed": inferred_tree,
                                                                })
            self.act_upon(result)
            session().annotate("Result: {}".format(result))

            knowledge_after = copy.deepcopy(self.knowledge)
            knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
                                                           knowledge_after)

            return result, inferred_tree, knowledge_diff_getter

    def get_value(self, result):
        if is_modifiable_property(result):
            return result.getter()
        else:
            return result

    def act_upon(self, result):
        if is_modifiable_property(result):
            result.setter()
        else:
            logging.warning("Cannot act upon: {}".format(result))
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`import copy`
Blindly replace all prints by logging.debug. Also, add a "depth" meter to measure the depth level in the tree matching. 2017-05-17 21:54:14 +00:00			`import logging`
Package as `tree_nlu`. 2017-05-23 17:04:10 +00:00
Add session files base concept. 2017-09-29 23:32:04 +00:00			`from .session.org_mode import global_session as session`

Save structural elements. 2018-04-15 15:07:29 +00:00			`from .atoms import Atom`
Package as `tree_nlu`. 2017-05-23 17:04:10 +00:00			`from . import parsing`
			`from . import knowledge_evaluation`
			`from .modifiable_property import is_modifiable_property`
Move to a chaining model for tokenization. This model also explores more tokenization possibilities. With this, the tokenization tests are passed. 2018-04-15 18:06:21 +00:00			`import random`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00
			`def diff_knowledge(before, after):`
			`import jsondiff`
			`return jsondiff.diff(before, after)`


Move to a chaining model for tokenization. This model also explores more tokenization possibilities. With this, the tokenization tests are passed. 2018-04-15 18:06:21 +00:00			`def randomized_weighted_list(elements):`
			`# Randomized`
			`randomized = list(elements)`
			`random.shuffle(randomized)`

			`# And return only once`
			`already_returned = set()`
			`for e in randomized:`
			`if e in already_returned:`
			`continue`

			`yield e`
			`already_returned.add(e)`



Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`class KnowledgeBase(object):`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`def __init__(self, knowledge={}, examples=[], trained=[]):`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`self.knowledge = copy.copy(knowledge)`
Save original examples (needed on show_samples). 2017-09-29 22:55:42 +00:00			`self.originals = []`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`self.examples = copy.copy(examples)`
			`self.trained = copy.copy(trained)`
Save structural elements. 2018-04-15 15:07:29 +00:00			`self.structural_elements = set()`
Move to a chaining model for tokenization. This model also explores more tokenization possibilities. With this, the tokenization tests are passed. 2018-04-15 18:06:21 +00:00			`self.token_chains = {}`
			`self.tokens = set()`

			`def add_token_pair(self, precedent, consequent):`
			`self.add_token(precedent)`
			`self.add_token(consequent)`

			`if precedent not in self.token_chains:`
			`self.token_chains[precedent] = []`
			`self.token_chains[precedent].append(consequent)`

			`def add_token(self, token):`
			`self.tokens.add(token)`
			`if (not isinstance(token, Atom)) and (token not in self.structural_elements):`
			`session().annotate('Found new structural element “{}”'.format(token))`
			`self.structural_elements.add(token)`

			`def expected_token_after_precedent(self, precedent=None):`
			`if precedent not in self.token_chains: # If there's no known precedent, just return all tokens`
			`return randomized_weighted_list(self.tokens)`

			`return randomized_weighted_list(self.token_chains[precedent])`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00
			`def train_tokenizer(self, example):`
Move to a chaining model for tokenization. This model also explores more tokenization possibilities. With this, the tokenization tests are passed. 2018-04-15 18:06:21 +00:00			`with session().log('Training tokenizer'):`
			`session().annotate("Example: {}".format(example))`
			`tokens = parsing.integrate_tokenization(self, example)`

			`# Integrate knowledge of concept`
			`for token in tokens:`
			`if not token in self.knowledge:`
			`self.knowledge[token] = {}`

Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00
			`def train(self, examples):`
			`knowledge_before = copy.deepcopy(self.knowledge)`
Add more logging context. 2017-10-01 18:46:48 +00:00			`with session().log('Train'):`
			`# Parse everything`
			`for example in examples:`
			`# If there's parsed data, leverage it ASAP`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`if 'parsed' in example and isinstance(example['parsed'], tuple):`
Add more logging context. 2017-10-01 18:46:48 +00:00			`with session().log('parsed information integration'):`
			`result = knowledge_evaluation.integrate_information(self.knowledge, {`
			`"parsed": example['parsed'],`
			`})`
			`self.act_upon(result)`

			`with session().log("language integration"):`
			`tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`session().annotate("Tokens: {}".format(tokens))`
			`session().annotate("Inferred tree: {}".format(inferred_tree))`
Add more logging context. 2017-10-01 18:46:48 +00:00
			`with session().log("full information integration"):`
			`result = knowledge_evaluation.integrate_information(self.knowledge, {`
			`"elements": tokens,`
			`"decomposition": decomposition,`
			`"parsed": inferred_tree,`
			`})`

			`session().annotate("Result: {}".format(self.get_value(result)))`
			`self.act_upon(result)`
			`session().annotate("Set: {}".format(self.get_value(result)))`
			`self.examples.append((decomposition, inferred_tree))`
			`self.originals.append(example['text'])`

			`# Reduce values`
			`with session().log("reprocessing"):`
			`self.trained = parsing.reprocess_language_knowledge(self, self.examples)`

			`knowledge_after = copy.deepcopy(self.knowledge)`
			`knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`knowledge_after)`

Add more logging context. 2017-10-01 18:46:48 +00:00			`return knowledge_diff_getter`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`def tokenize(self, row, return_one=True):`
Remove need from `as_property` info. Probably this can be improved upon if the data is later analyzed with it's similars. 2017-05-23 21:16:19 +00:00			`row = row.lower()`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`with session().log("Tokenize: {}".format(row)):`
Increase logging, add failing tokenization tests. 2018-04-15 15:08:01 +00:00			`options = list(parsing.to_tokens(self, row))`
			`session().log("Results:\n{}".format('\n'.join(map(str, options))))`

Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`if return_one:`
Dig deeper in cut-by-token approach. 2018-04-15 15:47:04 +00:00			`chosen = parsing.pick_one_tokenization(options, self)`
Increase logging, add failing tokenization tests. 2018-04-15 15:08:01 +00:00			`session().log("Chosen: “{}”".format(chosen))`
Learn from tokenizations inferred. 2018-04-15 18:45:24 +00:00			`self.train_tokenizer({'text': row, 'tokens': chosen})`
Increase logging, add failing tokenization tests. 2018-04-15 15:08:01 +00:00			`return chosen`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`return options`

			`def process(self, row):`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00			`knowledge_before = copy.deepcopy(self.knowledge)`
Add more logging context. 2017-10-01 18:46:48 +00:00			`with session().log("Process: {}".format(row)):`
Add (non-passing) tokenization. 2018-04-01 18:24:09 +00:00			`tokens = self.tokenize(row)`

Add more logging context. 2017-10-01 18:46:48 +00:00			`fit = parsing.get_fit(self, tokens)`
			`if fit is None:`
			`return None`

			`tokens, inferred_tree = fit`
			`result = knowledge_evaluation.integrate_information(self.knowledge,`
			`{`
			`"elements": tokens,`
			`"parsed": inferred_tree,`
			`})`
			`self.act_upon(result)`
			`session().annotate("Result: {}".format(result))`

			`knowledge_after = copy.deepcopy(self.knowledge)`
			`knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,`
			`knowledge_after)`
Integrate elements. * Move interface to KnowledgeBase object. * Connect process and evaluate calls. 2017-05-11 17:54:02 +00:00
Add more logging context. 2017-10-01 18:46:48 +00:00			`return result, inferred_tree, knowledge_diff_getter`
Setup an structure to allow setting or getting elements. 2017-05-11 18:24:29 +00:00
Add learning phase to shallow (1 level) nested structures. 2017-05-15 14:51:39 +00:00			`def get_value(self, result):`
Convert the linear exploration into a more tree-like. 2017-05-22 18:20:53 +00:00			`if is_modifiable_property(result):`
Add learning phase to shallow (1 level) nested structures. 2017-05-15 14:51:39 +00:00			`return result.getter()`
			`else:`
			`return result`

Setup an structure to allow setting or getting elements. 2017-05-11 18:24:29 +00:00			`def act_upon(self, result):`
Convert the linear exploration into a more tree-like. 2017-05-22 18:20:53 +00:00			`if is_modifiable_property(result):`
Setup an structure to allow setting or getting elements. 2017-05-11 18:24:29 +00:00			`result.setter()`
			`else:`
Set base logging level as info, remove unused debug strings. 2017-05-22 20:06:49 +00:00			`logging.warning("Cannot act upon: {}".format(result))`