From 23ae882161dc41ac3de3dbc48e50a1f0e228f4b9 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 21:57:51 +0200
Subject: [PATCH 01/69] Separated basic test.

---
 naive-nlu/tree_nlu/test.py        | 161 +++---------------------------
 naive-nlu/tree_nlu/tests/basic.py | 150 ++++++++++++++++++++++++++++
 2 files changed, 163 insertions(+), 148 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/tests/basic.py

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index fbd24d8..d97c2f2 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -1,157 +1,22 @@
-import json
 import logging
+from .tests import basic
 
-logging.getLogger().setLevel(logging.INFO)
-
-from .knowledge_base import KnowledgeBase
-from .modifiable_property import is_modifiable_property
-
-examples = [
-    {
-        "text": "icecream is cold",
-        "parsed": ("exists-property-with-value", 'icecream', 'cold'),
-    },
-    {
-        "text": "is icecream cold?",
-        "parsed": ("question", ("exists-property-with-value", 'icecream', 'cold'))
-    },
-    {
-        "text": "lava is dangerous",
-        "parsed": ("exists-property-with-value", 'lava', 'dangerous')
-    },
-    {
-        "text": "is lava dangerous?",
-        "parsed": ("question", ("exists-property-with-value", 'lava', 'dangerous')),
-    },
-    {
-        "text": "earth is a planet",
-        "parsed": ("pertenence-to-group", 'earth', 'planet'),
-    },
-    {
-        "text": "io is a moon",
-        "parsed": ("pertenence-to-group", 'io', 'moon'),
-    },
-    {
-        "text": "is earth a moon?",
-        "parsed": ("question", ("pertenence-to-group", 'earth', 'moon')),
-    },
-    {
-        "text": "Green is a color",
-        "parsed": ("pertenence-to-group", 'green', 'color'),
-    },
-    {
-        "text": "a plane can fly",
-        "parsed": ("has-capacity", 'plane', 'fly')
-    },
-    {
-        "text": "a wale can swim",
-        "parsed": ("has-capacity", 'wale', 'swim')
-    },
-    {
-        "text": "if earth is a planet, it is big",
-        "parsed": ("implies",
-                   ("pertenence-to-group", 'earth', 'planet'),
-                   ("exists-property-with-value", 'earth', 'big')),
-    },
-]
-
-base_knowledge = {
-    'icecream': {
-        "groups": set(['noun', 'object', 'comestible', 'sweet']),
-    },
-    'lava': {
-        "groups": set(['noun', 'object']),
-    },
-    'earth': {
-        "groups": set(['noun', 'object', 'planet']),
-    },
-    'io': {
-        "groups": set(['noun', 'object']),
-    },
-    'green': {
-        "groups": set(['noun', 'color', 'concept']),
-    },
-    'plane': {
-        "groups": set(['noun', 'object', 'vehicle', 'fast']),
-    },
-    'car': {
-        "groups": set(['noun', 'object', 'vehicle', 'slow-ish']),
-    },
-    'wale': {
-        "groups": set(['noun', 'object', 'living-being']),
-    },
-    'cold': {
-        "groups": set(['property', 'temperature']),
-        "as_property": "temperature",
-    },
-    'dangerous': {
-        "groups": set(['property']),
-        "as_property": "safety",
-    },
-    'planet': {
-        "groups": set(['noun', 'group']),
-    },
-    'moon': {
-        "groups": set(['noun', 'group']),
-    },
-    'color': {
-        "groups": set(['property', 'group']),
-    },
-    'fly': {
-        "groups": set(['verb']),
-    },
-    'swim': {
-        "groups": set(['verb']),
-    },
-}
-
-
-def test_assumption(expectedResponse, knowledge, query):
-    logging.info("Query: {}".format(query['text']))
-    logging.info("Expected: {}".format(expectedResponse))
-
-    result, abstract_tree, diff = knowledge.process(query['text'])
-    end_result = result.getter() if is_modifiable_property(result) else result
-
-    logging.info("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
-    assert(end_result == expectedResponse)
+logging.getLogger().setLevel(logging.WARNING)
 
+tests = (
+    ("basic", basic),
+)
 
 def main():
-    knowledge = KnowledgeBase(
-        knowledge=base_knowledge,
-    )
+    for test_name, test_module in tests:
+        try:
+            test_module.main()
+            print(" ✓ {}".format(test_name))
+        except AssertionError:
+            print(" ✗ {}".format(test_name))
+        except Exception as e:
+            print(" ! {} {}".format(test_name, e))
 
-    differences = knowledge.train(examples)
-
-    logging.info("----")
-    logging.info(differences())
-    logging.info("----")
-
-    test_assumption(True, knowledge, {'text': 'earth is a planet'})
-    test_assumption(True, knowledge, {'text': 'is lava dangerous?'})
-    for test in [{'text': 'a bus can run'}, {'text': 'io is a moon'}]:
-        row = test['text']
-        result, inferred_tree, differences = knowledge.process(row)
-
-        logging.info("result:", result)
-        logging.info(differences())
-        logging.info("---")
-    logging.info('-----')
-    logging.info(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
-    logging.info('-----')
-
-    queryTrue = {
-        "text": "is io a moon?",
-        "parsed": ("question", ("pertenence-to-group", "io", "moon"))
-    }
-    queryFalse = {
-        "text": "is io a planet?",
-        "parsed": ("question", ("pertenence-to-group", "io", "planet"))
-    }
-
-    test_assumption(False, knowledge, queryFalse)
-    test_assumption(True, knowledge, queryTrue)
 
 if __name__ == '__main__':
     main()
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
new file mode 100644
index 0000000..eb03ad7
--- /dev/null
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -0,0 +1,150 @@
+import logging
+import json
+
+from ..knowledge_base import KnowledgeBase
+from ..modifiable_property import is_modifiable_property
+
+examples = [
+    {
+        "text": "icecream is cold",
+        "parsed": ("exists-property-with-value", 'icecream', 'cold'),
+    },
+    {
+        "text": "is icecream cold?",
+        "parsed": ("question", ("exists-property-with-value", 'icecream', 'cold'))
+    },
+    {
+        "text": "lava is dangerous",
+        "parsed": ("exists-property-with-value", 'lava', 'dangerous')
+    },
+    {
+        "text": "is lava dangerous?",
+        "parsed": ("question", ("exists-property-with-value", 'lava', 'dangerous')),
+    },
+    {
+        "text": "earth is a planet",
+        "parsed": ("pertenence-to-group", 'earth', 'planet'),
+    },
+    {
+        "text": "io is a moon",
+        "parsed": ("pertenence-to-group", 'io', 'moon'),
+    },
+    {
+        "text": "is earth a moon?",
+        "parsed": ("question", ("pertenence-to-group", 'earth', 'moon')),
+    },
+    {
+        "text": "Green is a color",
+        "parsed": ("pertenence-to-group", 'green', 'color'),
+    },
+    {
+        "text": "a plane can fly",
+        "parsed": ("has-capacity", 'plane', 'fly')
+    },
+    {
+        "text": "a wale can swim",
+        "parsed": ("has-capacity", 'wale', 'swim')
+    },
+    # {
+    #     "text": "if earth is a planet, it is big",
+    #     "parsed": ("implies",
+    #                ("pertenence-to-group", 'earth', 'planet'),
+    #                ("exists-property-with-value", 'earth', 'big')),
+    # },
+]
+
+base_knowledge = {
+    'icecream': {
+        "groups": set(['noun', 'object', 'comestible', 'sweet']),
+    },
+    'lava': {
+        "groups": set(['noun', 'object']),
+    },
+    'earth': {
+        "groups": set(['noun', 'object', 'planet']),
+    },
+    'io': {
+        "groups": set(['noun', 'object']),
+    },
+    'green': {
+        "groups": set(['noun', 'color', 'concept']),
+    },
+    'plane': {
+        "groups": set(['noun', 'object', 'vehicle', 'fast']),
+    },
+    'car': {
+        "groups": set(['noun', 'object', 'vehicle', 'slow-ish']),
+    },
+    'wale': {
+        "groups": set(['noun', 'object', 'living-being']),
+    },
+    'cold': {
+        "groups": set(['property', 'temperature']),
+        "as_property": "temperature",
+    },
+    'dangerous': {
+        "groups": set(['property']),
+        "as_property": "safety",
+    },
+    'planet': {
+        "groups": set(['noun', 'group']),
+    },
+    'moon': {
+        "groups": set(['noun', 'group']),
+    },
+    'color': {
+        "groups": set(['property', 'group']),
+    },
+    'fly': {
+        "groups": set(['verb']),
+    },
+    'swim': {
+        "groups": set(['verb']),
+    },
+}
+
+def test_assumption(expectedResponse, knowledge, query):
+    logging.info("Query: {}".format(query['text']))
+    logging.info("Expected: {}".format(expectedResponse))
+
+    result, abstract_tree, diff = knowledge.process(query['text'])
+    end_result = result.getter() if is_modifiable_property(result) else result
+
+    logging.info("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
+    assert(end_result == expectedResponse)
+
+def main():
+    knowledge = KnowledgeBase(
+        knowledge=base_knowledge,
+    )
+
+    differences = knowledge.train(examples)
+
+    logging.info("----")
+    logging.info(differences())
+    logging.info("----")
+
+    test_assumption(True, knowledge, {'text': 'earth is a planet'})
+    test_assumption(True, knowledge, {'text': 'is lava dangerous?'})
+    for test in [{'text': 'a bus can run'}, {'text': 'io is a moon'}]:
+        row = test['text']
+        result, inferred_tree, differences = knowledge.process(row)
+
+        logging.info("result:", result)
+        logging.info(differences())
+        logging.info("---")
+    logging.info('-----')
+    logging.info(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
+    logging.info('-----')
+
+    queryTrue = {
+        "text": "is io a moon?",
+        "parsed": ("question", ("pertenence-to-group", "io", "moon"))
+    }
+    queryFalse = {
+        "text": "is io a planet?",
+        "parsed": ("question", ("pertenence-to-group", "io", "planet"))
+    }
+
+    test_assumption(False, knowledge, queryFalse)
+    test_assumption(True, knowledge, queryTrue)

From d6628101deab5647d8abc6391b5c26f146b979ce Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 22:16:27 +0200
Subject: [PATCH 02/69] Base gac 100.

---
 naive-nlu/tree_nlu/test.py          |   8 +-
 naive-nlu/tree_nlu/tests/basic.py   |   3 +-
 naive-nlu/tree_nlu/tests/gac_100.py | 637 ++++++++++++++++++++++++++++
 3 files changed, 644 insertions(+), 4 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/tests/gac_100.py

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index d97c2f2..c7e1a6e 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -1,10 +1,12 @@
 import logging
 from .tests import basic
+from .tests import gac_100
 
 logging.getLogger().setLevel(logging.WARNING)
 
 tests = (
     ("basic", basic),
+    ("gac 100", gac_100),
 )
 
 def main():
@@ -12,11 +14,11 @@ def main():
         try:
             test_module.main()
             print(" ✓ {}".format(test_name))
-        except AssertionError:
-            print(" ✗ {}".format(test_name))
+        except AssertionError as ae:
+            print(" ✗ {}: {}".format(test_name, ae.args[0]))
         except Exception as e:
             print(" ! {} {}".format(test_name, e))
-
+            raise
 
 if __name__ == '__main__':
     main()
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index eb03ad7..ba09ce2 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -111,7 +111,8 @@ def test_assumption(expectedResponse, knowledge, query):
     end_result = result.getter() if is_modifiable_property(result) else result
 
     logging.info("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
-    assert(end_result == expectedResponse)
+    if end_result != expectedResponse:
+        raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
 
 def main():
     knowledge = KnowledgeBase(
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
new file mode 100644
index 0000000..77d7139
--- /dev/null
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -0,0 +1,637 @@
+from ..knowledge_base import KnowledgeBase
+
+examples = [
+    {
+        "text": "is icecream cold?",
+        "affirmation": "icecream is cold",
+        "parsed": ("question", ("exists-property-with-value", 'icecream', 'cold')),
+        "answer": True,
+    },
+    # {
+    #     "text": "is earth a planet?",
+    #     "affirmation": "is earth a planet?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is green a color?",
+    #     "affirmation": "Is green a color?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do airplanes fly?",
+    #     "affirmation": "do airplanes fly?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is it hot during the summer?",
+    #     "affirmation": "Is it hot during the summer?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is chile in south america ?",
+    #     "affirmation": "is chile in south america ?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Was Socrates a man?",
+    #     "affirmation": "Was Socrates a man?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Computers use electricity?",
+    #     "affirmation": "Computers use electricity?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "The dominant language in france is french?",
+    #     "affirmation": "The dominant language in france is french?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "was abraham lincoln once president of the united states?",
+    #     "affirmation": "was abraham lincoln once president of the united states?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is milk white?",
+    #     "affirmation": "Is milk white?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do people have emotions?",
+    #     "affirmation": "do people have emotions?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do objects appear smaller as they move away from you?",
+    #     "affirmation": "do objects appear smaller as they move away from you?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does the human species have a male and female gender?",
+    #     "affirmation": "Does the human species have a male and female gender?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is a mountain mostly made of rock?",
+    #     "affirmation": "Is a mountain mostly made of rock?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is sun microsystems a computer company?",
+    #     "affirmation": "is sun microsystems a computer company?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do you see with your eyes and smell with your nose?",
+    #     "affirmation": "Do you see with your eyes and smell with your nose?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is smoking bad for your health?",
+    #     "affirmation": "Is smoking bad for your health?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does a dog have four legs?",
+    #     "affirmation": "Does a dog have four legs?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do mammals have hearts?",
+    #     "affirmation": "Do mammals have hearts?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is the Earth a planet?",
+    #     "affirmation": "is the Earth a planet?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is water a liquid?",
+    #     "affirmation": "Is water a liquid?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Bugs Bunny a cartoon character?",
+    #     "affirmation": "Is Bugs Bunny a cartoon character?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do Humans communicate by Telephone?",
+    #     "affirmation": "Do Humans communicate by Telephone?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is beer a drink ?",
+    #     "affirmation": "is beer a drink ?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "are there 12 months in a year?",
+    #     "affirmation": "are there 12 months in a year?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "does the sun hurt your eyes when you look at it?",
+    #     "affirmation": "does the sun hurt your eyes when you look at it?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do most cars have doors?",
+    #     "affirmation": "Do most cars have doors?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is orange both a fruit and a colour?",
+    #     "affirmation": "is orange both a fruit and a colour?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is water a necessity?",
+    #     "affirmation": "Is water a necessity?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do CDs have better quality sound than Cassettes?",
+    #     "affirmation": "Do CDs have better quality sound than Cassettes?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do animals die?",
+    #     "affirmation": "do animals die?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is the arctic cold?",
+    #     "affirmation": "Is the arctic cold?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do people have 2 eyes?",
+    #     "affirmation": "Do people have 2 eyes?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "does a person have a brain?",
+    #     "affirmation": "does a person have a brain?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is the rain wet?",
+    #     "affirmation": "Is the rain wet?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is division a mathematical operation?",
+    #     "affirmation": "Is division a mathematical operation?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is 400 greater than 399?",
+    #     "affirmation": "is 400 greater than 399?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is magenta a color?",
+    #     "affirmation": "is magenta a color?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are books educational?",
+    #     "affirmation": "Are books educational?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Was the Great Wall of China built by humans?",
+    #     "affirmation": "Was the Great Wall of China built by humans?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are pianos musical instruments?",
+    #     "affirmation": "Are pianos musical instruments?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Has Bill Clinton been President of the United States?",
+    #     "affirmation": "Has Bill Clinton been President of the United States?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is a whale a mammal?",
+    #     "affirmation": "Is a whale a mammal?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are lemons yellow?",
+    #     "affirmation": "Are lemons yellow?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is the South Pole cold?",
+    #     "affirmation": "Is the South Pole cold?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Africa warm?",
+    #     "affirmation": "Is Africa warm?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Antarctica cold?",
+    #     "affirmation": "Is Antarctica cold?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is rock is generally harder than wood?",
+    #     "affirmation": "Is rock is generally harder than wood?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do dogs chase cats?",
+    #     "affirmation": "Do dogs chase cats?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "can humans die from cold temperatures?",
+    #     "affirmation": "can humans die from cold temperatures?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do people enjoy conversation?",
+    #     "affirmation": "do people enjoy conversation?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Bill Clinton the President of the United States?",
+    #     "affirmation": "Is Bill Clinton the President of the United States?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are books a good source of information?",
+    #     "affirmation": "Are books a good source of information?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "are friends different than enemies?",
+    #     "affirmation": "are friends different than enemies?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "are people alive?",
+    #     "affirmation": "are people alive?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do triangles have 3 sides?",
+    #     "affirmation": "Do triangles have 3 sides?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Ice cream cold?",
+    #     "affirmation": "Is Ice cream cold?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are all sides of a square the same length?",
+    #     "affirmation": "Are all sides of a square the same length?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do all people eat food?",
+    #     "affirmation": "Do all people eat food?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do dentists repair teeth?",
+    #     "affirmation": "do dentists repair teeth?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is America bigger than Japan?",
+    #     "affirmation": "Is America bigger than Japan?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do all triangles have three sides?",
+    #     "affirmation": "Do all triangles have three sides?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "A grocery store sales food?",
+    #     "affirmation": "A grocery store sales food?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does a sunburn cause pain?",
+    #     "affirmation": "Does a sunburn cause pain?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is a computer an invention?",
+    #     "affirmation": "Is a computer an invention?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "have humans visited the moon?",
+    #     "affirmation": "have humans visited the moon?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are there people in India?",
+    #     "affirmation": "Are there people in India?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Was Einstein a genius?",
+    #     "affirmation": "Was Einstein a genius?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are we on the planet earth?",
+    #     "affirmation": "Are we on the planet earth?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "do people comb their hair in the morning?",
+    #     "affirmation": "do people comb their hair in the morning?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does it hurt to lose a friend?",
+    #     "affirmation": "Does it hurt to lose a friend?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are there people on the earth?",
+    #     "affirmation": "Are there people on the earth?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Was George Washington a president of the United States of America?",
+    #     "affirmation": "Was George Washington a president of the United States of America?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does an ocean have salt water in it?",
+    #     "affirmation": "Does an ocean have salt water in it?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is night darker than day?",
+    #     "affirmation": "Is night darker than day?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Does a triangle have three sides?",
+    #     "affirmation": "Does a triangle have three sides?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are peaches fruit?",
+    #     "affirmation": "Are peaches fruit?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do people urinate?",
+    #     "affirmation": "Do people urinate?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is Germany located in Europe?",
+    #     "affirmation": "Is Germany located in Europe?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do mirrors reflect light?",
+    #     "affirmation": "Do mirrors reflect light?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are people born naked?",
+    #     "affirmation": "Are people born naked?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is it hot near the equator?",
+    #     "affirmation": "Is it hot near the equator?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is paper made from trees?",
+    #     "affirmation": "is paper made from trees?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Can a female have children?",
+    #     "affirmation": "Can a female have children?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are people born every day?",
+    #     "affirmation": "Are people born every day?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are shoes worn on the feet?",
+    #     "affirmation": "Are shoes worn on the feet?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "does it get wet when it rains?",
+    #     "affirmation": "does it get wet when it rains?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are there plants and insects in the rainforest which have no names?",
+    #     "affirmation": "Are there plants and insects in the rainforest which have no names?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do people eat pigs?",
+    #     "affirmation": "Do people eat pigs?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do businessmen wear ties?",
+    #     "affirmation": "Do businessmen wear ties?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is New York in the United States?",
+    #     "affirmation": "Is New York in the United States?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are humans more intelligent than ants?",
+    #     "affirmation": "Are humans more intelligent than ants?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are ravens black?",
+    #     "affirmation": "Are ravens black?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Are there rats on ships?",
+    #     "affirmation": "Are there rats on ships?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "are lions animals?",
+    #     "affirmation": "are lions animals?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "6 is greater than 5?",
+    #     "affirmation": "6 is greater than 5?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Is water made of hydrogen and oxygen?",
+    #     "affirmation": "Is water made of hydrogen and oxygen?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "is the sky blue on a clear day?",
+    #     "affirmation": "is the sky blue on a clear day?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+    # {
+    #     "text": "Do most people work during the day?",
+    #     "affirmation": "Do most people work during the day?",
+    #     "parsed": (),
+    #     "answer": None,
+    # },
+]
+
+base_knowledge = {
+    'icecream': {
+        "groups": set(['noun', 'object', 'comestible', 'sweet']),
+    },
+    "cold": {
+        "groups": set(['property', 'temperature']),
+        "as_property": "temperature",
+    }
+}
+
+def main():
+    knowledge = KnowledgeBase(
+        knowledge=base_knowledge,
+    )
+
+    affirmations = [
+        {
+            'text': x['affirmation'],
+            'parsed': x['parsed'][1],
+        }
+        for x in examples
+    ]
+    questions = examples
+
+    differences = knowledge.train(affirmations)
+    differences = knowledge.train(questions)
+
+    for example in examples:
+        result, _, _ = knowledge.process(example['text'])
+
+        if result != example['answer']:
+            raise AssertionError('{} is not {}'.format(result, example['answer']))

From 6693b7deb01a34db33816b8a3b18734291104b1c Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:16:19 +0200
Subject: [PATCH 03/69] Remove need from `as_property` info.

Probably this can be improved upon if the data is later
analyzed with it's similars.
---
 naive-nlu/tree_nlu/knowledge_base.py       |  1 +
 naive-nlu/tree_nlu/knowledge_evaluation.py | 21 ++++++++++++++++++---
 2 files changed, 19 insertions(+), 3 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 4c27700..e00bc0d 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -49,6 +49,7 @@ class KnowledgeBase(object):
 
 
     def process(self, row):
+        row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
         logging.info("\x1b[7;32m> {} \x1b[0m".format(row))
         tokens = parsing.to_tokens(row)
diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index a24c07d..ed48f85 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -41,17 +41,32 @@ def get_subquery_type(knowledge_base, atom):
 
 
 def property_for_value(knowledge_base, value):
-    return knowledge_base[value]['as_property']
+    if 'as_property' in knowledge_base[value]:
+        return knowledge_base[value]['as_property']
+
+    return knowledge_base[value].get('groups', set(['noun']))
 
 
 def modifiable_property_from_property(prop, path, value):
     def getter():
         nonlocal prop, path, value
-        return (path in prop) and prop[path] == value
+        if isinstance(path, set):
+            # If the property is from a set, it's true if any possible
+            # path has a element as true
+            return any(map(lambda possible_path: ((possible_path in prop)
+                                                  and
+                                                  (prop[possible_path] == value)),
+                           path))
+        else:
+            return (path in prop) and prop[path] == value
 
     def setter():
         nonlocal prop, path, value
-        prop[path] = value
+        if isinstance(path, set):
+            for possible_path in path:
+                prop[possible_path] = value
+        else:
+            prop[path] = value
 
     return ModifiableProperty(
         getter=getter,

From 460ad73bbafc636f726584d5ce83392fb5c6a726 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:17:44 +0200
Subject: [PATCH 04/69] Handle the possibility of remixes not working.

---
 naive-nlu/tree_nlu/parsing.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index fa16a33..080aaa0 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -295,6 +295,8 @@ def reprocess_language_knowledge(knowledge_base, examples):
 def reverse_remix(tree_section, remix):
     result_section = []
     for origin in remix:
+        if origin >= len(tree_section):
+            return None
         result_section.append(copy.deepcopy(tree_section[origin]))
     return result_section + tree_section[len(remix):]
 
@@ -332,6 +334,9 @@ def resolve_fit(knowledge, fit, remaining_recursions):
         else:
             ((result_type, remixer), tokens) = element
             remixed_tokens = reverse_remix(tokens, remixer)
+            if remixed_tokens is None:
+                return None
+
             minifit = get_fit(knowledge, remixed_tokens, remaining_recursions - 1)
             if minifit is None:
                 return None

From 586ac76d1fb9f6a2aa9458bd873ecc3bf71c6049 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:18:02 +0200
Subject: [PATCH 05/69] Default to ERROR logging on tests.

---
 naive-nlu/tree_nlu/test.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index c7e1a6e..021e2fc 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -2,7 +2,7 @@ import logging
 from .tests import basic
 from .tests import gac_100
 
-logging.getLogger().setLevel(logging.WARNING)
+logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
     ("basic", basic),

From e6e81464780c2e3fa367b0efd53fdd2f895c4da2 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:24:44 +0200
Subject: [PATCH 06/69] Allow learning from unparsed data in tests.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py |  17 ++-
 naive-nlu/tree_nlu/tests/gac_100.py        | 126 +++++++++++++--------
 2 files changed, 93 insertions(+), 50 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index ed48f85..bcce527 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -41,10 +41,21 @@ def get_subquery_type(knowledge_base, atom):
 
 
 def property_for_value(knowledge_base, value):
-    if 'as_property' in knowledge_base[value]:
-        return knowledge_base[value]['as_property']
+    if value in knowledge_base:
+        # Annotate the property as property
+        groups = knowledge_base[value].get('groups', set(['property']))
+        groups.add('property')
+        knowledge_base[value]['groups'] = groups
 
-    return knowledge_base[value].get('groups', set(['noun']))
+        # And find the property "name"
+        if 'as_property' in knowledge_base[value]:
+            return knowledge_base[value]['as_property']
+
+        return knowledge_base[value].get('groups', set(['property']))
+    else:
+        # Consider that any property is... a property
+        knowledge_base[value] = {'groups': {'property'}}
+        return {'property'}
 
 
 def modifiable_property_from_property(prop, path, value):
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 77d7139..ef68dfb 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,30 +1,38 @@
 from ..knowledge_base import KnowledgeBase
 
 examples = [
-    {
-        "text": "is icecream cold?",
-        "affirmation": "icecream is cold",
-        "parsed": ("question", ("exists-property-with-value", 'icecream', 'cold')),
-        "answer": True,
-    },
-    # {
-    #     "text": "is earth a planet?",
-    #     "affirmation": "is earth a planet?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
-    # {
-    #     "text": "Is green a color?",
-    #     "affirmation": "Is green a color?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
-    # {
-    #     "text": "do airplanes fly?",
-    #     "affirmation": "do airplanes fly?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('full_example',
+     {
+         "text": "is icecream cold?",
+         "affirmation": "icecream is cold",
+         "parsed": ("question",
+                    ("exists-property-with-value", 'icecream', 'cold')),
+         "answer": True,
+     }),
+    ('full_example',
+     {
+         "text": "is earth a planet?",
+         "affirmation": "earth is a planet",
+         "parsed": ("question",
+                    ("pertenence-to-group", 'earth', 'planet')),
+         "answer": True,
+     }),
+    ('full_example',
+     {
+         "text": "Is green a color?",
+         "affirmation": "green is a color",
+         "parsed": ("question",
+                    ("pertenence-to-group", 'green', 'color')),
+         "answer": True,
+     }),
+    ('full_example',
+     {
+         "text": "do airplanes fly?",
+         "affirmation": "airplanes fly",
+         "parsed": ("question",
+                    ("has-capacity", 'plane', 'fly')),
+         "answer": True,
+     }),
     # {
     #     "text": "Is it hot during the summer?",
     #     "affirmation": "Is it hot during the summer?",
@@ -61,12 +69,12 @@ examples = [
     #     "parsed": (),
     #     "answer": None,
     # },
-    # {
-    #     "text": "Is milk white?",
-    #     "affirmation": "Is milk white?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('text_example',
+     {
+         "question": "Is milk white?",
+         "affirmation": "milk is white",
+         "answer": True,
+     }),
     # {
     #     "text": "do people have emotions?",
     #     "affirmation": "do people have emotions?",
@@ -607,10 +615,24 @@ base_knowledge = {
     'icecream': {
         "groups": set(['noun', 'object', 'comestible', 'sweet']),
     },
-    "cold": {
+    'cold': {
         "groups": set(['property', 'temperature']),
-        "as_property": "temperature",
-    }
+    },
+    'earth': {
+        "groups": set(['noun', 'object', 'planet']),
+    },
+    'planet': {
+        "groups": set(['noun', 'group']),
+    },
+    'color': {
+        "groups": set(['property', 'group']),
+    },
+    'green': {
+        "groups": set(['noun', 'color', 'concept']),
+    },
+    'fly': {
+        "groups": set(['verb']),
+    },
 }
 
 def main():
@@ -618,20 +640,30 @@ def main():
         knowledge=base_knowledge,
     )
 
-    affirmations = [
-        {
-            'text': x['affirmation'],
-            'parsed': x['parsed'][1],
-        }
-        for x in examples
-    ]
-    questions = examples
+    for example_type, data in examples:
+        if example_type == 'full_example':
+            affirmation = {
+                'text': data['affirmation'],
+                'parsed': data['parsed'][1],
+            }
+            question = data
+            differences = knowledge.train([affirmation])
+            differences = knowledge.train([question])
 
-    differences = knowledge.train(affirmations)
-    differences = knowledge.train(questions)
+            result, _, _ = knowledge.process(data['text'])
 
-    for example in examples:
-        result, _, _ = knowledge.process(example['text'])
+            if result != data['answer']:
+                raise AssertionError('{} is not {}'.format(result, data['answer']))
 
-        if result != example['answer']:
-            raise AssertionError('{} is not {}'.format(result, example['answer']))
+        elif example_type == 'text_example':
+            affirmation = data['affirmation']
+            question = data['question']
+
+            _, _, _ = knowledge.process(affirmation)
+            result, _, _ = knowledge.process(question)
+
+            if result != data['answer']:
+                raise AssertionError('{} is not {}'.format(result, data['answer']))
+
+        else:
+            raise NotImplementedError('Example type: {}'.format(example_type))

From 3cfc03373f2f58dfb0c0f540b83ddf33ab3246dd Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:29:34 +0200
Subject: [PATCH 07/69] Use {set} notation for sets.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py |  4 +--
 naive-nlu/tree_nlu/tests/basic.py          | 30 +++++++++++-----------
 naive-nlu/tree_nlu/tests/gac_100.py        | 14 +++++-----
 3 files changed, 24 insertions(+), 24 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index bcce527..9d77e67 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -43,7 +43,7 @@ def get_subquery_type(knowledge_base, atom):
 def property_for_value(knowledge_base, value):
     if value in knowledge_base:
         # Annotate the property as property
-        groups = knowledge_base[value].get('groups', set(['property']))
+        groups = knowledge_base[value].get('groups', {'property'})
         groups.add('property')
         knowledge_base[value]['groups'] = groups
 
@@ -51,7 +51,7 @@ def property_for_value(knowledge_base, value):
         if 'as_property' in knowledge_base[value]:
             return knowledge_base[value]['as_property']
 
-        return knowledge_base[value].get('groups', set(['property']))
+        return knowledge_base[value].get('groups', {'property'})
     else:
         # Consider that any property is... a property
         knowledge_base[value] = {'groups': {'property'}}
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index ba09ce2..450e7e0 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -55,51 +55,51 @@ examples = [
 
 base_knowledge = {
     'icecream': {
-        "groups": set(['noun', 'object', 'comestible', 'sweet']),
+        "groups": {'noun', 'object', 'comestible', 'sweet'},
     },
     'lava': {
-        "groups": set(['noun', 'object']),
+        "groups": {'noun', 'object'},
     },
     'earth': {
-        "groups": set(['noun', 'object', 'planet']),
+        "groups": {'noun', 'object', 'planet'},
     },
     'io': {
-        "groups": set(['noun', 'object']),
+        "groups": {'noun', 'object'},
     },
     'green': {
-        "groups": set(['noun', 'color', 'concept']),
+        "groups": {'noun', 'color', 'concept'},
     },
     'plane': {
-        "groups": set(['noun', 'object', 'vehicle', 'fast']),
+        "groups": {'noun', 'object', 'vehicle', 'fast'},
     },
     'car': {
-        "groups": set(['noun', 'object', 'vehicle', 'slow-ish']),
+        "groups": {'noun', 'object', 'vehicle', 'slow-ish'},
     },
     'wale': {
-        "groups": set(['noun', 'object', 'living-being']),
+        "groups": {'noun', 'object', 'living-being'},
     },
     'cold': {
-        "groups": set(['property', 'temperature']),
+        "groups": {'property', 'temperature'},
         "as_property": "temperature",
     },
     'dangerous': {
-        "groups": set(['property']),
+        "groups": {'property'},
         "as_property": "safety",
     },
     'planet': {
-        "groups": set(['noun', 'group']),
+        "groups": {'noun', 'group'},
     },
     'moon': {
-        "groups": set(['noun', 'group']),
+        "groups": {'noun', 'group'},
     },
     'color': {
-        "groups": set(['property', 'group']),
+        "groups": {'property', 'group'},
     },
     'fly': {
-        "groups": set(['verb']),
+        "groups": {'verb'},
     },
     'swim': {
-        "groups": set(['verb']),
+        "groups": {'verb'},
     },
 }
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index ef68dfb..34452a6 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -613,25 +613,25 @@ examples = [
 
 base_knowledge = {
     'icecream': {
-        "groups": set(['noun', 'object', 'comestible', 'sweet']),
+        "groups": {'noun', 'object', 'comestible', 'sweet'},
     },
     'cold': {
-        "groups": set(['property', 'temperature']),
+        "groups": {'property', 'temperature'},
     },
     'earth': {
-        "groups": set(['noun', 'object', 'planet']),
+        "groups": {'noun', 'object', 'planet'},
     },
     'planet': {
-        "groups": set(['noun', 'group']),
+        "groups": {'noun', 'group'},
     },
     'color': {
-        "groups": set(['property', 'group']),
+        "groups": {'property', 'group'},
     },
     'green': {
-        "groups": set(['noun', 'color', 'concept']),
+        "groups": {'noun', 'color', 'concept'},
     },
     'fly': {
-        "groups": set(['verb']),
+        "groups": {'verb'},
     },
 }
 

From 0b52ade6b54ea8849d083b2f03f17f53c1a2570f Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:32:19 +0200
Subject: [PATCH 08/69] Small colorization on the test interface.

---
 naive-nlu/tree_nlu/test.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 021e2fc..e6c0102 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -13,11 +13,11 @@ def main():
     for test_name, test_module in tests:
         try:
             test_module.main()
-            print(" ✓ {}".format(test_name))
+            print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
-            print(" ✗ {}: {}".format(test_name, ae.args[0]))
+            print(" \x1b[1;31m✗\x1b[0m {}: {}".format(test_name, ae.args[0]))
         except Exception as e:
-            print(" ! {} {}".format(test_name, e))
+            print(" \x1b[1;7;31m!\x1b[0m {} {}".format(test_name, e))
             raise
 
 if __name__ == '__main__':

From 22534160c987be849bd65fb4633f0b5054fcbf7e Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 23 May 2017 23:34:33 +0200
Subject: [PATCH 09/69] On fail or exception exit with non-zero code.

Also, on exceptions print the exception stacktrace.
---
 naive-nlu/tree_nlu/test.py | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index e6c0102..92addcb 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -1,3 +1,4 @@
+import traceback
 import logging
 from .tests import basic
 from .tests import gac_100
@@ -10,15 +11,22 @@ tests = (
 )
 
 def main():
+    failed = False
     for test_name, test_module in tests:
         try:
             test_module.main()
             print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
             print(" \x1b[1;31m✗\x1b[0m {}: {}".format(test_name, ae.args[0]))
+            failed = True
+
         except Exception as e:
             print(" \x1b[1;7;31m!\x1b[0m {} {}".format(test_name, e))
-            raise
+            failed = True
+            traceback.print_exc()
+
+    if failed:
+        exit(1)
 
 if __name__ == '__main__':
     main()

From d029ecd91deeeee8679ee0eb3038edfe6c7bdba5 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 20:13:42 +0200
Subject: [PATCH 10/69] Implication example.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 17 +++++++++++++++++
 naive-nlu/tree_nlu/tests/gac_100.py        | 20 ++++++++++++++------
 2 files changed, 31 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 9d77e67..eb4e7c9 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -154,12 +154,29 @@ def question(knowledge_base, elements, subj):
         return subj.getter()
     return subj
 
+def implies(knowledge_base, elements, precedent, consequent):
+    precedent = resolve(knowledge_base, elements, precedent)
+    consequent = resolve(knowledge_base, elements, consequent)
+
+    if precedent not in knowledge_base:
+        knowledge_base[precedent] = {}
+
+    if "implications" not in knowledge_base[precedent]:
+        knowledge_base[precedent]["implications"] = set()
+
+    return modifiable_element_for_existance_in_set(
+        container=knowledge_base[precedent],
+        set_name="implications",
+        element=consequent
+    )
+
 
 knowledge_ingestion = {
     "exists-property-with-value": exists_property_with_value,
     "pertenence-to-group": pertenence_to_group,
     "has-capacity": has_capacity,
     "question": question,
+    "implies": implies,
 }
 
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 34452a6..eb3fe39 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -33,12 +33,14 @@ examples = [
                     ("has-capacity", 'plane', 'fly')),
          "answer": True,
      }),
-    # {
-    #     "text": "Is it hot during the summer?",
-    #     "affirmation": "Is it hot during the summer?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('full_example',
+     {
+         "text": "Is it hot during the summer?",
+         "affirmation": "it is hot during the summer",
+         "parsed": ("question",
+                    ("implies", 'summer', 'hot')),
+         "answer": True,
+     }),
     # {
     #     "text": "is chile in south america ?",
     #     "affirmation": "is chile in south america ?",
@@ -618,6 +620,12 @@ base_knowledge = {
     'cold': {
         "groups": {'property', 'temperature'},
     },
+    'hot': {
+        "groups": {'property', 'temperature'},
+    },
+    'summer': {
+        "groups": {'epoch'},
+    },
     'earth': {
         "groups": {'noun', 'object', 'planet'},
     },

From bbba6b75e169ed3a6d3d2d35b4f5edc11a2c52c0 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 20:30:50 +0200
Subject: [PATCH 11/69] Make remix model more powerful.

Accept elements in the remix that are not present in the
subtrees.
---
 naive-nlu/tree_nlu/parsing.py       | 31 +++++++++++++++++++----------
 naive-nlu/tree_nlu/test.py          |  4 +++-
 naive-nlu/tree_nlu/tests/gac_100.py |  2 +-
 3 files changed, 25 insertions(+), 12 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 080aaa0..6e1fe30 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -127,7 +127,11 @@ def integrate_language(knowledge_base, example):
 def apply_remix(tokens, remix):
     rebuilt = []
     for i in remix:
-        rebuilt.append(tokens[i])
+        if isinstance(i, int):
+            rebuilt.append(tokens[i])
+        else:
+            assert(isinstance(i, str))
+            rebuilt.append(i)
     return rebuilt
 
 
@@ -154,13 +158,14 @@ def get_possible_remixes(knowledge_base, matcher, similar_matcher):
     for element in matcher:
         logging.debug("- {}".format(element))
         logging.debug("+ {}".format(similar_matcher))
-        assert(element in similar_matcher or isinstance(element, dict))
-
-        if isinstance(element, dict):
-            indexes = all_matching_indexes(knowledge_base, similar_matcher, element)
+        if element in similar_matcher or isinstance(element, dict):
+            if isinstance(element, dict):
+                indexes = all_matching_indexes(knowledge_base, similar_matcher, element)
+            else:
+                indexes = all_indexes(similar_matcher, element)
+            matrix.append(indexes)
         else:
-            indexes = all_indexes(similar_matcher, element)
-        matrix.append(indexes)
+            matrix.append([element])
 
     # TODO: do some scoring to find the most "interesting combination"
     return [list(x) for x in list(zip(*matrix))]
@@ -294,10 +299,16 @@ def reprocess_language_knowledge(knowledge_base, examples):
 
 def reverse_remix(tree_section, remix):
     result_section = []
+    offset = 0
     for origin in remix:
-        if origin >= len(tree_section):
-            return None
-        result_section.append(copy.deepcopy(tree_section[origin]))
+        if isinstance(origin, int):
+            if origin >= len(tree_section):
+                return None
+
+            result_section.append(copy.deepcopy(tree_section[origin + offset]))
+        else:
+            assert(isinstance(origin, str))
+            offset += 1
     return result_section + tree_section[len(remix):]
 
 
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 92addcb..caaacdd 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -17,7 +17,9 @@ def main():
             test_module.main()
             print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
-            print(" \x1b[1;31m✗\x1b[0m {}: {}".format(test_name, ae.args[0]))
+            print(" \x1b[1;31m✗\x1b[0m {}: {}".format(test_name,
+                                                      ae.args[0] if len(ae.args) > 0
+                                                      else '\b\b \b'))
             failed = True
 
         except Exception as e:
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index eb3fe39..a1d7760 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -36,7 +36,7 @@ examples = [
     ('full_example',
      {
          "text": "Is it hot during the summer?",
-         "affirmation": "it is hot during the summer",
+         "affirmation": "it is hot during summer",
          "parsed": ("question",
                     ("implies", 'summer', 'hot')),
          "answer": True,

From a99449c04a095e738827b84bb6845294f359a5f8 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 20:42:15 +0200
Subject: [PATCH 12/69] Add property-has-value example.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 19 +++++++++++++++++++
 naive-nlu/tree_nlu/tests/gac_100.py        | 17 +++++++++++------
 2 files changed, 30 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index eb4e7c9..0869728 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -171,12 +171,31 @@ def implies(knowledge_base, elements, precedent, consequent):
     )
 
 
+def property_has_value(knowledge_base, elements, subj, prop, value):
+    subj = resolve(knowledge_base, elements, subj)
+    prop = resolve(knowledge_base, elements, prop)
+    value = resolve(knowledge_base, elements, value)
+
+    if subj not in knowledge_base:
+        knowledge_base[subj] = {}
+
+    if prop not in knowledge_base[subj]:
+        knowledge_base[subj][prop] = set()
+
+    return modifiable_element_for_existance_in_set(
+        container=knowledge_base[subj],
+        set_name=prop,
+        element=value
+    )
+
+
 knowledge_ingestion = {
     "exists-property-with-value": exists_property_with_value,
     "pertenence-to-group": pertenence_to_group,
     "has-capacity": has_capacity,
     "question": question,
     "implies": implies,
+    "property-has-value": property_has_value,
 }
 
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index a1d7760..680f909 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -41,12 +41,14 @@ examples = [
                     ("implies", 'summer', 'hot')),
          "answer": True,
      }),
-    # {
-    #     "text": "is chile in south america ?",
-    #     "affirmation": "is chile in south america ?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('full_example',
+     {
+         "text": "is chile in south america ?",
+         "affirmation": "chile is in south america",
+         "parsed": ("question",
+                    ("property-has-value", 'chile', 'location', 'south america')),
+         "answer": True,
+     }),
     # {
     #     "text": "Was Socrates a man?",
     #     "affirmation": "Was Socrates a man?",
@@ -641,6 +643,9 @@ base_knowledge = {
     'fly': {
         "groups": {'verb'},
     },
+    'chile': {
+        "groups": {'noun'},
+    }
 }
 
 def main():

From e51ba71ec5b2c1c708e2a0cc4bbde6b748eb756c Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 20:42:45 +0200
Subject: [PATCH 13/69] Add after_execution mechanism to gac100 test.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 680f909..29d5ead 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -668,6 +668,10 @@ def main():
             if result != data['answer']:
                 raise AssertionError('{} is not {}'.format(result, data['answer']))
 
+            if "after_execution" in data:
+                for f in data["after_execution"]:
+                    f(knowledge)
+
         elif example_type == 'text_example':
             affirmation = data['affirmation']
             question = data['question']

From 4d7afb01745df7b24b8db2f6b5c3d0a39422a9bd Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 20:42:54 +0200
Subject: [PATCH 14/69] Add set-capable json dumper.

---
 naive-nlu/tree_nlu/utils/json_dumper.py | 4 ++++
 1 file changed, 4 insertions(+)
 create mode 100644 naive-nlu/tree_nlu/utils/json_dumper.py

diff --git a/naive-nlu/tree_nlu/utils/json_dumper.py b/naive-nlu/tree_nlu/utils/json_dumper.py
new file mode 100644
index 0000000..061dd68
--- /dev/null
+++ b/naive-nlu/tree_nlu/utils/json_dumper.py
@@ -0,0 +1,4 @@
+def dumper(obj):
+    if isinstance(obj, set):
+        return list(obj)
+    return obj

From 02f909269a380697fe39e5d82a6021d441ca3cbc Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 21:09:23 +0200
Subject: [PATCH 15/69] Use after_execution mechanism for test asserts.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 29d5ead..b5021ec 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,5 +1,11 @@
 from ..knowledge_base import KnowledgeBase
 
+def _assert(args):
+    assert(args)
+
+def _assert_msg(args, msg):
+    assert(args, msg)
+
 examples = [
     ('full_example',
      {
@@ -8,6 +14,9 @@ examples = [
          "parsed": ("question",
                     ("exists-property-with-value", 'icecream', 'cold')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('cold' in knowledge.knowledge['icecream']['property'])
+         ),],
      }),
     ('full_example',
      {
@@ -16,6 +25,9 @@ examples = [
          "parsed": ("question",
                     ("pertenence-to-group", 'earth', 'planet')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('planet' in knowledge.knowledge['earth']['groups'])
+         ),],
      }),
     ('full_example',
      {
@@ -24,6 +36,9 @@ examples = [
          "parsed": ("question",
                     ("pertenence-to-group", 'green', 'color')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('color' in knowledge.knowledge['green']['groups'])
+         ),],
      }),
     ('full_example',
      {
@@ -32,6 +47,9 @@ examples = [
          "parsed": ("question",
                     ("has-capacity", 'plane', 'fly')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('fly' in knowledge.knowledge['plane']['capacities'])
+         ),],
      }),
     ('full_example',
      {
@@ -40,6 +58,9 @@ examples = [
          "parsed": ("question",
                     ("implies", 'summer', 'hot')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('hot' in knowledge.knowledge['summer']['implications'])
+         ),],
      }),
     ('full_example',
      {

From 2bfe676b2d855e83999934c397885f2e740aa753 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:02:32 +0200
Subject: [PATCH 16/69] Integrate the knowledge ASAP.

If we do this before the parsing we can leverage that semantics
in the matching phase.
---
 naive-nlu/tree_nlu/knowledge_base.py       |  7 +++++++
 naive-nlu/tree_nlu/knowledge_evaluation.py | 15 ++++++++++-----
 2 files changed, 17 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index e00bc0d..31c84a1 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -24,6 +24,13 @@ class KnowledgeBase(object):
         # Parse everything
         parsed_examples = []
         for example in examples:
+            # If there's parsed data, leverage it ASAP
+            if 'parsed' in example:
+                result = knowledge_evaluation.integrate_information(self.knowledge, {
+                    "parsed": example['parsed'],
+                })
+                self.act_upon(result)
+
             logging.info("\x1b[7;32m> {} \x1b[0m".format(example))
             tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
             logging.info(tokens)
diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 0869728..4a49faa 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -123,12 +123,17 @@ def pertenence_to_group(knowledge_base, elements, subj, group):
     if "groups" not in knowledge_base[subj]:
         knowledge_base[subj]["groups"] = set()
 
-    return modifiable_element_for_existance_in_set(
-        container=knowledge_base[subj],
-        set_name="groups",
-        element=group
-    )
+    if group not in knowledge_base:
+        knowledge_base[group] = {}
 
+    if "groups" not in knowledge_base[group]:
+        knowledge_base[group]["groups"] = set()
+
+    return modifiable_element_for_existance_in_group(
+        container=knowledge_base[subj],
+        element=group,
+        backlink=knowledge_base[group],
+    )
 
 def has_capacity(knowledge_base, elements, subj, capacity):
     subj = resolve(knowledge_base, elements, subj)

From cbeefcf76ba798d3cdf00c9c33284f5ef6197e35 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:05:46 +0200
Subject: [PATCH 17/69] Identify group "concepts" on-flight.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 15 +++++++++++++++
 1 file changed, 15 insertions(+)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 4a49faa..5cc4f65 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -113,6 +113,21 @@ def modifiable_element_for_existance_in_set(container, set_name, element):
         setter=setter,
     )
 
+def modifiable_element_for_existance_in_group(container, element, backlink, set_name='groups'):
+    def getter():
+        nonlocal container, element, backlink, set_name
+        return (set_name in container) and (element in container[set_name])
+
+    def setter():
+        nonlocal container, set_name, element
+        backlink['groups'].add(set_name)
+        return container[set_name].add(element)
+
+    return ModifiableProperty(
+        getter=getter,
+        setter=setter,
+    )
+
 def pertenence_to_group(knowledge_base, elements, subj, group):
     subj = resolve(knowledge_base, elements, subj)
     group = resolve(knowledge_base, elements, group)

From 75d690120bbc2325441512fe0decf1e47a6e9c41 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:06:18 +0200
Subject: [PATCH 18/69] Improve error reporting on tests.

---
 naive-nlu/tree_nlu/test.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index caaacdd..ec57f8b 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -17,13 +17,13 @@ def main():
             test_module.main()
             print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
-            print(" \x1b[1;31m✗\x1b[0m {}: {}".format(test_name,
-                                                      ae.args[0] if len(ae.args) > 0
-                                                      else '\b\b \b'))
+            print(" \x1b[1;31m✗\x1b[0m {}".format(test_name,
+                                                  (' : [Assertion] {}'.format(ae.args[0])) if len(ae.args) > 0
+                                                   else ''))
             failed = True
 
         except Exception as e:
-            print(" \x1b[1;7;31m!\x1b[0m {} {}".format(test_name, e))
+            print(" \x1b[1;7;31m!\x1b[0m {} : [Exception] {}".format(test_name, e))
             failed = True
             traceback.print_exc()
 

From e6cbb5438298a1ea1bc7dc661c4ade2bc01295aa Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:09:26 +0200
Subject: [PATCH 19/69] Also use matching tokens to score tree similarity.

---
 naive-nlu/tree_nlu/parsing.py | 17 +++++++++++------
 1 file changed, 11 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 6e1fe30..ed5903a 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -88,7 +88,7 @@ def integrate_language(knowledge_base, example):
 
         for position, atom in lower_levels:
             logging.debug("\x1b[1mSelecting\x1b[0m: {}".format(atom))
-            similar = get_similar_tree(knowledge_base, atom)
+            similar = get_similar_tree(knowledge_base, atom, tokens)
             remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
             _, matcher, result = make_template(knowledge_base, tokens, atom)
             logging.debug("Tx: {}".format(tokens))
@@ -138,7 +138,7 @@ def apply_remix(tokens, remix):
 def build_remix_matrix(knowledge_base, tokens, atom, similar):
     tokens = list(tokens)
     tokens, matcher, result = make_template(knowledge_base, tokens, atom)
-    similar_matcher, similar_result, similar_result_resolved, _ = similar
+    similar_matcher, similar_result, similar_result_resolved, _, _ = similar
 
     start_bounds, end_bounds = find_bounds(matcher, similar_matcher)
 
@@ -219,7 +219,7 @@ def find_bounds(matcher, similar_matcher):
     return start_bounds, end_bounds
 
 
-def get_similar_tree(knowledge_base, atom):
+def get_similar_tree(knowledge_base, atom, tokens):
     possibilities = []
 
     # Find matching possibilities
@@ -243,12 +243,17 @@ def get_similar_tree(knowledge_base, atom):
                     raw))
 
         # TODO: Probably should take into account the categories of the elements in the "intake" ([0]) element
-        score = sum([resolved[i] == atom[i]
+        atom_score = sum([resolved[i] == atom[i]
                      for i
                      in range(min(len(resolved),
                                   len(atom)))])
-        sorted_possibilities.append((raw, possibility, resolved, score))
-    sorted_possibilities = sorted(sorted_possibilities, key=lambda p: p[3], reverse=True)
+        token_score = sum([similar_token in tokens
+                           for similar_token
+                           in raw])
+
+        sorted_possibilities.append((raw, possibility, resolved, atom_score, token_score))
+
+    sorted_possibilities = sorted(sorted_possibilities, key=lambda p: p[3] * 100 + p[4], reverse=True)
     if len(sorted_possibilities) < 1:
         return None
 

From 7cdf8a310de9d70d8cdc32d383f3c5c95f5e4d97 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:10:17 +0200
Subject: [PATCH 20/69] Unroll get_matching last list-comprehension.

---
 naive-nlu/tree_nlu/parsing.py | 25 +++++++++++++++++--------
 1 file changed, 17 insertions(+), 8 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index ed5903a..a179dd4 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -278,14 +278,23 @@ def get_matching(sample, other):
                                 x[0][i][0] == sample[0][i][0],
                                 other))
 
-    return [sample[0][x] if isinstance(sample[0][x], str)
-            else
-            sample[0][x] if isinstance(sample[0][x], tuple)
-            else {'groups': sample[0][x]['groups'] & reduce(lambda a, b: a & b,
-                                                            map(lambda y: y[0][x]['groups'],
-                                                                other))}
-            for x
-            in range(l)]
+    matching = []
+    for x in range(l):  # Generate the combination of this and other(s) matcher
+        first_sample_data = sample[0][x]
+        if isinstance(first_sample_data, str):
+            matching.append(first_sample_data)
+        elif isinstance(first_sample_data, tuple):
+            matching.append(first_sample_data)
+        else:
+            this_groups = sample[0][x]['groups']
+            if len(other) > 0:
+                other_groups = reduce(lambda a, b: a & b,
+                                      map(lambda y: y[0][x]['groups'],
+                                          other))
+                this_groups = this_groups & other_groups
+
+            matching.append({'groups': this_groups})
+    return matching
 
 
 def reprocess_language_knowledge(knowledge_base, examples):

From 89b281fd6f36764b1849e63281c30e7c93ce0f62 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:15:56 +0200
Subject: [PATCH 21/69] Lean on knowledge too when defining bounds.

---
 naive-nlu/tree_nlu/parsing.py | 28 +++++++++++++++++++++++-----
 1 file changed, 23 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index a179dd4..13436bd 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -8,7 +8,7 @@ import re
 import copy
 
 from functools import reduce
-from typing import List
+from typing import List, Dict
 from .modifiable_property import ModifiableProperty
 from . import parameters
 
@@ -95,6 +95,8 @@ def integrate_language(knowledge_base, example):
             logging.debug("Mx: {}".format(matcher))
             logging.debug("Rx: {}".format(result))
             logging.debug("Remix: {}".format(remix))
+            logging.debug("Sx: {}".format(start_bounds))
+            logging.debug("Ex: {}".format(end_bounds))
 
             after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
             assert(len(after_remix) + len(start_bounds) + len(end_bounds) == len(tokens))
@@ -140,7 +142,7 @@ def build_remix_matrix(knowledge_base, tokens, atom, similar):
     tokens, matcher, result = make_template(knowledge_base, tokens, atom)
     similar_matcher, similar_result, similar_result_resolved, _, _ = similar
 
-    start_bounds, end_bounds = find_bounds(matcher, similar_matcher)
+    start_bounds, end_bounds = find_bounds(knowledge_base, matcher, similar_matcher)
 
     for i, element in (end_bounds + start_bounds[::-1]):
         matcher.pop(i)
@@ -195,13 +197,21 @@ def all_matching_indexes(knowledge_base, collection, element):
             instance = knowledge_base.knowledge[instance]["groups"]
 
         intersection = set(instance) & set(element)
-        if len(intersection) > 0:
+        if (len(intersection) > 0 or (0 == len(instance) == len(element))):
             indexes.append((i, intersection))
 
     return [x[0] for x in sorted(indexes, key=lambda x: len(x[1]), reverse=True)]
 
 
-def find_bounds(matcher, similar_matcher):
+def element_matches_groups(knowledge, element: Dict, groups):
+    if isinstance(groups, str) and groups in knowledge:
+        return len(knowledge[element].get("groups", set()) & element['groups']) > 0
+    elif isinstance(groups, dict):
+        return len(element.get("groups", set()) & element['groups']) > 0
+    return False
+
+
+def find_bounds(knowledge, matcher, similar_matcher):
     start_bounds = []
     for i, element in enumerate(matcher):
         if element in similar_matcher:
@@ -211,7 +221,15 @@ def find_bounds(matcher, similar_matcher):
 
     end_bounds = []
     for i, element in enumerate(matcher[::-1]):
-        if element in similar_matcher:
+        in_similar = False
+        if isinstance(element, str):
+            in_similar = element in similar_matcher
+        elif isinstance(element, dict):
+            in_similar = any(map(lambda groups: element_matches_groups(knowledge.knowledge,
+                                                                       element, groups),
+                                 similar_matcher))
+
+        if in_similar:
             break
         else:
             end_bounds.append((len(matcher) - (i + 1), element))

From 9ed43aa36204722d41363b0d159d489e0365db3b Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:16:30 +0200
Subject: [PATCH 22/69] Return None when a matrix cannot be applied.

---
 naive-nlu/tree_nlu/parsing.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 13436bd..265bd59 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -130,6 +130,8 @@ def apply_remix(tokens, remix):
     rebuilt = []
     for i in remix:
         if isinstance(i, int):
+            if i >= len(tokens):
+                return None
             rebuilt.append(tokens[i])
         else:
             assert(isinstance(i, str))

From a7f70d2888fa346e0e5fd5192b1737240fbb7f42 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:17:57 +0200
Subject: [PATCH 23/69] Unlock 7th GAC 100.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 22 +++++++++++++++-------
 1 file changed, 15 insertions(+), 7 deletions(-)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index b5021ec..554c4b6 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -69,13 +69,21 @@ examples = [
          "parsed": ("question",
                     ("property-has-value", 'chile', 'location', 'south america')),
          "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('south america' in knowledge.knowledge['chile']['location'])
+         ),],
+     }),
+    ('full_example',
+     {
+         "text": "Was Socrates a man?",
+         "affirmation": "Socrates was a man",
+         "parsed": ("question",
+                    ("pertenence-to-group", 'socrates', 'man')),
+         "answer": True,
+         "after_execution": [(
+             lambda knowledge: _assert('man' in knowledge.knowledge['socrates']['groups'])
+         ),],
      }),
-    # {
-    #     "text": "Was Socrates a man?",
-    #     "affirmation": "Was Socrates a man?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
     # {
     #     "text": "Computers use electricity?",
     #     "affirmation": "Computers use electricity?",
@@ -666,7 +674,7 @@ base_knowledge = {
     },
     'chile': {
         "groups": {'noun'},
-    }
+    },
 }
 
 def main():

From 8e304b2a09902a01d67ded3a32056ccc9e511df6 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:25:53 +0200
Subject: [PATCH 24/69] Always create the "groups" set for new elements.

This allows a smaller initial knowledge base.
---
 naive-nlu/tree_nlu/knowledge_evaluation.py |  8 ++++----
 naive-nlu/tree_nlu/tests/gac_100.py        | 12 ------------
 2 files changed, 4 insertions(+), 16 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 5cc4f65..524bd56 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -133,13 +133,13 @@ def pertenence_to_group(knowledge_base, elements, subj, group):
     group = resolve(knowledge_base, elements, group)
 
     if subj not in knowledge_base:
-        knowledge_base[subj] = {}
+        knowledge_base[subj] = {'groups': set()}
 
     if "groups" not in knowledge_base[subj]:
         knowledge_base[subj]["groups"] = set()
 
     if group not in knowledge_base:
-        knowledge_base[group] = {}
+        knowledge_base[group] = {'groups': set()}
 
     if "groups" not in knowledge_base[group]:
         knowledge_base[group]["groups"] = set()
@@ -179,7 +179,7 @@ def implies(knowledge_base, elements, precedent, consequent):
     consequent = resolve(knowledge_base, elements, consequent)
 
     if precedent not in knowledge_base:
-        knowledge_base[precedent] = {}
+        knowledge_base[precedent] = {'groups': set()}
 
     if "implications" not in knowledge_base[precedent]:
         knowledge_base[precedent]["implications"] = set()
@@ -197,7 +197,7 @@ def property_has_value(knowledge_base, elements, subj, prop, value):
     value = resolve(knowledge_base, elements, value)
 
     if subj not in knowledge_base:
-        knowledge_base[subj] = {}
+        knowledge_base[subj] = {'groups': set()}
 
     if prop not in knowledge_base[subj]:
         knowledge_base[subj][prop] = set()
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 554c4b6..5716568 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -648,33 +648,21 @@ base_knowledge = {
     'icecream': {
         "groups": {'noun', 'object', 'comestible', 'sweet'},
     },
-    'cold': {
-        "groups": {'property', 'temperature'},
-    },
     'hot': {
         "groups": {'property', 'temperature'},
     },
     'summer': {
         "groups": {'epoch'},
     },
-    'earth': {
-        "groups": {'noun', 'object', 'planet'},
-    },
     'planet': {
         "groups": {'noun', 'group'},
     },
-    'color': {
-        "groups": {'property', 'group'},
-    },
     'green': {
         "groups": {'noun', 'color', 'concept'},
     },
     'fly': {
         "groups": {'verb'},
     },
-    'chile': {
-        "groups": {'noun'},
-    },
 }
 
 def main():

From e0a5f02c34eecff1a7f4ef8046c6bccc15f9c814 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 22:37:44 +0200
Subject: [PATCH 25/69] Add progress bar visuals to tests.

---
 naive-nlu/tree_nlu/test.py          |  6 +++---
 naive-nlu/tree_nlu/tests/gac_100.py | 14 +++++++++++++-
 naive-nlu/tree_nlu/utils/visuals.py | 15 +++++++++++++++
 3 files changed, 31 insertions(+), 4 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/utils/visuals.py

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index ec57f8b..810e3c8 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -17,13 +17,13 @@ def main():
             test_module.main()
             print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
-            print(" \x1b[1;31m✗\x1b[0m {}".format(test_name,
-                                                  (' : [Assertion] {}'.format(ae.args[0])) if len(ae.args) > 0
+            print(" \x1b[1;31m✗\x1b[0m {}{}".format(test_name,
+                                                  ('\n [Assertion] {}'.format(ae.args[0])) if len(ae.args) > 0
                                                    else ''))
             failed = True
 
         except Exception as e:
-            print(" \x1b[1;7;31m!\x1b[0m {} : [Exception] {}".format(test_name, e))
+            print(" \x1b[1;7;31m!\x1b[0m {}\n [Exception] {}".format(test_name, e))
             failed = True
             traceback.print_exc()
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 5716568..b2c31e0 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,4 +1,5 @@
 from ..knowledge_base import KnowledgeBase
+from ..utils.visuals import show_progbar
 
 def _assert(args):
     assert(args)
@@ -670,14 +671,20 @@ def main():
         knowledge=base_knowledge,
     )
 
-    for example_type, data in examples:
+    total = len(examples)
+
+    for i, (example_type, data) in enumerate(examples):
         if example_type == 'full_example':
             affirmation = {
                 'text': data['affirmation'],
                 'parsed': data['parsed'][1],
             }
             question = data
+
+            show_progbar(i, total, data['affirmation'])
             differences = knowledge.train([affirmation])
+
+            show_progbar(i, total, data['text'])
             differences = knowledge.train([question])
 
             result, _, _ = knowledge.process(data['text'])
@@ -690,7 +697,10 @@ def main():
                     f(knowledge)
 
         elif example_type == 'text_example':
+            show_progbar(i, total, data['affirmation'])
             affirmation = data['affirmation']
+
+            show_progbar(i, total, data['question'])
             question = data['question']
 
             _, _, _ = knowledge.process(affirmation)
@@ -701,3 +711,5 @@ def main():
 
         else:
             raise NotImplementedError('Example type: {}'.format(example_type))
+
+        print("\r\x1b[K", end='')
diff --git a/naive-nlu/tree_nlu/utils/visuals.py b/naive-nlu/tree_nlu/utils/visuals.py
new file mode 100644
index 0000000..a6dd611
--- /dev/null
+++ b/naive-nlu/tree_nlu/utils/visuals.py
@@ -0,0 +1,15 @@
+def show_progbar(done, total, msg=''):
+    total_blocks = 10
+    blocks_done = (done * total_blocks) // total
+    blocks_to_go = total_blocks - blocks_done
+
+    print('\r\x1b[K'  # Go to the start of the line
+          '\x1b[0m'   # Restart the "style"
+          '|'  # Put the first "|"
+          + blocks_done  * '█' # Completed blocks
+          + blocks_to_go * ' ' # Uncompleted blocks
+          + '\x1b[7m|\x1b[0m'  # End the bar
+          + ' '
+          + msg  # Add message
+          + '\r' # Go back to the start
+          , end='')

From aa7bee4c8be33f2bba2d404575b70e4a2e89e036 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 24 May 2017 23:54:56 +0200
Subject: [PATCH 26/69] Add perform-verb-over-object and (failing) test.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 21 +++++++++++++++++++++
 naive-nlu/tree_nlu/tests/gac_100.py        | 19 +++++++++++++------
 2 files changed, 34 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 524bd56..031fd2d 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -208,6 +208,26 @@ def property_has_value(knowledge_base, elements, subj, prop, value):
         element=value
     )
 
+def perform_verb_over_object(knowledge_base, elements, subj, verb, obj):
+    subj = resolve(knowledge_base, elements, subj)
+    verb = resolve(knowledge_base, elements, verb)
+    obj = resolve(knowledge_base, elements, obj)
+
+    if subj not in knowledge_base:
+        knowledge_base[subj] = {'groups': set()}
+
+    if 'performs-over' not in knowledge_base[subj]:
+        knowledge_base[subj]['performs-over'] = {}
+
+    if verb not in knowledge_base[subj]['performs-over']:
+        knowledge_base[subj]['performs-over'][verb] = set()
+
+    return modifiable_element_for_existance_in_set(
+        container=knowledge_base[subj]['performs-over'],
+        set_name=verb,
+        element=obj
+    )
+
 
 knowledge_ingestion = {
     "exists-property-with-value": exists_property_with_value,
@@ -216,6 +236,7 @@ knowledge_ingestion = {
     "question": question,
     "implies": implies,
     "property-has-value": property_has_value,
+    "perform-verb-over-object": perform_verb_over_object,
 }
 
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index b2c31e0..7dc7b60 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -85,12 +85,13 @@ examples = [
              lambda knowledge: _assert('man' in knowledge.knowledge['socrates']['groups'])
          ),],
      }),
-    # {
-    #     "text": "Computers use electricity?",
-    #     "affirmation": "Computers use electricity?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('full_example',{
+        "text": "Computers use electricity?",
+        "affirmation": "Computers use electricity",
+        "parsed": ("question",
+                   ('perform-verb-over-object', 'computers', 'use', 'electricity')),
+        "answer": True,
+    }),
     # {
     #     "text": "The dominant language in france is french?",
     #     "affirmation": "The dominant language in france is french?",
@@ -664,6 +665,12 @@ base_knowledge = {
     'fly': {
         "groups": {'verb'},
     },
+    'use': {
+        "groups": {'verb'},
+    },
+    'electricity': {
+        "groups": {},
+    },
 }
 
 def main():

From 9d49d0068820d6144056f075521c5f15fd4d68c0 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 28 May 2017 22:39:04 +0200
Subject: [PATCH 27/69] Work in progress.

 * Test
 * More debugging
 * Base concept
---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 15 ++++++++
 naive-nlu/tree_nlu/parsing.py              | 40 +++++++++++++++++++---
 naive-nlu/tree_nlu/test.py                 |  2 +-
 naive-nlu/tree_nlu/tests/gac_100.py        | 15 +++++---
 4 files changed, 62 insertions(+), 10 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 031fd2d..bbc8ef0 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -1,3 +1,5 @@
+import logging
+
 from .modifiable_property import (
     ModifiableProperty,
     ModifiablePropertyWithAst,
@@ -9,6 +11,7 @@ def resolve(knowledge_base, elements, value):
     if isinstance(value, int):
         return elements[value]
     elif isinstance(value, tuple) or isinstance(value, list):
+        print("V:", value, elements)
         return integrate_information(knowledge_base, {
             "elements": elements,
             "parsed": value,
@@ -100,11 +103,17 @@ def exists_property_with_value(knowledge_base, elements, subj, value):
 
 
 def modifiable_element_for_existance_in_set(container, set_name, element):
+    print("-----({} {} {})".format(container, set_name, element))
+    import traceback
+    # traceback.print_stack()
+
     def getter():
         nonlocal container, set_name, element
+        print("  get({} {} {})".format(container, set_name, element))
         return (set_name in container) and (element in container[set_name])
 
     def setter():
+        print("  add({} {} {})".format(container, set_name, element))
         nonlocal container, set_name, element
         return container[set_name].add(element)
 
@@ -212,6 +221,7 @@ def perform_verb_over_object(knowledge_base, elements, subj, verb, obj):
     subj = resolve(knowledge_base, elements, subj)
     verb = resolve(knowledge_base, elements, verb)
     obj = resolve(knowledge_base, elements, obj)
+    logging.debug("({} {} {})".format(verb, subj, obj))
 
     if subj not in knowledge_base:
         knowledge_base[subj] = {'groups': set()}
@@ -255,6 +265,11 @@ def integrate_information(knowledge_base, example):
     args = ast[1:]
     elements = example.get('elements', None)
 
+    logging.debug("Integrating:")
+    logging.debug("AST: {}".format(ast))
+    logging.debug("ARG: {}".format(elements))
+    logging.debug("------------")
+
     return tagged_with_ast(
         ast, elements,
         knowledge_ingestion[method](knowledge_base, elements, *args))
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 265bd59..c5b71fb 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -20,6 +20,9 @@ def to_tokens(text):
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
     template = list(parsed)
+    logging.debug(" -- MK TEMPLATE --")
+    logging.debug("MATCHR: {}".format(matcher))
+    logging.debug("TEMPLT: {}".format(template))
     for i in range(len(matcher)):
         word = matcher[i]
         if word in template:
@@ -56,6 +59,11 @@ def get_lower_levels(parsed):
 
 # TODO: probably optimize this, it creates lots of unnecessary tuples
 def replace_position(tree, position, new_element):
+    logging.debug("REPLACE POSITIONS:")
+    logging.debug("  TREE  : {}".format(tree))
+    logging.debug("POSITION: {}".format(position))
+    logging.debug("NEW ELEM: {}".format(new_element))
+    logging.debug("------------------")
 
     def aux(current_tree, remaining_route):
         if len(remaining_route) == 0:
@@ -69,7 +77,9 @@ def replace_position(tree, position, new_element):
                 + tree[step + 2:]
             )
 
-    return aux(tree, position)
+    result = aux(tree, position)
+    logging.debug("-RESULT: {}".format(result))
+    return result
 
 
 def integrate_language(knowledge_base, example):
@@ -90,15 +100,23 @@ def integrate_language(knowledge_base, example):
             logging.debug("\x1b[1mSelecting\x1b[0m: {}".format(atom))
             similar = get_similar_tree(knowledge_base, atom, tokens)
             remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
-            _, matcher, result = make_template(knowledge_base, tokens, atom)
-            logging.debug("Tx: {}".format(tokens))
+
+            after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
+            logging.debug("--FIND MIX--")
+            logging.debug("-MIX- | {}".format(remix))
+            logging.debug("-FRM- | {}".format(tokens))
+            logging.debug("-AFT- | {}".format(after_remix))
+
+            print()
+
+            _, matcher, result = make_template(knowledge_base, after_remix, atom)
+            logging.debug("Tx: {}".format(after_remix))
             logging.debug("Mx: {}".format(matcher))
             logging.debug("Rx: {}".format(result))
-            logging.debug("Remix: {}".format(remix))
             logging.debug("Sx: {}".format(start_bounds))
             logging.debug("Ex: {}".format(end_bounds))
 
-            after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
+
             assert(len(after_remix) + len(start_bounds) + len(end_bounds) == len(tokens))
             logging.debug( "  +-> {}".format(after_remix))
             subquery_type = knowledge_evaluation.get_subquery_type(knowledge_base.knowledge, atom)
@@ -115,6 +133,8 @@ def integrate_language(knowledge_base, example):
             tokens = new_tokens
 
             resolved_parsed = replace_position(resolved_parsed, position, offset)
+            logging.debug("RP: {}".format(resolved_parsed))
+            logging.debug("AT: {}".format(atom))
             logging.debug("#########")
 
 
@@ -382,11 +402,20 @@ def resolve_fit(knowledge, fit, remaining_recursions):
             if remixed_tokens is None:
                 return None
 
+            # if len(tokens) == 3 and tokens[2] == 'electricity':
+            #     logging.debug("--UNMIX--")
+            #     logging.debug("-MIX- | {}".format(remixer))
+            #     logging.debug("REMIX | {}".format(tokens))
+            #     logging.debug(" T O  | {}".format(remixed_tokens))
+            #     if remixer != [0, 1, 2]:
+            #         return None
+
             minifit = get_fit(knowledge, remixed_tokens, remaining_recursions - 1)
             if minifit is None:
                 return None
 
             minitokens, miniast = minifit
+            logging.debug(" AST | {}".format(miniast))
             subproperty = knowledge_evaluation.resolve(knowledge.knowledge, minitokens, miniast)
             fitted.append(subproperty)
 
@@ -424,6 +453,7 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
 
     resolved_fits = []
     for fit, _ in fully_matched_segments:
+        print(":::", fit)
         resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
         if resolved_fit is not None:
             resolved_fits.append(resolved_fit)
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 810e3c8..1692e9a 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -3,7 +3,7 @@ import logging
 from .tests import basic
 from .tests import gac_100
 
-logging.getLogger().setLevel(logging.ERROR)
+logging.getLogger().setLevel(logging.DEBUG)
 
 tests = (
     ("basic", basic),
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 7dc7b60..5e331b9 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -91,6 +91,9 @@ examples = [
         "parsed": ("question",
                    ('perform-verb-over-object', 'computers', 'use', 'electricity')),
         "answer": True,
+        "after_execution": [(
+            lambda knowledge: print("->", knowledge.knowledge['computers'])
+        ),],
     }),
     # {
     #     "text": "The dominant language in france is french?",
@@ -665,11 +668,14 @@ base_knowledge = {
     'fly': {
         "groups": {'verb'},
     },
+    'computers': {
+        "groups": {'object'},
+    },
     'use': {
         "groups": {'verb'},
     },
     'electricity': {
-        "groups": {},
+        "groups": {'power'},
     },
 }
 
@@ -693,16 +699,17 @@ def main():
 
             show_progbar(i, total, data['text'])
             differences = knowledge.train([question])
+            print(differences())
 
             result, _, _ = knowledge.process(data['text'])
 
-            if result != data['answer']:
-                raise AssertionError('{} is not {}'.format(result, data['answer']))
-
             if "after_execution" in data:
                 for f in data["after_execution"]:
                     f(knowledge)
 
+            if result != data['answer']:
+                raise AssertionError('{} is not {}'.format(result, data['answer']))
+
         elif example_type == 'text_example':
             show_progbar(i, total, data['affirmation'])
             affirmation = data['affirmation']

From d3b604efca6599fe1cdaf154b596747807e3368f Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Mon, 29 May 2017 23:23:53 +0200
Subject: [PATCH 28/69] Visualize & use more data.

 * Visualize more steps in the process.
 * Collect more possibilities in get_fit().
---
 naive-nlu/tree_nlu/parsing.py | 28 +++++++++++++++++++++++-----
 1 file changed, 23 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index c5b71fb..f164d0b 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -297,6 +297,14 @@ def get_similar_tree(knowledge_base, atom, tokens):
     if len(sorted_possibilities) < 1:
         return None
 
+    for i, possibility in enumerate(sorted_possibilities):
+        logging.debug('---- POSSIBILITY #{} ----'.format(i))
+        similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
+        logging.debug('AST: {}'.format(similar_result))
+        logging.debug('Based on: {}'.format(similar_matcher))
+        logging.debug('Results on: {}'.format(similar_result_resolved))
+        logging.debug('---------------------')
+
     return sorted_possibilities[0]
 
 
@@ -356,7 +364,7 @@ def reverse_remix(tree_section, remix):
     offset = 0
     for origin in remix:
         if isinstance(origin, int):
-            if origin >= len(tree_section):
+            if (origin + offset) >= len(tree_section):
                 return None
 
             result_section.append(copy.deepcopy(tree_section[origin + offset]))
@@ -367,13 +375,18 @@ def reverse_remix(tree_section, remix):
 
 
 def get_fit(knowledge, tokens, remaining_recursions=parameters.MAX_RECURSIONS):
+    results = []
     for matcher, ast in knowledge.trained:
         result = match_fit(knowledge, tokens, matcher, ast,
                            remaining_recursions)
-        if result is not None:
-            return result
 
-    return None
+        if result is not None:
+            results.append(result)
+            print("XXX", result)
+
+    print(' - ' + '\n - '.join(map(str, results)))
+    if len(results) > 0:
+        return results[0]
 
 
 def is_definite_minisegment(minisegment):
@@ -424,6 +437,7 @@ def resolve_fit(knowledge, fit, remaining_recursions):
 
 def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
     segment_possibilities = [([], tokens)]  # Matched tokens, remaining tokens
+    indent = ' ' * (parameters.MAX_RECURSIONS - remaining_recursions)
     for minisegment in matcher:
         possibilities_after_round = []
         for matched_tokens, remaining_tokens in segment_possibilities:
@@ -453,7 +467,11 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
 
     resolved_fits = []
     for fit, _ in fully_matched_segments:
-        print(":::", fit)
+        print(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+
+    print(indent + '*' * 20)
+    for fit, _ in fully_matched_segments:
+        print(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
         resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
         if resolved_fit is not None:
             resolved_fits.append(resolved_fit)

From 0fbb9238ebc0a1ed451084f3d8677c098d55c5d7 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 4 Jun 2017 18:53:10 +0200
Subject: [PATCH 29/69] Extract more contextual info from the words.

A property dictionary is now only to be considered equal to a word
when it shares at least one group, or neither has groups.
---
 naive-nlu/tree_nlu/knowledge_base.py       |  1 -
 naive-nlu/tree_nlu/knowledge_evaluation.py | 18 ++++++++++++++++++
 naive-nlu/tree_nlu/parsing.py              |  3 +--
 naive-nlu/tree_nlu/tests/basic.py          |  6 ++++++
 naive-nlu/tree_nlu/tests/gac_100.py        | 14 +++++++++++---
 5 files changed, 36 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 31c84a1..33bd9e9 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -22,7 +22,6 @@ class KnowledgeBase(object):
         knowledge_before = copy.deepcopy(self.knowledge)
 
         # Parse everything
-        parsed_examples = []
         for example in examples:
             # If there's parsed data, leverage it ASAP
             if 'parsed' in example:
diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index bbc8ef0..2e71712 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -273,3 +273,21 @@ def integrate_information(knowledge_base, example):
     return tagged_with_ast(
         ast, elements,
         knowledge_ingestion[method](knowledge_base, elements, *args))
+
+def can_be_used_in_place(knowledge, token, minisegment):
+    if token not in knowledge.knowledge:
+        return False
+
+    info = knowledge.knowledge[token]
+    info_groups = info.get('groups', set())
+    minisegment_groups = minisegment.get('groups', set())
+
+    # Common group
+    if len(info_groups & minisegment_groups) > 0:
+        return True
+
+    # Neither has a group
+    elif len(info_groups) == 0 == len(minisegment_groups):
+        return True
+
+    return False
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index f164d0b..5352812 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -395,8 +395,7 @@ def is_definite_minisegment(minisegment):
 
 def match_token(knowledge, next_token, minisegment):
     if isinstance(minisegment, dict):
-        # TODO: check if the dictionary matches the values
-        return True
+        return knowledge_evaluation.can_be_used_in_place(knowledge, next_token, minisegment)
     elif isinstance(minisegment, str):
         # TODO: check if the two elements can be used in each other place
         return next_token == minisegment
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 450e7e0..d5d959a 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -98,6 +98,12 @@ base_knowledge = {
     'fly': {
         "groups": {'verb'},
     },
+    'bus': {
+        "groups": {'noun'},
+    },
+    'run': {
+        "groups": {'verb'},
+    },
     'swim': {
         "groups": {'verb'},
     },
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 5e331b9..daaa696 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,3 +1,4 @@
+import logging
 from ..knowledge_base import KnowledgeBase
 from ..utils.visuals import show_progbar
 
@@ -109,7 +110,7 @@ examples = [
     # },
     ('text_example',
      {
-         "question": "Is milk white?",
+         "question": "is milk white?",
          "affirmation": "milk is white",
          "answer": True,
      }),
@@ -662,9 +663,15 @@ base_knowledge = {
     'planet': {
         "groups": {'noun', 'group'},
     },
+    'white': {
+        "groups": {'noun', 'color', 'concept', 'property'},
+    },
     'green': {
         "groups": {'noun', 'color', 'concept'},
     },
+    'milk': {
+        "groups": {'noun'},
+    },
     'fly': {
         "groups": {'verb'},
     },
@@ -713,11 +720,12 @@ def main():
         elif example_type == 'text_example':
             show_progbar(i, total, data['affirmation'])
             affirmation = data['affirmation']
+            logging.debug("Processing affirmation: {}".format(affirmation))
+            _, _, _ = knowledge.process(affirmation)
 
             show_progbar(i, total, data['question'])
             question = data['question']
-
-            _, _, _ = knowledge.process(affirmation)
+            logging.debug("Processing question : {}".format(question))
             result, _, _ = knowledge.process(question)
 
             if result != data['answer']:

From b16df096d7aa52e84b700863ca14de4b0f3d39c8 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Mon, 12 Jun 2017 16:02:58 +0200
Subject: [PATCH 30/69] Add new GAC100 test example.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 38 +++++++++++++++++------------
 1 file changed, 22 insertions(+), 16 deletions(-)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index daaa696..c55bdec 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -86,22 +86,25 @@ examples = [
              lambda knowledge: _assert('man' in knowledge.knowledge['socrates']['groups'])
          ),],
      }),
-    ('full_example',{
-        "text": "Computers use electricity?",
-        "affirmation": "Computers use electricity",
-        "parsed": ("question",
-                   ('perform-verb-over-object', 'computers', 'use', 'electricity')),
-        "answer": True,
-        "after_execution": [(
-            lambda knowledge: print("->", knowledge.knowledge['computers'])
-        ),],
-    }),
-    # {
-    #     "text": "The dominant language in france is french?",
-    #     "affirmation": "The dominant language in france is french?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    ('full_example',
+     {
+         "text": "Computers use electricity?",
+         "affirmation": "Computers use electricity",
+         "parsed": ("question",
+                    ('perform-verb-over-object', 'computers', 'use', 'electricity')),
+         "answer": True,
+         "after_execution": [(
+             lambda knowledge: print("->", knowledge.knowledge['computers'])
+         ),],
+     }),
+    ('full_example',
+     {
+         "text": "The dominant language in france is french?",
+         "affirmation": "The dominant language in france is french",
+         "parsed": ("question",
+                    ("property-has-value", "france", "dominant-language", "french")),
+         "answer": True,
+     }),
     # {
     #     "text": "was abraham lincoln once president of the united states?",
     #     "affirmation": "was abraham lincoln once president of the united states?",
@@ -684,6 +687,9 @@ base_knowledge = {
     'electricity': {
         "groups": {'power'},
     },
+    'french': {
+        "groups": {'language'},
+    }
 }
 
 def main():

From fae11eb87538b0557234cfafb2f1faccd7754458 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 17 Sep 2017 21:28:25 -0400
Subject: [PATCH 31/69] Change prints into loggings.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 10 +++-----
 naive-nlu/tree_nlu/parsing.py              | 29 +++++++++++-----------
 naive-nlu/tree_nlu/test.py                 |  3 ++-
 naive-nlu/tree_nlu/tests/gac_100.py        |  6 ++---
 4 files changed, 24 insertions(+), 24 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 2e71712..2a87077 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -11,7 +11,7 @@ def resolve(knowledge_base, elements, value):
     if isinstance(value, int):
         return elements[value]
     elif isinstance(value, tuple) or isinstance(value, list):
-        print("V:", value, elements)
+        logging.debug("V: {} {}".format(value, elements))
         return integrate_information(knowledge_base, {
             "elements": elements,
             "parsed": value,
@@ -103,17 +103,15 @@ def exists_property_with_value(knowledge_base, elements, subj, value):
 
 
 def modifiable_element_for_existance_in_set(container, set_name, element):
-    print("-----({} {} {})".format(container, set_name, element))
-    import traceback
-    # traceback.print_stack()
+    logging.debug("-----({} {} {})".format(container, set_name, element))
 
     def getter():
         nonlocal container, set_name, element
-        print("  get({} {} {})".format(container, set_name, element))
+        logging.debug("  get({} {} {})".format(container, set_name, element))
         return (set_name in container) and (element in container[set_name])
 
     def setter():
-        print("  add({} {} {})".format(container, set_name, element))
+        logging.debug("  add({} {} {})".format(container, set_name, element))
         nonlocal container, set_name, element
         return container[set_name].add(element)
 
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 5352812..65ebf26 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -107,7 +107,7 @@ def integrate_language(knowledge_base, example):
             logging.debug("-FRM- | {}".format(tokens))
             logging.debug("-AFT- | {}".format(after_remix))
 
-            print()
+            logging.debug("--- TEMPLATE ---")
 
             _, matcher, result = make_template(knowledge_base, after_remix, atom)
             logging.debug("Tx: {}".format(after_remix))
@@ -382,9 +382,9 @@ def get_fit(knowledge, tokens, remaining_recursions=parameters.MAX_RECURSIONS):
 
         if result is not None:
             results.append(result)
-            print("XXX", result)
+            logging.debug("XXX {}".format(result))
 
-    print(' - ' + '\n - '.join(map(str, results)))
+    logging.debug(' - ' + '\n - '.join(map(str, results)))
     if len(results) > 0:
         return results[0]
 
@@ -414,14 +414,6 @@ def resolve_fit(knowledge, fit, remaining_recursions):
             if remixed_tokens is None:
                 return None
 
-            # if len(tokens) == 3 and tokens[2] == 'electricity':
-            #     logging.debug("--UNMIX--")
-            #     logging.debug("-MIX- | {}".format(remixer))
-            #     logging.debug("REMIX | {}".format(tokens))
-            #     logging.debug(" T O  | {}".format(remixed_tokens))
-            #     if remixer != [0, 1, 2]:
-            #         return None
-
             minifit = get_fit(knowledge, remixed_tokens, remaining_recursions - 1)
             if minifit is None:
                 return None
@@ -437,27 +429,36 @@ def resolve_fit(knowledge, fit, remaining_recursions):
 def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
     segment_possibilities = [([], tokens)]  # Matched tokens, remaining tokens
     indent = ' ' * (parameters.MAX_RECURSIONS - remaining_recursions)
+    logging.debug(indent + 'T>', tokens)
+    logging.debug(indent + 'M>', matcher)
     for minisegment in matcher:
         possibilities_after_round = []
+        logging.debug(indent + "MS", minisegment)
         for matched_tokens, remaining_tokens in segment_possibilities:
             if len(remaining_tokens) < 1:
                 continue
 
+            logging.debug(indent + "RT", remaining_tokens[0])
+            logging.debug(indent + "DEF", is_definite_minisegment(minisegment))
             if is_definite_minisegment(minisegment):
+                # What if not match -----<
                 if match_token(knowledge, remaining_tokens[0], minisegment):
                     possibilities_after_round.append((
                         matched_tokens + [remaining_tokens[0]],
                         remaining_tokens[1:]
                     ))
             else:
+                # What if not match!!!!!!-----<
                 # TODO: optimize this with a look ahead
                 for i in range(1, len(tokens)):
                     possibilities_after_round.append((
                         matched_tokens + [(minisegment, remaining_tokens[:i])],
                         remaining_tokens[i:]
                     ))
+            logging.debug(indent + "## PA", len(possibilities_after_round))
         else:
             segment_possibilities = possibilities_after_round
+            logging.debug(">>>> {}".format(len(segment_possibilities)))
 
     fully_matched_segments = [(matched, remaining)
                               for (matched, remaining)
@@ -466,11 +467,11 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
 
     resolved_fits = []
     for fit, _ in fully_matched_segments:
-        print(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        logging.debug(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
 
-    print(indent + '*' * 20)
+    logging.debug(indent + '*' * 20)
     for fit, _ in fully_matched_segments:
-        print(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        logging.debug(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
         resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
         if resolved_fit is not None:
             resolved_fits.append(resolved_fit)
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 1692e9a..49ab053 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -3,7 +3,7 @@ import logging
 from .tests import basic
 from .tests import gac_100
 
-logging.getLogger().setLevel(logging.DEBUG)
+logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
     ("basic", basic),
@@ -26,6 +26,7 @@ def main():
             print(" \x1b[1;7;31m!\x1b[0m {}\n [Exception] {}".format(test_name, e))
             failed = True
             traceback.print_exc()
+            raise
 
     if failed:
         exit(1)
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index c55bdec..74adb20 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -6,7 +6,7 @@ def _assert(args):
     assert(args)
 
 def _assert_msg(args, msg):
-    assert(args, msg)
+    assert args, msg
 
 examples = [
     ('full_example',
@@ -94,7 +94,7 @@ examples = [
                     ('perform-verb-over-object', 'computers', 'use', 'electricity')),
          "answer": True,
          "after_execution": [(
-             lambda knowledge: print("->", knowledge.knowledge['computers'])
+             lambda knowledge: _assert('electricity' in knowledge.knowledge['computers']['performs-over']['use'])
          ),],
      }),
     ('full_example',
@@ -712,7 +712,7 @@ def main():
 
             show_progbar(i, total, data['text'])
             differences = knowledge.train([question])
-            print(differences())
+            logging.debug(differences())
 
             result, _, _ = knowledge.process(data['text'])
 

From d23329b019bd21147544915d388e578c509ca166 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 17 Sep 2017 22:01:59 -0400
Subject: [PATCH 32/69] Add cli base.

---
 naive-nlu/cli.py                    |  4 ++++
 naive-nlu/tree_nlu/cli.py           | 34 +++++++++++++++++++++++++++++
 naive-nlu/tree_nlu/tests/basic.py   |  1 +
 naive-nlu/tree_nlu/tests/gac_100.py |  1 +
 4 files changed, 40 insertions(+)
 create mode 100644 naive-nlu/cli.py
 create mode 100644 naive-nlu/tree_nlu/cli.py

diff --git a/naive-nlu/cli.py b/naive-nlu/cli.py
new file mode 100644
index 0000000..b268191
--- /dev/null
+++ b/naive-nlu/cli.py
@@ -0,0 +1,4 @@
+from tree_nlu import cli
+
+if __name__ == '__main__':
+    cli.main()
diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
new file mode 100644
index 0000000..701347e
--- /dev/null
+++ b/naive-nlu/tree_nlu/cli.py
@@ -0,0 +1,34 @@
+import logging
+from .knowledge_base import KnowledgeBase
+from .tests import gac_100
+from .modifiable_property import (
+    ModifiableProperty,
+    ModifiablePropertyWithAst,
+    is_modifiable_property,
+)
+
+
+bye_phrases = ['bye', 'exit']
+
+def main():
+    knowledge = gac_100.main()
+    while True:
+        try:
+            data = input("> ").strip()
+        except EOFError:
+            print("bye")
+            break
+        if data.lower() in bye_phrases:
+            break
+        if not data:
+            continue
+
+        ret = knowledge.process(data)
+        if ret:
+            result, _, _ = ret
+            if not is_modifiable_property(result):
+                print("<", result)
+            else:
+                result.setter()
+                print("OK")
+    print("< Bye!")
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index d5d959a..b570608 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -155,3 +155,4 @@ def main():
 
     test_assumption(False, knowledge, queryFalse)
     test_assumption(True, knowledge, queryTrue)
+    return knowledge
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 74adb20..d6c09a9 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -741,3 +741,4 @@ def main():
             raise NotImplementedError('Example type: {}'.format(example_type))
 
         print("\r\x1b[K", end='')
+        return knowledge

From 4e8f82c0a55bd3e7a1227d752f5a1f3e6a5e6ecc Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 20 Sep 2017 21:04:04 -0400
Subject: [PATCH 33/69] Add debug command.

---
 naive-nlu/tree_nlu/cli.py | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index 701347e..1306d83 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -1,4 +1,3 @@
-import logging
 from .knowledge_base import KnowledgeBase
 from .tests import gac_100
 from .modifiable_property import (
@@ -10,6 +9,12 @@ from .modifiable_property import (
 
 bye_phrases = ['bye', 'exit']
 
+
+def debug(knowledge):
+    for key in knowledge.knowledge:
+        print("\x1b[1m{}\x1b[0m {}".format(key, knowledge.knowledge[key]))
+
+
 def main():
     knowledge = gac_100.main()
     while True:
@@ -23,6 +28,10 @@ def main():
         if not data:
             continue
 
+        if data == '/debug':
+            debug(knowledge)
+            continue
+
         ret = knowledge.process(data)
         if ret:
             result, _, _ = ret

From 16a895dc227b23f91bc4efe70b7e68d25379c51c Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 20 Sep 2017 21:11:08 -0400
Subject: [PATCH 34/69] Fix debugging logging formats.

---
 naive-nlu/tree_nlu/parsing.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 65ebf26..632a959 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -429,17 +429,17 @@ def resolve_fit(knowledge, fit, remaining_recursions):
 def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
     segment_possibilities = [([], tokens)]  # Matched tokens, remaining tokens
     indent = ' ' * (parameters.MAX_RECURSIONS - remaining_recursions)
-    logging.debug(indent + 'T>', tokens)
-    logging.debug(indent + 'M>', matcher)
+    logging.debug(indent + 'T> {}'.format(tokens))
+    logging.debug(indent + 'M> {}'.format(matcher))
     for minisegment in matcher:
         possibilities_after_round = []
-        logging.debug(indent + "MS", minisegment)
+        logging.debug(indent + "MS {}".format(minisegment))
         for matched_tokens, remaining_tokens in segment_possibilities:
             if len(remaining_tokens) < 1:
                 continue
 
-            logging.debug(indent + "RT", remaining_tokens[0])
-            logging.debug(indent + "DEF", is_definite_minisegment(minisegment))
+            logging.debug(indent + "RT {}".format(remaining_tokens[0]))
+            logging.debug(indent + "DEF {}".format(is_definite_minisegment(minisegment)))
             if is_definite_minisegment(minisegment):
                 # What if not match -----<
                 if match_token(knowledge, remaining_tokens[0], minisegment):
@@ -455,7 +455,7 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
                         matched_tokens + [(minisegment, remaining_tokens[:i])],
                         remaining_tokens[i:]
                     ))
-            logging.debug(indent + "## PA", len(possibilities_after_round))
+            logging.debug(indent + "## PA {}".format(possibilities_after_round))
         else:
             segment_possibilities = possibilities_after_round
             logging.debug(">>>> {}".format(len(segment_possibilities)))
@@ -467,11 +467,11 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
 
     resolved_fits = []
     for fit, _ in fully_matched_segments:
-        logging.debug(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        logging.debug(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
 
     logging.debug(indent + '*' * 20)
     for fit, _ in fully_matched_segments:
-        logging.debug(indent + ":::", fit) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        logging.debug(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
         resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
         if resolved_fit is not None:
             resolved_fits.append(resolved_fit)

From 4b12bc589ea52d38ec6cac5ca94ccb3c29bf681e Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 20 Sep 2017 21:20:48 -0400
Subject: [PATCH 35/69] Accept new words when we don't know what they mean.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 2a87077..6651050 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -274,7 +274,7 @@ def integrate_information(knowledge_base, example):
 
 def can_be_used_in_place(knowledge, token, minisegment):
     if token not in knowledge.knowledge:
-        return False
+        return True
 
     info = knowledge.knowledge[token]
     info_groups = info.get('groups', set())

From fde31b69a83428b261cf1f1822c69ddb5969db1a Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Wed, 20 Sep 2017 21:24:40 -0400
Subject: [PATCH 36/69] Fix reference-after-use bug.

---
 naive-nlu/tree_nlu/knowledge_evaluation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 6651050..2feb42c 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -111,8 +111,8 @@ def modifiable_element_for_existance_in_set(container, set_name, element):
         return (set_name in container) and (element in container[set_name])
 
     def setter():
-        logging.debug("  add({} {} {})".format(container, set_name, element))
         nonlocal container, set_name, element
+        logging.debug("  add({} {} {})".format(container, set_name, element))
         return container[set_name].add(element)
 
     return ModifiableProperty(

From 379855766cd41503221eb2321e66c1d4813eb648 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Fri, 22 Sep 2017 00:52:04 +0200
Subject: [PATCH 37/69] Fix bug in gac_100 test.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index d6c09a9..484ebd3 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -741,4 +741,4 @@ def main():
             raise NotImplementedError('Example type: {}'.format(example_type))
 
         print("\r\x1b[K", end='')
-        return knowledge
+    return knowledge

From e6fbbc19e01071968eaae132324d1bcbcd602adc Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Fri, 22 Sep 2017 01:00:09 +0200
Subject: [PATCH 38/69] Adjust info logging level.

---
 naive-nlu/tree_nlu/cli.py            |  3 +++
 naive-nlu/tree_nlu/knowledge_base.py | 10 +++++-----
 naive-nlu/tree_nlu/tests/basic.py    | 24 ++++++++++++------------
 naive-nlu/tree_nlu/tests/gac_100.py  |  3 +++
 4 files changed, 23 insertions(+), 17 deletions(-)

diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index 1306d83..bd4e894 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -1,3 +1,4 @@
+import logging
 from .knowledge_base import KnowledgeBase
 from .tests import gac_100
 from .modifiable_property import (
@@ -16,7 +17,9 @@ def debug(knowledge):
 
 
 def main():
+    logging.getLogger().setLevel(logging.INFO)
     knowledge = gac_100.main()
+    logging.getLogger().setLevel(logging.DEBUG)
     while True:
         try:
             data = input("> ").strip()
diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 33bd9e9..6386ce4 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -30,18 +30,18 @@ class KnowledgeBase(object):
                 })
                 self.act_upon(result)
 
-            logging.info("\x1b[7;32m> {} \x1b[0m".format(example))
+            logging.debug("\x1b[7;32m> {} \x1b[0m".format(example))
             tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
-            logging.info(tokens)
+            logging.debug(tokens)
             result = knowledge_evaluation.integrate_information(self.knowledge, {
                 "elements": tokens,
                 "decomposition": decomposition,
                 "parsed": inferred_tree,
             })
 
-            logging.info("\x1b[7;33m< {} \x1b[0m".format(self.get_value(result)))
+            logging.debug("\x1b[7;33m< {} \x1b[0m".format(self.get_value(result)))
             self.act_upon(result)
-            logging.info("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
+            logging.debug("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
             self.examples.append((decomposition, inferred_tree))
 
             # Reduce values
@@ -57,7 +57,7 @@ class KnowledgeBase(object):
     def process(self, row):
         row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
-        logging.info("\x1b[7;32m> {} \x1b[0m".format(row))
+        logging.debug("\x1b[7;32m> {} \x1b[0m".format(row))
         tokens = parsing.to_tokens(row)
         tokens, inferred_tree = parsing.get_fit(self, tokens)
         result = knowledge_evaluation.integrate_information(self.knowledge,
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index b570608..414a0ce 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -110,13 +110,13 @@ base_knowledge = {
 }
 
 def test_assumption(expectedResponse, knowledge, query):
-    logging.info("Query: {}".format(query['text']))
-    logging.info("Expected: {}".format(expectedResponse))
+    logging.debug("Query: {}".format(query['text']))
+    logging.debug("Expected: {}".format(expectedResponse))
 
     result, abstract_tree, diff = knowledge.process(query['text'])
     end_result = result.getter() if is_modifiable_property(result) else result
 
-    logging.info("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
+    logging.debug("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
     if end_result != expectedResponse:
         raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
 
@@ -127,9 +127,9 @@ def main():
 
     differences = knowledge.train(examples)
 
-    logging.info("----")
-    logging.info(differences())
-    logging.info("----")
+    logging.debug("----")
+    logging.debug(differences())
+    logging.debug("----")
 
     test_assumption(True, knowledge, {'text': 'earth is a planet'})
     test_assumption(True, knowledge, {'text': 'is lava dangerous?'})
@@ -137,12 +137,12 @@ def main():
         row = test['text']
         result, inferred_tree, differences = knowledge.process(row)
 
-        logging.info("result:", result)
-        logging.info(differences())
-        logging.info("---")
-    logging.info('-----')
-    logging.info(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
-    logging.info('-----')
+        logging.debug("result:", result)
+        logging.debug(differences())
+        logging.debug("---")
+    logging.debug('-----')
+    logging.debug(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
+    logging.debug('-----')
 
     queryTrue = {
         "text": "is io a moon?",
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 484ebd3..34f4c3b 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -701,6 +701,7 @@ def main():
 
     for i, (example_type, data) in enumerate(examples):
         if example_type == 'full_example':
+            logging.info(data['affirmation'])
             affirmation = {
                 'text': data['affirmation'],
                 'parsed': data['parsed'][1],
@@ -724,6 +725,8 @@ def main():
                 raise AssertionError('{} is not {}'.format(result, data['answer']))
 
         elif example_type == 'text_example':
+            logging.info(data['affirmation'])
+
             show_progbar(i, total, data['affirmation'])
             affirmation = data['affirmation']
             logging.debug("Processing affirmation: {}".format(affirmation))

From 91dd5a9c6c20225487f2fda89e177c93f00114b2 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Fri, 22 Sep 2017 01:00:39 +0200
Subject: [PATCH 39/69] Separate visualization module.

---
 naive-nlu/tree_nlu/cli.py           | 9 +++------
 naive-nlu/tree_nlu/tests/gac_100.py | 5 +++++
 naive-nlu/tree_nlu/visualization.py | 3 +++
 3 files changed, 11 insertions(+), 6 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/visualization.py

diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index bd4e894..20b53e3 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -1,5 +1,6 @@
 import logging
 from .knowledge_base import KnowledgeBase
+from .visualization import show_knowledge
 from .tests import gac_100
 from .modifiable_property import (
     ModifiableProperty,
@@ -11,10 +12,6 @@ from .modifiable_property import (
 bye_phrases = ['bye', 'exit']
 
 
-def debug(knowledge):
-    for key in knowledge.knowledge:
-        print("\x1b[1m{}\x1b[0m {}".format(key, knowledge.knowledge[key]))
-
 
 def main():
     logging.getLogger().setLevel(logging.INFO)
@@ -31,8 +28,8 @@ def main():
         if not data:
             continue
 
-        if data == '/debug':
-            debug(knowledge)
+        if data == '/show':
+            show_knowledge(knowledge)
             continue
 
         ret = knowledge.process(data)
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 34f4c3b..caaa80b 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,6 +1,7 @@
 import logging
 from ..knowledge_base import KnowledgeBase
 from ..utils.visuals import show_progbar
+from ..visualization import show_knowledge
 
 def _assert(args):
     assert(args)
@@ -745,3 +746,7 @@ def main():
 
         print("\r\x1b[K", end='')
     return knowledge
+
+
+if __name__ == '__main__':
+    show_knowledge(main())
diff --git a/naive-nlu/tree_nlu/visualization.py b/naive-nlu/tree_nlu/visualization.py
new file mode 100644
index 0000000..4a95a55
--- /dev/null
+++ b/naive-nlu/tree_nlu/visualization.py
@@ -0,0 +1,3 @@
+def show_knowledge(knowledge):
+    for key in knowledge.knowledge:
+        print("\x1b[1m{}\x1b[0m {}".format(key, knowledge.knowledge[key]))

From 23256b945de0de0f51f6de510e507109182e7c90 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Fri, 22 Sep 2017 01:03:47 +0200
Subject: [PATCH 40/69] Reduce unneeded base knowledge.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index caaa80b..9907f8c 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -667,9 +667,6 @@ base_knowledge = {
     'planet': {
         "groups": {'noun', 'group'},
     },
-    'white': {
-        "groups": {'noun', 'color', 'concept', 'property'},
-    },
     'green': {
         "groups": {'noun', 'color', 'concept'},
     },
@@ -679,9 +676,6 @@ base_knowledge = {
     'fly': {
         "groups": {'verb'},
     },
-    'computers': {
-        "groups": {'object'},
-    },
     'use': {
         "groups": {'verb'},
     },

From 3abbd40b262b05272bed40bbe803f0b1e7906026 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 00:53:42 +0200
Subject: [PATCH 41/69] Add show_sample visualization.

---
 naive-nlu/tree_nlu/cli.py           | 8 +++++++-
 naive-nlu/tree_nlu/visualization.py | 5 +++++
 2 files changed, 12 insertions(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index 20b53e3..a4eee32 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -1,6 +1,9 @@
 import logging
 from .knowledge_base import KnowledgeBase
-from .visualization import show_knowledge
+from .visualization import (
+    show_knowledge,
+    show_samples,
+)
 from .tests import gac_100
 from .modifiable_property import (
     ModifiableProperty,
@@ -31,6 +34,9 @@ def main():
         if data == '/show':
             show_knowledge(knowledge)
             continue
+        elif data == '/samples':
+            show_samples(knowledge)
+            continue
 
         ret = knowledge.process(data)
         if ret:
diff --git a/naive-nlu/tree_nlu/visualization.py b/naive-nlu/tree_nlu/visualization.py
index 4a95a55..6f07325 100644
--- a/naive-nlu/tree_nlu/visualization.py
+++ b/naive-nlu/tree_nlu/visualization.py
@@ -1,3 +1,8 @@
 def show_knowledge(knowledge):
     for key in knowledge.knowledge:
         print("\x1b[1m{}\x1b[0m {}".format(key, knowledge.knowledge[key]))
+
+
+def show_samples(knowledge):
+    for example in knowledge.originals:
+        print("{}".format(example))

From 542c4fca4bb671df65857b0be549031b4a257571 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 00:54:09 +0200
Subject: [PATCH 42/69] Add more specific errors on the cli module.

---
 naive-nlu/tree_nlu/cli.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index a4eee32..73a0a80 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -46,4 +46,8 @@ def main():
             else:
                 result.setter()
                 print("OK")
+        elif ret is None:
+            print("- Couldn't understand that, oops... -")
+        else:
+            print("Unhandled response:", ret)
     print("< Bye!")

From d607b2210e3565f9aab081e404a3cc3a78d53a42 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 00:54:58 +0200
Subject: [PATCH 43/69] Avoid crashing when a fit is not found.

---
 naive-nlu/tree_nlu/knowledge_base.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 6386ce4..dfb2b51 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -53,13 +53,16 @@ class KnowledgeBase(object):
 
         return knowledge_diff_getter
 
-
     def process(self, row):
         row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
         logging.debug("\x1b[7;32m> {} \x1b[0m".format(row))
         tokens = parsing.to_tokens(row)
-        tokens, inferred_tree = parsing.get_fit(self, tokens)
+        fit = parsing.get_fit(self, tokens)
+        if fit is None:
+            return None
+
+        tokens, inferred_tree = fit
         result = knowledge_evaluation.integrate_information(self.knowledge,
                                                           {
                                                               "elements": tokens,

From 2c36dd9b7e41178ac47ea5dd8631242b5242b92c Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 00:55:42 +0200
Subject: [PATCH 44/69] Save original examples (needed on show_samples).

---
 naive-nlu/tree_nlu/knowledge_base.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index dfb2b51..ead4b07 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -15,6 +15,7 @@ def diff_knowledge(before, after):
 class KnowledgeBase(object):
     def __init__(self, knowledge, examples=[], trained=[]):
         self.knowledge = copy.copy(knowledge)
+        self.originals = []
         self.examples = copy.copy(examples)
         self.trained = copy.copy(trained)
 
@@ -43,6 +44,7 @@ class KnowledgeBase(object):
             self.act_upon(result)
             logging.debug("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
             self.examples.append((decomposition, inferred_tree))
+            self.originals.append(example['text'])
 
             # Reduce values
             self.trained = parsing.reprocess_language_knowledge(self, self.examples)

From 58fb9fb1883a3ecdff28b454c4393cd9a60e79c9 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 00:57:19 +0200
Subject: [PATCH 45/69] Add extended gac tests.

---
 naive-nlu/tree_nlu/test.py                |  2 ++
 naive-nlu/tree_nlu/tests/gac_extension.py | 21 +++++++++++++++++++++
 2 files changed, 23 insertions(+)
 create mode 100644 naive-nlu/tree_nlu/tests/gac_extension.py

diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 49ab053..3a67370 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -2,12 +2,14 @@ import traceback
 import logging
 from .tests import basic
 from .tests import gac_100
+from .tests import gac_extension
 
 logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
     ("basic", basic),
     ("gac 100", gac_100),
+    ("gac+", gac_extension),
 )
 
 def main():
diff --git a/naive-nlu/tree_nlu/tests/gac_extension.py b/naive-nlu/tree_nlu/tests/gac_extension.py
new file mode 100644
index 0000000..8a9e8c0
--- /dev/null
+++ b/naive-nlu/tree_nlu/tests/gac_extension.py
@@ -0,0 +1,21 @@
+from ..knowledge_base import KnowledgeBase
+
+from . import gac_100
+
+
+def ask_then_learn_test(knowledge: KnowledgeBase):
+    ret, _, _ = knowledge.process("is icecream blue?")
+    assert(ret is False)
+
+    ret, _, _ = knowledge.process("icecream is blue")
+
+    ret, _, _ = knowledge.process("is icecream blue?")
+    assert(ret is True)
+
+    return knowledge
+
+
+def main():
+    knowledge = gac_100.main()
+
+    knowledge = ask_then_learn_test(knowledge)

From 359f858c394ef14ca17ec3086e75afb9b0832be4 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sat, 30 Sep 2017 01:32:04 +0200
Subject: [PATCH 46/69] Add session files base concept.

---
 .gitignore                                 |   1 +
 naive-nlu/tree_nlu/cli.py                  |  12 +++
 naive-nlu/tree_nlu/knowledge_base.py       |  13 +--
 naive-nlu/tree_nlu/knowledge_evaluation.py |  20 ++--
 naive-nlu/tree_nlu/parsing.py              | 104 ++++++++++-----------
 naive-nlu/tree_nlu/session/org_mode.py     |  45 +++++++++
 naive-nlu/tree_nlu/test.py                 |  10 ++
 naive-nlu/tree_nlu/tests/basic.py          |  26 +++---
 naive-nlu/tree_nlu/tests/gac_100.py        |  24 ++---
 9 files changed, 162 insertions(+), 93 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/session/org_mode.py

diff --git a/.gitignore b/.gitignore
index 3c698f6..474c6f3 100644
--- a/.gitignore
+++ b/.gitignore
@@ -3,3 +3,4 @@
 *.ba?k
 *.pyc
 __pycache__
+treeNLU-*session-*.org
diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index 73a0a80..82e55ea 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -1,4 +1,9 @@
 import logging
+import datetime
+from .session.org_mode import (
+    global_session as session,
+    create_global_session,
+)
 from .knowledge_base import KnowledgeBase
 from .visualization import (
     show_knowledge,
@@ -15,14 +20,21 @@ from .modifiable_property import (
 bye_phrases = ['bye', 'exit']
 
 
+def gen_session_name():
+    now = datetime.datetime.utcnow()
+    return "treeNLU-cli-session-{}.org".format(
+        now.strftime("%y_%m_%d %H:%M:%S_%f"))
+
 
 def main():
+    create_global_session(gen_session_name())
     logging.getLogger().setLevel(logging.INFO)
     knowledge = gac_100.main()
     logging.getLogger().setLevel(logging.DEBUG)
     while True:
         try:
             data = input("> ").strip()
+            session().log_step(data, 0)
         except EOFError:
             print("bye")
             break
diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index ead4b07..3749059 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -1,7 +1,8 @@
 import copy
-
 import logging
 
+from .session.org_mode import global_session as session
+
 from . import parsing
 from . import knowledge_evaluation
 from .modifiable_property import is_modifiable_property
@@ -31,18 +32,18 @@ class KnowledgeBase(object):
                 })
                 self.act_upon(result)
 
-            logging.debug("\x1b[7;32m> {} \x1b[0m".format(example))
+            session().annotate("\x1b[7;32m> {} \x1b[0m".format(example))
             tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
-            logging.debug(tokens)
+            session().annotate(tokens)
             result = knowledge_evaluation.integrate_information(self.knowledge, {
                 "elements": tokens,
                 "decomposition": decomposition,
                 "parsed": inferred_tree,
             })
 
-            logging.debug("\x1b[7;33m< {} \x1b[0m".format(self.get_value(result)))
+            session().annotate("\x1b[7;33m< {} \x1b[0m".format(self.get_value(result)))
             self.act_upon(result)
-            logging.debug("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
+            session().annotate("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
             self.examples.append((decomposition, inferred_tree))
             self.originals.append(example['text'])
 
@@ -58,7 +59,7 @@ class KnowledgeBase(object):
     def process(self, row):
         row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
-        logging.debug("\x1b[7;32m> {} \x1b[0m".format(row))
+        session().annotate("\x1b[7;32m> {} \x1b[0m".format(row))
         tokens = parsing.to_tokens(row)
         fit = parsing.get_fit(self, tokens)
         if fit is None:
diff --git a/naive-nlu/tree_nlu/knowledge_evaluation.py b/naive-nlu/tree_nlu/knowledge_evaluation.py
index 2feb42c..e2704f9 100644
--- a/naive-nlu/tree_nlu/knowledge_evaluation.py
+++ b/naive-nlu/tree_nlu/knowledge_evaluation.py
@@ -1,4 +1,4 @@
-import logging
+from .session.org_mode import global_session as session
 
 from .modifiable_property import (
     ModifiableProperty,
@@ -11,7 +11,7 @@ def resolve(knowledge_base, elements, value):
     if isinstance(value, int):
         return elements[value]
     elif isinstance(value, tuple) or isinstance(value, list):
-        logging.debug("V: {} {}".format(value, elements))
+        session().annotate("V: {} {}".format(value, elements))
         return integrate_information(knowledge_base, {
             "elements": elements,
             "parsed": value,
@@ -103,16 +103,16 @@ def exists_property_with_value(knowledge_base, elements, subj, value):
 
 
 def modifiable_element_for_existance_in_set(container, set_name, element):
-    logging.debug("-----({} {} {})".format(container, set_name, element))
+    session().annotate("-----({} {} {})".format(container, set_name, element))
 
     def getter():
         nonlocal container, set_name, element
-        logging.debug("  get({} {} {})".format(container, set_name, element))
+        session().annotate("  get({} {} {})".format(container, set_name, element))
         return (set_name in container) and (element in container[set_name])
 
     def setter():
         nonlocal container, set_name, element
-        logging.debug("  add({} {} {})".format(container, set_name, element))
+        session().annotate("  add({} {} {})".format(container, set_name, element))
         return container[set_name].add(element)
 
     return ModifiableProperty(
@@ -219,7 +219,7 @@ def perform_verb_over_object(knowledge_base, elements, subj, verb, obj):
     subj = resolve(knowledge_base, elements, subj)
     verb = resolve(knowledge_base, elements, verb)
     obj = resolve(knowledge_base, elements, obj)
-    logging.debug("({} {} {})".format(verb, subj, obj))
+    session().annotate("({} {} {})".format(verb, subj, obj))
 
     if subj not in knowledge_base:
         knowledge_base[subj] = {'groups': set()}
@@ -263,10 +263,10 @@ def integrate_information(knowledge_base, example):
     args = ast[1:]
     elements = example.get('elements', None)
 
-    logging.debug("Integrating:")
-    logging.debug("AST: {}".format(ast))
-    logging.debug("ARG: {}".format(elements))
-    logging.debug("------------")
+    session().annotate("Integrating:")
+    session().annotate("AST: {}".format(ast))
+    session().annotate("ARG: {}".format(elements))
+    session().annotate("------------")
 
     return tagged_with_ast(
         ast, elements,
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 632a959..f8369a0 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -3,7 +3,7 @@
 from . import knowledge_evaluation
 
 from . import depth_meter
-import logging
+from .session.org_mode import global_session as session
 import re
 import copy
 
@@ -20,9 +20,9 @@ def to_tokens(text):
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
     template = list(parsed)
-    logging.debug(" -- MK TEMPLATE --")
-    logging.debug("MATCHR: {}".format(matcher))
-    logging.debug("TEMPLT: {}".format(template))
+    session().annotate(" -- MK TEMPLATE --")
+    session().annotate("MATCHR: {}".format(matcher))
+    session().annotate("TEMPLT: {}".format(template))
     for i in range(len(matcher)):
         word = matcher[i]
         if word in template:
@@ -59,11 +59,11 @@ def get_lower_levels(parsed):
 
 # TODO: probably optimize this, it creates lots of unnecessary tuples
 def replace_position(tree, position, new_element):
-    logging.debug("REPLACE POSITIONS:")
-    logging.debug("  TREE  : {}".format(tree))
-    logging.debug("POSITION: {}".format(position))
-    logging.debug("NEW ELEM: {}".format(new_element))
-    logging.debug("------------------")
+    session().annotate("REPLACE POSITIONS:")
+    session().annotate("  TREE  : {}".format(tree))
+    session().annotate("POSITION: {}".format(position))
+    session().annotate("NEW ELEM: {}".format(new_element))
+    session().annotate("------------------")
 
     def aux(current_tree, remaining_route):
         if len(remaining_route) == 0:
@@ -78,7 +78,7 @@ def replace_position(tree, position, new_element):
             )
 
     result = aux(tree, position)
-    logging.debug("-RESULT: {}".format(result))
+    session().annotate("-RESULT: {}".format(result))
     return result
 
 
@@ -90,37 +90,37 @@ def integrate_language(knowledge_base, example):
     tokens = to_tokens(text)
 
     while True:
-        logging.debug("P: {}".format(resolved_parsed))
+        session().annotate("P: {}".format(resolved_parsed))
         lower_levels = get_lower_levels(resolved_parsed)
-        logging.debug("Lower: {}".format(lower_levels))
+        session().annotate("Lower: {}".format(lower_levels))
         if len(lower_levels) == 0:
             break
 
         for position, atom in lower_levels:
-            logging.debug("\x1b[1mSelecting\x1b[0m: {}".format(atom))
+            session().annotate("\x1b[1mSelecting\x1b[0m: {}".format(atom))
             similar = get_similar_tree(knowledge_base, atom, tokens)
             remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
 
             after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
-            logging.debug("--FIND MIX--")
-            logging.debug("-MIX- | {}".format(remix))
-            logging.debug("-FRM- | {}".format(tokens))
-            logging.debug("-AFT- | {}".format(after_remix))
+            session().annotate("--FIND MIX--")
+            session().annotate("-MIX- | {}".format(remix))
+            session().annotate("-FRM- | {}".format(tokens))
+            session().annotate("-AFT- | {}".format(after_remix))
 
-            logging.debug("--- TEMPLATE ---")
+            session().annotate("--- TEMPLATE ---")
 
             _, matcher, result = make_template(knowledge_base, after_remix, atom)
-            logging.debug("Tx: {}".format(after_remix))
-            logging.debug("Mx: {}".format(matcher))
-            logging.debug("Rx: {}".format(result))
-            logging.debug("Sx: {}".format(start_bounds))
-            logging.debug("Ex: {}".format(end_bounds))
+            session().annotate("Tx: {}".format(after_remix))
+            session().annotate("Mx: {}".format(matcher))
+            session().annotate("Rx: {}".format(result))
+            session().annotate("Sx: {}".format(start_bounds))
+            session().annotate("Ex: {}".format(end_bounds))
 
 
             assert(len(after_remix) + len(start_bounds) + len(end_bounds) == len(tokens))
-            logging.debug( "  +-> {}".format(after_remix))
+            session().annotate( "  +-> {}".format(after_remix))
             subquery_type = knowledge_evaluation.get_subquery_type(knowledge_base.knowledge, atom)
-            logging.debug(r"  \-> <{}>".format(subquery_type))
+            session().annotate(r"  \-> <{}>".format(subquery_type))
 
             # Clean remaining tokens
             new_tokens = list(tokens)
@@ -133,16 +133,16 @@ def integrate_language(knowledge_base, example):
             tokens = new_tokens
 
             resolved_parsed = replace_position(resolved_parsed, position, offset)
-            logging.debug("RP: {}".format(resolved_parsed))
-            logging.debug("AT: {}".format(atom))
-            logging.debug("#########")
+            session().annotate("RP: {}".format(resolved_parsed))
+            session().annotate("AT: {}".format(atom))
+            session().annotate("#########")
 
 
     tokens, matcher, result = make_template(knowledge_base, tokens, resolved_parsed)
-    logging.debug("T: {}".format(tokens))
-    logging.debug("M: {}".format(matcher))
-    logging.debug("R: {}".format(result))
-    logging.debug("---")
+    session().annotate("T: {}".format(tokens))
+    session().annotate("M: {}".format(matcher))
+    session().annotate("R: {}".format(result))
+    session().annotate("---")
     return tokens, matcher, result
 
 
@@ -180,8 +180,8 @@ def get_possible_remixes(knowledge_base, matcher, similar_matcher):
 
     matrix = []
     for element in matcher:
-        logging.debug("- {}".format(element))
-        logging.debug("+ {}".format(similar_matcher))
+        session().annotate("- {}".format(element))
+        session().annotate("+ {}".format(similar_matcher))
         if element in similar_matcher or isinstance(element, dict):
             if isinstance(element, dict):
                 indexes = all_matching_indexes(knowledge_base, similar_matcher, element)
@@ -298,12 +298,12 @@ def get_similar_tree(knowledge_base, atom, tokens):
         return None
 
     for i, possibility in enumerate(sorted_possibilities):
-        logging.debug('---- POSSIBILITY #{} ----'.format(i))
+        session().annotate('---- POSSIBILITY #{} ----'.format(i))
         similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
-        logging.debug('AST: {}'.format(similar_result))
-        logging.debug('Based on: {}'.format(similar_matcher))
-        logging.debug('Results on: {}'.format(similar_result_resolved))
-        logging.debug('---------------------')
+        session().annotate('AST: {}'.format(similar_result))
+        session().annotate('Based on: {}'.format(similar_matcher))
+        session().annotate('Results on: {}'.format(similar_result_resolved))
+        session().annotate('---------------------')
 
     return sorted_possibilities[0]
 
@@ -382,9 +382,9 @@ def get_fit(knowledge, tokens, remaining_recursions=parameters.MAX_RECURSIONS):
 
         if result is not None:
             results.append(result)
-            logging.debug("XXX {}".format(result))
+            session().annotate("XXX {}".format(result))
 
-    logging.debug(' - ' + '\n - '.join(map(str, results)))
+    session().annotate(' - ' + '\n - '.join(map(str, results)))
     if len(results) > 0:
         return results[0]
 
@@ -419,7 +419,7 @@ def resolve_fit(knowledge, fit, remaining_recursions):
                 return None
 
             minitokens, miniast = minifit
-            logging.debug(" AST | {}".format(miniast))
+            session().annotate(" AST | {}".format(miniast))
             subproperty = knowledge_evaluation.resolve(knowledge.knowledge, minitokens, miniast)
             fitted.append(subproperty)
 
@@ -429,17 +429,17 @@ def resolve_fit(knowledge, fit, remaining_recursions):
 def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
     segment_possibilities = [([], tokens)]  # Matched tokens, remaining tokens
     indent = ' ' * (parameters.MAX_RECURSIONS - remaining_recursions)
-    logging.debug(indent + 'T> {}'.format(tokens))
-    logging.debug(indent + 'M> {}'.format(matcher))
+    session().annotate(indent + 'T> {}'.format(tokens))
+    session().annotate(indent + 'M> {}'.format(matcher))
     for minisegment in matcher:
         possibilities_after_round = []
-        logging.debug(indent + "MS {}".format(minisegment))
+        session().annotate(indent + "MS {}".format(minisegment))
         for matched_tokens, remaining_tokens in segment_possibilities:
             if len(remaining_tokens) < 1:
                 continue
 
-            logging.debug(indent + "RT {}".format(remaining_tokens[0]))
-            logging.debug(indent + "DEF {}".format(is_definite_minisegment(minisegment)))
+            session().annotate(indent + "RT {}".format(remaining_tokens[0]))
+            session().annotate(indent + "DEF {}".format(is_definite_minisegment(minisegment)))
             if is_definite_minisegment(minisegment):
                 # What if not match -----<
                 if match_token(knowledge, remaining_tokens[0], minisegment):
@@ -455,10 +455,10 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
                         matched_tokens + [(minisegment, remaining_tokens[:i])],
                         remaining_tokens[i:]
                     ))
-            logging.debug(indent + "## PA {}".format(possibilities_after_round))
+            session().annotate(indent + "## PA {}".format(possibilities_after_round))
         else:
             segment_possibilities = possibilities_after_round
-            logging.debug(">>>> {}".format(len(segment_possibilities)))
+            session().annotate(">>>> {}".format(len(segment_possibilities)))
 
     fully_matched_segments = [(matched, remaining)
                               for (matched, remaining)
@@ -467,11 +467,11 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
 
     resolved_fits = []
     for fit, _ in fully_matched_segments:
-        logging.debug(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        session().annotate(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
 
-    logging.debug(indent + '*' * 20)
+    session().annotate(indent + '*' * 20)
     for fit, _ in fully_matched_segments:
-        logging.debug(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+        session().annotate(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
         resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
         if resolved_fit is not None:
             resolved_fits.append(resolved_fit)
diff --git a/naive-nlu/tree_nlu/session/org_mode.py b/naive-nlu/tree_nlu/session/org_mode.py
new file mode 100644
index 0000000..13ee3ed
--- /dev/null
+++ b/naive-nlu/tree_nlu/session/org_mode.py
@@ -0,0 +1,45 @@
+import logging
+import datetime
+
+SESSION = None
+
+
+def __gen_session_name__():
+    now = datetime.datetime.utcnow()
+    return "treeNLU-session-{}.org".format(
+        now.strftime("%y_%m_%d %H:%M:%S_%f"))
+
+
+def create_global_session(fname):
+    global SESSION
+    SESSION = OrgModeSession(fname)
+
+
+def global_session():
+    if SESSION is None:
+        session_name = __gen_session_name__()
+        logging.warn("Session not created, saved on {}".format(session_name))
+        create_global_session(session_name)
+
+    assert(SESSION is not None)
+    return SESSION
+
+
+class OrgModeSession:
+    def __init__(self, fname):
+        self.f = open(fname, 'wt')
+        self.last_level = 0
+
+    def annotate(self, annotation):
+        self.f.write("{indentation} {data}\n".format(
+            indentation=' ' * (self.last_level + 2 + 1),
+            data=annotation))
+
+    def log_step(self, string, level):
+        self.f.write("{indentation} {data}\n".format(
+            indentation='*' * (level + 1),
+            data=string))
+        self.last_level = level
+
+    def close(self):
+        self.f.close()
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 3a67370..ee048e4 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -1,5 +1,7 @@
 import traceback
 import logging
+import datetime
+from .session import org_mode
 from .tests import basic
 from .tests import gac_100
 from .tests import gac_extension
@@ -12,7 +14,15 @@ tests = (
     ("gac+", gac_extension),
 )
 
+
+def gen_session_name():
+    now = datetime.datetime.utcnow()
+    return "treeNLU-test-session-{}.org".format(
+        now.strftime("%y_%m_%d %H:%M:%S_%f"))
+
+
 def main():
+    org_mode.create_global_session(gen_session_name())
     failed = False
     for test_name, test_module in tests:
         try:
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 414a0ce..4fc7e48 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -1,4 +1,4 @@
-import logging
+from ..session.org_mode import global_session as session
 import json
 
 from ..knowledge_base import KnowledgeBase
@@ -110,13 +110,13 @@ base_knowledge = {
 }
 
 def test_assumption(expectedResponse, knowledge, query):
-    logging.debug("Query: {}".format(query['text']))
-    logging.debug("Expected: {}".format(expectedResponse))
+    session().annotate("Query: {}".format(query['text']))
+    session().annotate("Expected: {}".format(expectedResponse))
 
     result, abstract_tree, diff = knowledge.process(query['text'])
     end_result = result.getter() if is_modifiable_property(result) else result
 
-    logging.debug("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
+    session().annotate("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
     if end_result != expectedResponse:
         raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
 
@@ -127,9 +127,9 @@ def main():
 
     differences = knowledge.train(examples)
 
-    logging.debug("----")
-    logging.debug(differences())
-    logging.debug("----")
+    session().annotate("----")
+    session().annotate(differences())
+    session().annotate("----")
 
     test_assumption(True, knowledge, {'text': 'earth is a planet'})
     test_assumption(True, knowledge, {'text': 'is lava dangerous?'})
@@ -137,12 +137,12 @@ def main():
         row = test['text']
         result, inferred_tree, differences = knowledge.process(row)
 
-        logging.debug("result:", result)
-        logging.debug(differences())
-        logging.debug("---")
-    logging.debug('-----')
-    logging.debug(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
-    logging.debug('-----')
+        session().annotate("result: {}".format(result))
+        session().annotate(differences())
+        session().annotate("---")
+    session().annotate('-----')
+    session().annotate(json.dumps(sorted(knowledge.knowledge.keys()), indent=4))
+    session().annotate('-----')
 
     queryTrue = {
         "text": "is io a moon?",
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 9907f8c..5e09abc 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -1,4 +1,4 @@
-import logging
+from ..session.org_mode import global_session as session
 from ..knowledge_base import KnowledgeBase
 from ..utils.visuals import show_progbar
 from ..visualization import show_knowledge
@@ -178,12 +178,12 @@ examples = [
     #     "parsed": (),
     #     "answer": None,
     # },
-    # {
-    #     "text": "Is water a liquid?",
-    #     "affirmation": "Is water a liquid?",
-    #     "parsed": (),
-    #     "answer": None,
-    # },
+    # ('text_example',
+    #  {
+    #      "question": "is water a liquid?",
+    #      "affirmation": "water is a liquid",
+    #      "answer": True,
+    #  }),
     # {
     #     "text": "Is Bugs Bunny a cartoon character?",
     #     "affirmation": "Is Bugs Bunny a cartoon character?",
@@ -696,7 +696,7 @@ def main():
 
     for i, (example_type, data) in enumerate(examples):
         if example_type == 'full_example':
-            logging.info(data['affirmation'])
+            session().log_step(data['affirmation'], 0)
             affirmation = {
                 'text': data['affirmation'],
                 'parsed': data['parsed'][1],
@@ -708,7 +708,7 @@ def main():
 
             show_progbar(i, total, data['text'])
             differences = knowledge.train([question])
-            logging.debug(differences())
+            session().annotate(differences())
 
             result, _, _ = knowledge.process(data['text'])
 
@@ -720,16 +720,16 @@ def main():
                 raise AssertionError('{} is not {}'.format(result, data['answer']))
 
         elif example_type == 'text_example':
-            logging.info(data['affirmation'])
+            session().log_step(data['affirmation'], 0)
 
             show_progbar(i, total, data['affirmation'])
             affirmation = data['affirmation']
-            logging.debug("Processing affirmation: {}".format(affirmation))
+            session().annotate("Processing affirmation: {}".format(affirmation))
             _, _, _ = knowledge.process(affirmation)
 
             show_progbar(i, total, data['question'])
             question = data['question']
-            logging.debug("Processing question : {}".format(question))
+            session().annotate("Processing question : {}".format(question))
             result, _, _ = knowledge.process(question)
 
             if result != data['answer']:

From bb7d438e0d5515205d474fcc8104faf3ded6cf1f Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 17:10:50 +0200
Subject: [PATCH 47/69] Add session context, increase logging.

---
 .gitignore                             |  2 +-
 naive-nlu/tree_nlu/cli.py              | 24 ++++-----
 naive-nlu/tree_nlu/parsing.py          | 75 +++++++++++++-------------
 naive-nlu/tree_nlu/session/org_mode.py | 29 ++++++++--
 naive-nlu/tree_nlu/test.py             |  9 ++--
 naive-nlu/tree_nlu/tests/basic.py      |  4 +-
 naive-nlu/tree_nlu/tests/gac_100.py    | 37 ++++++-------
 7 files changed, 103 insertions(+), 77 deletions(-)

diff --git a/.gitignore b/.gitignore
index 474c6f3..961205f 100644
--- a/.gitignore
+++ b/.gitignore
@@ -3,4 +3,4 @@
 *.ba?k
 *.pyc
 __pycache__
-treeNLU-*session-*.org
+treeNLU-*session*.org
diff --git a/naive-nlu/tree_nlu/cli.py b/naive-nlu/tree_nlu/cli.py
index 82e55ea..7434d12 100644
--- a/naive-nlu/tree_nlu/cli.py
+++ b/naive-nlu/tree_nlu/cli.py
@@ -34,7 +34,6 @@ def main():
     while True:
         try:
             data = input("> ").strip()
-            session().log_step(data, 0)
         except EOFError:
             print("bye")
             break
@@ -50,16 +49,17 @@ def main():
             show_samples(knowledge)
             continue
 
-        ret = knowledge.process(data)
-        if ret:
-            result, _, _ = ret
-            if not is_modifiable_property(result):
-                print("<", result)
+        with session().log(data):
+            ret = knowledge.process(data)
+            if ret:
+                result, _, _ = ret
+                if not is_modifiable_property(result):
+                    print("<", result)
+                else:
+                    result.setter()
+                    print("OK")
+            elif ret is None:
+                print("- Couldn't understand that, oops... -")
             else:
-                result.setter()
-                print("OK")
-        elif ret is None:
-            print("- Couldn't understand that, oops... -")
-        else:
-            print("Unhandled response:", ret)
+                print("Unhandled response:", ret)
     print("< Bye!")
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index f8369a0..18cfdb5 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -97,45 +97,46 @@ def integrate_language(knowledge_base, example):
             break
 
         for position, atom in lower_levels:
-            session().annotate("\x1b[1mSelecting\x1b[0m: {}".format(atom))
-            similar = get_similar_tree(knowledge_base, atom, tokens)
-            remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
+            with session().log(atom):
+                session().annotate("\x1b[1mSelecting\x1b[0m: {}".format(atom))
+                similar = get_similar_tree(knowledge_base, atom, tokens)
+                remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
 
-            after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
-            session().annotate("--FIND MIX--")
-            session().annotate("-MIX- | {}".format(remix))
-            session().annotate("-FRM- | {}".format(tokens))
-            session().annotate("-AFT- | {}".format(after_remix))
+                after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
+                session().annotate("--FIND MIX--")
+                session().annotate("-MIX- | {}".format(remix))
+                session().annotate("-FRM- | {}".format(tokens))
+                session().annotate("-AFT- | {}".format(after_remix))
 
-            session().annotate("--- TEMPLATE ---")
+                session().annotate("--- TEMPLATE ---")
 
-            _, matcher, result = make_template(knowledge_base, after_remix, atom)
-            session().annotate("Tx: {}".format(after_remix))
-            session().annotate("Mx: {}".format(matcher))
-            session().annotate("Rx: {}".format(result))
-            session().annotate("Sx: {}".format(start_bounds))
-            session().annotate("Ex: {}".format(end_bounds))
+                _, matcher, result = make_template(knowledge_base, after_remix, atom)
+                session().annotate("Tx: {}".format(after_remix))
+                session().annotate("Mx: {}".format(matcher))
+                session().annotate("Rx: {}".format(result))
+                session().annotate("Sx: {}".format(start_bounds))
+                session().annotate("Ex: {}".format(end_bounds))
 
 
-            assert(len(after_remix) + len(start_bounds) + len(end_bounds) == len(tokens))
-            session().annotate( "  +-> {}".format(after_remix))
-            subquery_type = knowledge_evaluation.get_subquery_type(knowledge_base.knowledge, atom)
-            session().annotate(r"  \-> <{}>".format(subquery_type))
+                assert(len(after_remix) + len(start_bounds) + len(end_bounds) == len(tokens))
+                session().annotate( "  +-> {}".format(after_remix))
+                subquery_type = knowledge_evaluation.get_subquery_type(knowledge_base.knowledge, atom)
+                session().annotate(r"  \-> <{}>".format(subquery_type))
 
-            # Clean remaining tokens
-            new_tokens = list(tokens)
-            offset = len(start_bounds)
-            for _ in range(len(remix)):
-                new_tokens.pop(offset)
+                # Clean remaining tokens
+                new_tokens = list(tokens)
+                offset = len(start_bounds)
+                for _ in range(len(remix)):
+                    new_tokens.pop(offset)
 
-            # TODO: Get a specific types for... types
-            new_tokens.insert(offset, (subquery_type, remix))
-            tokens = new_tokens
+                # TODO: Get a specific types for... types
+                new_tokens.insert(offset, (subquery_type, remix))
+                tokens = new_tokens
 
-            resolved_parsed = replace_position(resolved_parsed, position, offset)
-            session().annotate("RP: {}".format(resolved_parsed))
-            session().annotate("AT: {}".format(atom))
-            session().annotate("#########")
+                resolved_parsed = replace_position(resolved_parsed, position, offset)
+                session().annotate("RP: {}".format(resolved_parsed))
+                session().annotate("AT: {}".format(atom))
+                session().annotate("#########")
 
 
     tokens, matcher, result = make_template(knowledge_base, tokens, resolved_parsed)
@@ -298,12 +299,12 @@ def get_similar_tree(knowledge_base, atom, tokens):
         return None
 
     for i, possibility in enumerate(sorted_possibilities):
-        session().annotate('---- POSSIBILITY #{} ----'.format(i))
-        similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
-        session().annotate('AST: {}'.format(similar_result))
-        session().annotate('Based on: {}'.format(similar_matcher))
-        session().annotate('Results on: {}'.format(similar_result_resolved))
-        session().annotate('---------------------')
+        with session().log(possibility):
+            similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
+            session().annotate('AST: {}'.format(similar_result))
+            session().annotate('Based on: {}'.format(similar_matcher))
+            session().annotate('Results on: {}'.format(similar_result_resolved))
+            session().annotate('---------------------')
 
     return sorted_possibilities[0]
 
diff --git a/naive-nlu/tree_nlu/session/org_mode.py b/naive-nlu/tree_nlu/session/org_mode.py
index 13ee3ed..e25600c 100644
--- a/naive-nlu/tree_nlu/session/org_mode.py
+++ b/naive-nlu/tree_nlu/session/org_mode.py
@@ -25,21 +25,40 @@ def global_session():
     return SESSION
 
 
+class LevelContext:
+    def __init__(self, increaser, decreaser):
+        self.increaser = increaser
+        self.decreaser = decreaser
+
+    def __enter__(self):
+        self.increaser()
+
+    def __exit__(self, _type, _value, _traceback):
+        self.decreaser()
+
+
 class OrgModeSession:
     def __init__(self, fname):
         self.f = open(fname, 'wt')
-        self.last_level = 0
+        self.level = 0
 
     def annotate(self, annotation):
         self.f.write("{indentation} {data}\n".format(
-            indentation=' ' * (self.last_level + 2 + 1),
+            indentation=' ' * (self.level + 2 + 1),
             data=annotation))
 
-    def log_step(self, string, level):
+    def log(self, string):
         self.f.write("{indentation} {data}\n".format(
-            indentation='*' * (level + 1),
+            indentation='*' * (self.level + 1),
             data=string))
-        self.last_level = level
+
+        return LevelContext(self.inc_level, self.dec_level)
+
+    def inc_level(self):
+        self.level += 1
+
+    def dec_level(self):
+        self.level -= 1
 
     def close(self):
         self.f.close()
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index ee048e4..f4313f9 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -16,13 +16,15 @@ tests = (
 
 
 def gen_session_name():
-    now = datetime.datetime.utcnow()
-    return "treeNLU-test-session-{}.org".format(
-        now.strftime("%y_%m_%d %H:%M:%S_%f"))
+    return "treeNLU-test-session.org"
 
 
 def main():
     org_mode.create_global_session(gen_session_name())
+
+    now = datetime.datetime.utcnow()
+    org_mode.global_session().annotate("Ran on {}".format(
+        now.strftime("%y_%m_%d %H:%M:%S_%f")))
     failed = False
     for test_name, test_module in tests:
         try:
@@ -39,6 +41,7 @@ def main():
             failed = True
             traceback.print_exc()
             raise
+    org_mode.global_session().close()
 
     if failed:
         exit(1)
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 4fc7e48..4c8184e 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -125,7 +125,9 @@ def main():
         knowledge=base_knowledge,
     )
 
-    differences = knowledge.train(examples)
+    for example in examples:
+        with session().log(example['text']):
+            differences = knowledge.train([example])
 
     session().annotate("----")
     session().annotate(differences())
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 5e09abc..2a7b259 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -696,19 +696,20 @@ def main():
 
     for i, (example_type, data) in enumerate(examples):
         if example_type == 'full_example':
-            session().log_step(data['affirmation'], 0)
             affirmation = {
                 'text': data['affirmation'],
                 'parsed': data['parsed'][1],
             }
             question = data
 
-            show_progbar(i, total, data['affirmation'])
-            differences = knowledge.train([affirmation])
+            with session().log(data['affirmation']):
+                show_progbar(i, total, data['affirmation'])
+                differences = knowledge.train([affirmation])
 
-            show_progbar(i, total, data['text'])
-            differences = knowledge.train([question])
-            session().annotate(differences())
+            with session().log(data['text']):
+                show_progbar(i, total, data['text'])
+                differences = knowledge.train([question])
+                session().annotate(differences())
 
             result, _, _ = knowledge.process(data['text'])
 
@@ -720,20 +721,20 @@ def main():
                 raise AssertionError('{} is not {}'.format(result, data['answer']))
 
         elif example_type == 'text_example':
-            session().log_step(data['affirmation'], 0)
+            with session().log(data['affirmation']):
+                show_progbar(i, total, data['affirmation'])
+                affirmation = data['affirmation']
+                session().annotate("Processing affirmation: {}".format(affirmation))
+                _, _, _ = knowledge.process(affirmation)
 
-            show_progbar(i, total, data['affirmation'])
-            affirmation = data['affirmation']
-            session().annotate("Processing affirmation: {}".format(affirmation))
-            _, _, _ = knowledge.process(affirmation)
+            with session().log(data['question']):
+                show_progbar(i, total, data['question'])
+                question = data['question']
+                session().annotate("Processing question : {}".format(question))
+                result, _, _ = knowledge.process(question)
 
-            show_progbar(i, total, data['question'])
-            question = data['question']
-            session().annotate("Processing question : {}".format(question))
-            result, _, _ = knowledge.process(question)
-
-            if result != data['answer']:
-                raise AssertionError('{} is not {}'.format(result, data['answer']))
+                if result != data['answer']:
+                    raise AssertionError('{} is not {}'.format(result, data['answer']))
 
         else:
             raise NotImplementedError('Example type: {}'.format(example_type))

From 6278cc43f781e73a663d72b3e6dcc1194265432b Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:37:51 +0200
Subject: [PATCH 48/69] Remove color strings from session logs.

---
 naive-nlu/tree_nlu/knowledge_base.py | 9 +++++----
 naive-nlu/tree_nlu/parsing.py        | 1 -
 naive-nlu/tree_nlu/tests/basic.py    | 4 ++--
 3 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 3749059..15355a3 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -32,7 +32,7 @@ class KnowledgeBase(object):
                 })
                 self.act_upon(result)
 
-            session().annotate("\x1b[7;32m> {} \x1b[0m".format(example))
+            session().annotate("Example: {}".format(example))
             tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
             session().annotate(tokens)
             result = knowledge_evaluation.integrate_information(self.knowledge, {
@@ -41,9 +41,9 @@ class KnowledgeBase(object):
                 "parsed": inferred_tree,
             })
 
-            session().annotate("\x1b[7;33m< {} \x1b[0m".format(self.get_value(result)))
+            session().annotate("Result: {}".format(self.get_value(result)))
             self.act_upon(result)
-            session().annotate("\x1b[7;34m> set: {} \x1b[0m".format(self.get_value(result)))
+            session().annotate("Set: {}".format(self.get_value(result)))
             self.examples.append((decomposition, inferred_tree))
             self.originals.append(example['text'])
 
@@ -59,7 +59,7 @@ class KnowledgeBase(object):
     def process(self, row):
         row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
-        session().annotate("\x1b[7;32m> {} \x1b[0m".format(row))
+        session().annotate("Process: {}".format(row))
         tokens = parsing.to_tokens(row)
         fit = parsing.get_fit(self, tokens)
         if fit is None:
@@ -72,6 +72,7 @@ class KnowledgeBase(object):
                                                               "parsed": inferred_tree,
                                                           })
         self.act_upon(result)
+        session().annotate("Result: {}".format(result))
 
         knowledge_after = copy.deepcopy(self.knowledge)
         knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 18cfdb5..7ae8a17 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -98,7 +98,6 @@ def integrate_language(knowledge_base, example):
 
         for position, atom in lower_levels:
             with session().log(atom):
-                session().annotate("\x1b[1mSelecting\x1b[0m: {}".format(atom))
                 similar = get_similar_tree(knowledge_base, atom, tokens)
                 remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
 
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 4c8184e..76f9e07 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -110,13 +110,13 @@ base_knowledge = {
 }
 
 def test_assumption(expectedResponse, knowledge, query):
-    session().annotate("Query: {}".format(query['text']))
+    session().log("Query: {}".format(query['text']))
     session().annotate("Expected: {}".format(expectedResponse))
 
     result, abstract_tree, diff = knowledge.process(query['text'])
     end_result = result.getter() if is_modifiable_property(result) else result
 
-    session().annotate("\x1b[0;3{}mResult: {}\x1b[0m".format("1" if end_result != expectedResponse else "2", end_result))
+    session().annotate("Result: {}".format(end_result))
     if end_result != expectedResponse:
         raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
 

From 2f76cdc2609f7b177d89d7e93e9c5d5e2c16c501 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:46:48 +0200
Subject: [PATCH 49/69] Add more logging context.

---
 naive-nlu/tree_nlu/knowledge_base.py   | 90 ++++++++++++++------------
 naive-nlu/tree_nlu/session/org_mode.py |  9 +++
 naive-nlu/tree_nlu/tests/gac_100.py    |  2 +-
 3 files changed, 57 insertions(+), 44 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 15355a3..931801f 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -22,63 +22,67 @@ class KnowledgeBase(object):
 
     def train(self, examples):
         knowledge_before = copy.deepcopy(self.knowledge)
+        with session().log('Train'):
+            # Parse everything
+            for example in examples:
+                # If there's parsed data, leverage it ASAP
+                if 'parsed' in example:
+                    with session().log('parsed information integration'):
+                        result = knowledge_evaluation.integrate_information(self.knowledge, {
+                            "parsed": example['parsed'],
+                        })
+                        self.act_upon(result)
 
-        # Parse everything
-        for example in examples:
-            # If there's parsed data, leverage it ASAP
-            if 'parsed' in example:
-                result = knowledge_evaluation.integrate_information(self.knowledge, {
-                    "parsed": example['parsed'],
-                })
-                self.act_upon(result)
+                with session().log("language integration"):
+                    tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
+                    session().annotate(tokens)
 
-            session().annotate("Example: {}".format(example))
-            tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
-            session().annotate(tokens)
-            result = knowledge_evaluation.integrate_information(self.knowledge, {
-                "elements": tokens,
-                "decomposition": decomposition,
-                "parsed": inferred_tree,
-            })
+                with session().log("full information integration"):
+                    result = knowledge_evaluation.integrate_information(self.knowledge, {
+                        "elements": tokens,
+                        "decomposition": decomposition,
+                        "parsed": inferred_tree,
+                    })
 
-            session().annotate("Result: {}".format(self.get_value(result)))
-            self.act_upon(result)
-            session().annotate("Set: {}".format(self.get_value(result)))
-            self.examples.append((decomposition, inferred_tree))
-            self.originals.append(example['text'])
+                    session().annotate("Result: {}".format(self.get_value(result)))
+                    self.act_upon(result)
+                    session().annotate("Set: {}".format(self.get_value(result)))
+                    self.examples.append((decomposition, inferred_tree))
+                    self.originals.append(example['text'])
 
-            # Reduce values
-            self.trained = parsing.reprocess_language_knowledge(self, self.examples)
+                # Reduce values
+                with session().log("reprocessing"):
+                    self.trained = parsing.reprocess_language_knowledge(self, self.examples)
 
-        knowledge_after = copy.deepcopy(self.knowledge)
-        knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
+            knowledge_after = copy.deepcopy(self.knowledge)
+            knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
                                                        knowledge_after)
 
-        return knowledge_diff_getter
+            return knowledge_diff_getter
 
     def process(self, row):
         row = row.lower()
         knowledge_before = copy.deepcopy(self.knowledge)
-        session().annotate("Process: {}".format(row))
-        tokens = parsing.to_tokens(row)
-        fit = parsing.get_fit(self, tokens)
-        if fit is None:
-            return None
+        with session().log("Process: {}".format(row)):
+            tokens = parsing.to_tokens(row)
+            fit = parsing.get_fit(self, tokens)
+            if fit is None:
+                return None
 
-        tokens, inferred_tree = fit
-        result = knowledge_evaluation.integrate_information(self.knowledge,
-                                                          {
-                                                              "elements": tokens,
-                                                              "parsed": inferred_tree,
-                                                          })
-        self.act_upon(result)
-        session().annotate("Result: {}".format(result))
+            tokens, inferred_tree = fit
+            result = knowledge_evaluation.integrate_information(self.knowledge,
+                                                                {
+                                                                    "elements": tokens,
+                                                                    "parsed": inferred_tree,
+                                                                })
+            self.act_upon(result)
+            session().annotate("Result: {}".format(result))
 
-        knowledge_after = copy.deepcopy(self.knowledge)
-        knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
-                                                       knowledge_after)
+            knowledge_after = copy.deepcopy(self.knowledge)
+            knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
+                                                           knowledge_after)
 
-        return result, inferred_tree, knowledge_diff_getter
+            return result, inferred_tree, knowledge_diff_getter
 
     def get_value(self, result):
         if is_modifiable_property(result):
diff --git a/naive-nlu/tree_nlu/session/org_mode.py b/naive-nlu/tree_nlu/session/org_mode.py
index e25600c..b2e0d88 100644
--- a/naive-nlu/tree_nlu/session/org_mode.py
+++ b/naive-nlu/tree_nlu/session/org_mode.py
@@ -41,8 +41,15 @@ class OrgModeSession:
     def __init__(self, fname):
         self.f = open(fname, 'wt')
         self.level = 0
+        self.dirty = False
 
     def annotate(self, annotation):
+        if self.dirty:
+            self.f.write("{indentation} {data}\n".format(
+                indentation='*' * (self.level + 2),
+                data="---"))
+            self.dirty = False
+
         self.f.write("{indentation} {data}\n".format(
             indentation=' ' * (self.level + 2 + 1),
             data=annotation))
@@ -51,6 +58,7 @@ class OrgModeSession:
         self.f.write("{indentation} {data}\n".format(
             indentation='*' * (self.level + 1),
             data=string))
+        self.dirty = False
 
         return LevelContext(self.inc_level, self.dec_level)
 
@@ -59,6 +67,7 @@ class OrgModeSession:
 
     def dec_level(self):
         self.level -= 1
+        self.dirty = True
 
     def close(self):
         self.f.close()
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 2a7b259..acfe23e 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -711,7 +711,7 @@ def main():
                 differences = knowledge.train([question])
                 session().annotate(differences())
 
-            result, _, _ = knowledge.process(data['text'])
+                result, _, _ = knowledge.process(data['text'])
 
             if "after_execution" in data:
                 for f in data["after_execution"]:

From 75f00e7171d62c2dd36487a08fbb6aa2bad99f13 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:49:20 +0200
Subject: [PATCH 50/69] Fix session logging level bug.

---
 naive-nlu/tree_nlu/tests/basic.py         | 14 +++++++-------
 naive-nlu/tree_nlu/tests/gac_extension.py | 14 +++++++++-----
 2 files changed, 16 insertions(+), 12 deletions(-)

diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 76f9e07..4038bc6 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -110,15 +110,15 @@ base_knowledge = {
 }
 
 def test_assumption(expectedResponse, knowledge, query):
-    session().log("Query: {}".format(query['text']))
-    session().annotate("Expected: {}".format(expectedResponse))
+    with session().log(query['text']):
+        session().annotate("Expected: {}".format(expectedResponse))
 
-    result, abstract_tree, diff = knowledge.process(query['text'])
-    end_result = result.getter() if is_modifiable_property(result) else result
+        result, abstract_tree, diff = knowledge.process(query['text'])
+        end_result = result.getter() if is_modifiable_property(result) else result
 
-    session().annotate("Result: {}".format(end_result))
-    if end_result != expectedResponse:
-        raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
+        session().annotate("Result: {}".format(end_result))
+        if end_result != expectedResponse:
+            raise AssertionError('{} is not {}'.format(end_result, expectedResponse))
 
 def main():
     knowledge = KnowledgeBase(
diff --git a/naive-nlu/tree_nlu/tests/gac_extension.py b/naive-nlu/tree_nlu/tests/gac_extension.py
index 8a9e8c0..5aae0a2 100644
--- a/naive-nlu/tree_nlu/tests/gac_extension.py
+++ b/naive-nlu/tree_nlu/tests/gac_extension.py
@@ -1,16 +1,20 @@
 from ..knowledge_base import KnowledgeBase
+from ..session.org_mode import global_session as session
 
 from . import gac_100
 
 
 def ask_then_learn_test(knowledge: KnowledgeBase):
-    ret, _, _ = knowledge.process("is icecream blue?")
-    assert(ret is False)
+    with session().log("is icecream blue?"):
+        ret, _, _ = knowledge.process("is icecream blue?")
+        assert(ret is False)
 
-    ret, _, _ = knowledge.process("icecream is blue")
+    with session().log("icecream is blue"):
+        ret, _, _ = knowledge.process("icecream is blue")
 
-    ret, _, _ = knowledge.process("is icecream blue?")
-    assert(ret is True)
+    with session().log("is icecream blue?"):
+        ret, _, _ = knowledge.process("is icecream blue?")
+        assert(ret is True)
 
     return knowledge
 

From c1055bd703347bd2fffeac3b459c3475d605a00b Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:52:58 +0200
Subject: [PATCH 51/69] Make timestamp header a default.

---
 naive-nlu/tree_nlu/session/org_mode.py | 8 +++++++-
 naive-nlu/tree_nlu/test.py             | 4 ----
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/session/org_mode.py b/naive-nlu/tree_nlu/session/org_mode.py
index b2e0d88..e79cb16 100644
--- a/naive-nlu/tree_nlu/session/org_mode.py
+++ b/naive-nlu/tree_nlu/session/org_mode.py
@@ -3,7 +3,6 @@ import datetime
 
 SESSION = None
 
-
 def __gen_session_name__():
     now = datetime.datetime.utcnow()
     return "treeNLU-session-{}.org".format(
@@ -25,6 +24,11 @@ def global_session():
     return SESSION
 
 
+def get_header():
+    now = datetime.datetime.utcnow()
+    return ("# Ran on {}\n".format(
+        now.strftime("%y/%m/%d %H:%M:%S.%f")))
+
 class LevelContext:
     def __init__(self, increaser, decreaser):
         self.increaser = increaser
@@ -43,6 +47,8 @@ class OrgModeSession:
         self.level = 0
         self.dirty = False
 
+        self.f.write(get_header())
+
     def annotate(self, annotation):
         if self.dirty:
             self.f.write("{indentation} {data}\n".format(
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index f4313f9..1cdfe11 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -21,10 +21,6 @@ def gen_session_name():
 
 def main():
     org_mode.create_global_session(gen_session_name())
-
-    now = datetime.datetime.utcnow()
-    org_mode.global_session().annotate("Ran on {}".format(
-        now.strftime("%y_%m_%d %H:%M:%S_%f")))
     failed = False
     for test_name, test_module in tests:
         try:

From 0e41a9885770ebf80699a128a715afd10a4fe01e Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:55:55 +0200
Subject: [PATCH 52/69] Fix the dirty log level flag.

---
 naive-nlu/tree_nlu/parsing.py          | 2 +-
 naive-nlu/tree_nlu/session/org_mode.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 7ae8a17..a43f5f1 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -97,7 +97,7 @@ def integrate_language(knowledge_base, example):
             break
 
         for position, atom in lower_levels:
-            with session().log(atom):
+            with session().log("Atom {}".format(atom)):
                 similar = get_similar_tree(knowledge_base, atom, tokens)
                 remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
 
diff --git a/naive-nlu/tree_nlu/session/org_mode.py b/naive-nlu/tree_nlu/session/org_mode.py
index e79cb16..3258d82 100644
--- a/naive-nlu/tree_nlu/session/org_mode.py
+++ b/naive-nlu/tree_nlu/session/org_mode.py
@@ -52,7 +52,7 @@ class OrgModeSession:
     def annotate(self, annotation):
         if self.dirty:
             self.f.write("{indentation} {data}\n".format(
-                indentation='*' * (self.level + 2),
+                indentation='*' * (self.level + 1),
                 data="---"))
             self.dirty = False
 

From 13ed48c6b43b7502a2a5717c10b3384cbe71a7f8 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Oct 2017 20:58:45 +0200
Subject: [PATCH 53/69] Clearer candidate results logging.

---
 naive-nlu/tree_nlu/parsing.py | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index a43f5f1..d539a28 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -298,12 +298,10 @@ def get_similar_tree(knowledge_base, atom, tokens):
         return None
 
     for i, possibility in enumerate(sorted_possibilities):
-        with session().log(possibility):
-            similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
-            session().annotate('AST: {}'.format(similar_result))
-            session().annotate('Based on: {}'.format(similar_matcher))
+        similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
+        with session().log("Like {}".format(similar_matcher)):
             session().annotate('Results on: {}'.format(similar_result_resolved))
-            session().annotate('---------------------')
+            session().annotate('AST: {}'.format(similar_result))
 
     return sorted_possibilities[0]
 

From 75174e17368e7312a9930d9bb8cbe289272fe663 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Mon, 2 Oct 2017 23:37:20 +0200
Subject: [PATCH 54/69] Increase exploration, remove unnecessary initial
 knowledge.

---
 naive-nlu/tree_nlu/parsing.py       | 184 ++++++++++++++++------------
 naive-nlu/tree_nlu/tests/gac_100.py |  18 ---
 2 files changed, 106 insertions(+), 96 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index d539a28..8081265 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -28,7 +28,7 @@ def make_template(knowledge_base, tokens, parsed):
         if word in template:
             template[template.index(word)] = i
             matcher[i] = {
-                'groups': set(knowledge_base.knowledge[word]['groups'])
+                'groups': set(knowledge_base.knowledge.get(word, {}).get('groups', set())),
             }
     return tokens, matcher, template
 
@@ -98,8 +98,15 @@ def integrate_language(knowledge_base, example):
 
         for position, atom in lower_levels:
             with session().log("Atom {}".format(atom)):
-                similar = get_similar_tree(knowledge_base, atom, tokens)
-                remix, (start_bounds, end_bounds) = build_remix_matrix(knowledge_base, tokens, atom, similar)
+                similars = get_similar_tree(knowledge_base, atom, tokens)
+                for similar in similars:
+                    result = build_remix_matrix(knowledge_base, tokens, atom, similar)
+                    if result is not None:
+                        break
+
+                if result is None:
+                    raise Exception("No match found")
+                remix, (start_bounds, end_bounds) = result
 
                 after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
                 session().annotate("--FIND MIX--")
@@ -161,38 +168,47 @@ def apply_remix(tokens, remix):
 
 def build_remix_matrix(knowledge_base, tokens, atom, similar):
     tokens = list(tokens)
-    tokens, matcher, result = make_template(knowledge_base, tokens, atom)
-    similar_matcher, similar_result, similar_result_resolved, _, _ = similar
+    with session().log("Remix matrix for {} - {}".format(tokens, atom)):
+        tokens, matcher, result = make_template(knowledge_base, tokens, atom)
+        similar_matcher, similar_result, similar_result_resolved, _, _ = similar
 
-    start_bounds, end_bounds = find_bounds(knowledge_base, matcher, similar_matcher)
+        start_bounds, end_bounds = find_bounds(knowledge_base, matcher, similar_matcher)
 
-    for i, element in (end_bounds + start_bounds[::-1]):
-        matcher.pop(i)
-        tokens.pop(i)
+        for i, element in (end_bounds + start_bounds[::-1]):
+            matcher.pop(i)
+            tokens.pop(i)
 
-    possible_remixes = get_possible_remixes(knowledge_base, matcher, similar_matcher)
-    chosen_remix = possible_remixes[0]
+        possible_remixes = get_possible_remixes(knowledge_base, matcher, similar_matcher)
+        session().annotate("Possible remixes: {}".format(possible_remixes))
+        if len(possible_remixes) < 1:
+            return None
 
-    return chosen_remix, (start_bounds, end_bounds)
+        chosen_remix = possible_remixes[0]
+
+        return chosen_remix, (start_bounds, end_bounds)
 
 
 def get_possible_remixes(knowledge_base, matcher, similar_matcher):
 
     matrix = []
-    for element in matcher:
-        session().annotate("- {}".format(element))
-        session().annotate("+ {}".format(similar_matcher))
-        if element in similar_matcher or isinstance(element, dict):
-            if isinstance(element, dict):
-                indexes = all_matching_indexes(knowledge_base, similar_matcher, element)
-            else:
-                indexes = all_indexes(similar_matcher, element)
-            matrix.append(indexes)
-        else:
-            matrix.append([element])
+    with session().log("Possible remixes from matcher: {}".format(matcher)):
+        for element in matcher:
+            with session().log("Element `{}`".format(element)):
+                session().annotate("Similar `{}`".format(similar_matcher))
+                if element in similar_matcher or isinstance(element, dict):
+                    if isinstance(element, dict):
+                        indexes = all_matching_indexes(knowledge_base, similar_matcher, element)
+                        session().annotate("Dict element matching: {}".format(indexes))
+                    else:
+                        indexes = all_indexes(similar_matcher, element)
+                        session().annotate("* element matching: {}".format(indexes))
+                    matrix.append(indexes)
+                else:
+                    session().annotate("`else` element matching: [element]")
+                    matrix.append([element])
 
-    # TODO: do some scoring to find the most "interesting combination"
-    return [list(x) for x in list(zip(*matrix))]
+        # TODO: do some scoring to find the most "interesting combination"
+        return [list(x) for x in list(zip(*matrix))]
 
 
 def all_indexes(collection, element):
@@ -298,12 +314,14 @@ def get_similar_tree(knowledge_base, atom, tokens):
         return None
 
     for i, possibility in enumerate(sorted_possibilities):
-        similar_matcher, similar_result, similar_result_resolved, _, _ = possibility
+        similar_matcher, similar_result, similar_result_resolved, _atom_score, _token_score = possibility
         with session().log("Like {}".format(similar_matcher)):
-            session().annotate('Results on: {}'.format(similar_result_resolved))
             session().annotate('AST: {}'.format(similar_result))
+            session().annotate('Results on: {}'.format(similar_result_resolved))
+            session().annotate('Atom score: {}'.format(_atom_score))
+            session().annotate('Token score: {}'.format(_token_score))
 
-    return sorted_possibilities[0]
+    return sorted_possibilities
 
 
 # TODO: unroll this mess
@@ -375,14 +393,14 @@ def reverse_remix(tree_section, remix):
 def get_fit(knowledge, tokens, remaining_recursions=parameters.MAX_RECURSIONS):
     results = []
     for matcher, ast in knowledge.trained:
-        result = match_fit(knowledge, tokens, matcher, ast,
-                           remaining_recursions)
+        with session().log("{} <- {}".format(matcher, tokens)):
+            result = match_fit(knowledge, tokens, matcher, ast,
+                               remaining_recursions)
 
-        if result is not None:
-            results.append(result)
-            session().annotate("XXX {}".format(result))
+            if result is not None:
+                with session().log("Result: {}".format(result)):
+                    results.append(result)
 
-    session().annotate(' - ' + '\n - '.join(map(str, results)))
     if len(results) > 0:
         return results[0]
 
@@ -407,19 +425,20 @@ def resolve_fit(knowledge, fit, remaining_recursions):
         if is_definite_minisegment(element):
             fitted.append(element)
         else:
-            ((result_type, remixer), tokens) = element
-            remixed_tokens = reverse_remix(tokens, remixer)
-            if remixed_tokens is None:
-                return None
+            with session().log("Resolving fit of `{}`".format(element)):
+                ((result_type, remixer), tokens) = element
+                remixed_tokens = reverse_remix(tokens, remixer)
+                if remixed_tokens is None:
+                    return None
 
-            minifit = get_fit(knowledge, remixed_tokens, remaining_recursions - 1)
-            if minifit is None:
-                return None
+                minifit = get_fit(knowledge, remixed_tokens, remaining_recursions - 1)
+                if minifit is None:
+                    return None
 
-            minitokens, miniast = minifit
-            session().annotate(" AST | {}".format(miniast))
-            subproperty = knowledge_evaluation.resolve(knowledge.knowledge, minitokens, miniast)
-            fitted.append(subproperty)
+                minitokens, miniast = minifit
+                session().annotate(" AST | {}".format(miniast))
+                subproperty = knowledge_evaluation.resolve(knowledge.knowledge, minitokens, miniast)
+                fitted.append(subproperty)
 
     return fitted
 
@@ -430,33 +449,38 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
     session().annotate(indent + 'T> {}'.format(tokens))
     session().annotate(indent + 'M> {}'.format(matcher))
     for minisegment in matcher:
-        possibilities_after_round = []
-        session().annotate(indent + "MS {}".format(minisegment))
-        for matched_tokens, remaining_tokens in segment_possibilities:
-            if len(remaining_tokens) < 1:
-                continue
+        with session().log("Minisegment `{}`".format(minisegment)):
+            possibilities_after_round = []
+            for matched_tokens, remaining_tokens in segment_possibilities:
+                if len(remaining_tokens) < 1:
+                    continue
 
-            session().annotate(indent + "RT {}".format(remaining_tokens[0]))
-            session().annotate(indent + "DEF {}".format(is_definite_minisegment(minisegment)))
-            if is_definite_minisegment(minisegment):
-                # What if not match -----<
-                if match_token(knowledge, remaining_tokens[0], minisegment):
-                    possibilities_after_round.append((
-                        matched_tokens + [remaining_tokens[0]],
-                        remaining_tokens[1:]
-                    ))
+                session().annotate(indent + "RT {}".format(remaining_tokens[0]))
+                session().annotate(indent + "DEF {}".format(is_definite_minisegment(minisegment)))
+                if is_definite_minisegment(minisegment):
+                    # What if not match -----<
+                    if match_token(knowledge, remaining_tokens[0], minisegment):
+                        possibilities_after_round.append((
+                            matched_tokens + [remaining_tokens[0]],
+                            remaining_tokens[1:]
+                           ))
+                else:
+                    # What if not match!!!!!!-----<
+                    # TODO: optimize this with a look ahead
+                    for i in range(1, len(tokens)):
+                        possibilities_after_round.append((
+                            matched_tokens + [(minisegment, remaining_tokens[:i])],
+                            remaining_tokens[i:]
+                           ))
+                session().annotate(indent + "## PA {}".format(possibilities_after_round))
             else:
-                # What if not match!!!!!!-----<
-                # TODO: optimize this with a look ahead
-                for i in range(1, len(tokens)):
-                    possibilities_after_round.append((
-                        matched_tokens + [(minisegment, remaining_tokens[:i])],
-                        remaining_tokens[i:]
-                    ))
-            session().annotate(indent + "## PA {}".format(possibilities_after_round))
-        else:
-            segment_possibilities = possibilities_after_round
-            session().annotate(">>>> {}".format(len(segment_possibilities)))
+                segment_possibilities = possibilities_after_round
+                for possibility in segment_possibilities:
+                    with session().log("Possibility: `{}`".format(possibility)):
+                        pass
+                if len(segment_possibilities) < 1:
+                    with session().log("NO POSSIBLE"):
+                        pass
 
     fully_matched_segments = [(matched, remaining)
                               for (matched, remaining)
@@ -464,15 +488,19 @@ def match_fit(knowledge, tokens, matcher, ast, remaining_recursions):
                               if len(remaining) == 0]
 
     resolved_fits = []
-    for fit, _ in fully_matched_segments:
-        session().annotate(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
+    with session().log("Full matches"):
+        for fit, _ in fully_matched_segments:
+            with session().log(fit):  # REMIXES HAVE TO BE APPLIED BEFORE!!!
+                pass
 
-    session().annotate(indent + '*' * 20)
-    for fit, _ in fully_matched_segments:
-        session().annotate(indent + "::: {}".format(fit)) # REMIXES HAVE TO BE APPLIED BEFORE!!!
-        resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
-        if resolved_fit is not None:
-            resolved_fits.append(resolved_fit)
+    with session().log("Resolutions"):
+        for fit, _ in fully_matched_segments:
+            with session().log("Resolving {}".format(fit)):  # REMIXES HAVE TO BE APPLIED BEFORE!!!
+                resolved_fit = resolve_fit(knowledge, fit, remaining_recursions)
+                if resolved_fit is not None:
+                    resolved_fits.append(resolved_fit)
+                else:
+                    session().annotate("Not resolved")
 
     if len(resolved_fits) == 0:
         return None
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index acfe23e..5c57766 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -655,24 +655,9 @@ examples = [
 ]
 
 base_knowledge = {
-    'icecream': {
-        "groups": {'noun', 'object', 'comestible', 'sweet'},
-    },
-    'hot': {
-        "groups": {'property', 'temperature'},
-    },
     'summer': {
         "groups": {'epoch'},
     },
-    'planet': {
-        "groups": {'noun', 'group'},
-    },
-    'green': {
-        "groups": {'noun', 'color', 'concept'},
-    },
-    'milk': {
-        "groups": {'noun'},
-    },
     'fly': {
         "groups": {'verb'},
     },
@@ -682,9 +667,6 @@ base_knowledge = {
     'electricity': {
         "groups": {'power'},
     },
-    'french': {
-        "groups": {'language'},
-    }
 }
 
 def main():

From fc374505657efdcc28ec79a6cfa7a9521bda722d Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 1 Apr 2018 20:24:09 +0200
Subject: [PATCH 55/69] Add (non-passing) tokenization.

---
 naive-nlu/tree_nlu/atoms.py              |  14 ++++
 naive-nlu/tree_nlu/knowledge_base.py     |  24 ++++--
 naive-nlu/tree_nlu/parsing.py            | 102 ++++++++++++++++++++++-
 naive-nlu/tree_nlu/test.py               |   8 +-
 naive-nlu/tree_nlu/tests/basic.py        |   6 ++
 naive-nlu/tree_nlu/tests/tokenization.py |  67 +++++++++++++++
 naive-nlu/tree_nlu/utils/tokenization.py |  19 +++++
 7 files changed, 229 insertions(+), 11 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/atoms.py
 create mode 100644 naive-nlu/tree_nlu/tests/tokenization.py
 create mode 100644 naive-nlu/tree_nlu/utils/tokenization.py

diff --git a/naive-nlu/tree_nlu/atoms.py b/naive-nlu/tree_nlu/atoms.py
new file mode 100644
index 0000000..a0028e5
--- /dev/null
+++ b/naive-nlu/tree_nlu/atoms.py
@@ -0,0 +1,14 @@
+'''
+Analogous to erlang ones.
+
+"An atom is a literal, a constant with name."
+'''
+
+from collections import namedtuple
+
+Atom = namedtuple('Atom', field_names='name')
+
+
+def a(name):
+    '''Build an atom with a given name.'''
+    return Atom(name)
diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 931801f..830a6f3 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -14,11 +14,16 @@ def diff_knowledge(before, after):
 
 
 class KnowledgeBase(object):
-    def __init__(self, knowledge, examples=[], trained=[]):
+    def __init__(self, knowledge={}, examples=[], trained=[]):
         self.knowledge = copy.copy(knowledge)
         self.originals = []
         self.examples = copy.copy(examples)
         self.trained = copy.copy(trained)
+        self.tokenization = set()
+
+    def train_tokenizer(self, example):
+        with session().log('Train'):
+            parsing.integrate_tokenization(self, example)
 
     def train(self, examples):
         knowledge_before = copy.deepcopy(self.knowledge)
@@ -26,7 +31,7 @@ class KnowledgeBase(object):
             # Parse everything
             for example in examples:
                 # If there's parsed data, leverage it ASAP
-                if 'parsed' in example:
+                if 'parsed' in example and isinstance(example['parsed'], tuple):
                     with session().log('parsed information integration'):
                         result = knowledge_evaluation.integrate_information(self.knowledge, {
                             "parsed": example['parsed'],
@@ -35,7 +40,8 @@ class KnowledgeBase(object):
 
                 with session().log("language integration"):
                     tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
-                    session().annotate(tokens)
+                    session().annotate("Tokens: {}".format(tokens))
+                    session().annotate("Inferred tree: {}".format(inferred_tree))
 
                 with session().log("full information integration"):
                     result = knowledge_evaluation.integrate_information(self.knowledge, {
@@ -60,11 +66,19 @@ class KnowledgeBase(object):
 
             return knowledge_diff_getter
 
-    def process(self, row):
+    def tokenize(self, row, return_one=True):
         row = row.lower()
+        with session().log("Tokenize: {}".format(row)):
+            options = parsing.to_tokens(self, row)
+            if return_one:
+                return parsing.pick_one_tokenization(options)
+            return options
+
+    def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
-            tokens = parsing.to_tokens(row)
+            tokens = self.tokenize(row)
+
             fit = parsing.get_fit(self, tokens)
             if fit is None:
                 return None
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 8081265..6cae405 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -11,11 +11,105 @@ from functools import reduce
 from typing import List, Dict
 from .modifiable_property import ModifiableProperty
 from . import parameters
+from .atoms import Atom, a
 
-# TODO: more flexible tokenization
-def to_tokens(text):
-    return re.findall(r'(\w+|[^\s])', text)
+def to_tokens(knowledge_base, text, acc=None):
+    # TODO This is an extra-naïve implementation
+    found = 0
 
+    for tokenization in knowledge_base.tokenization:
+        remaining = text
+        possibility = []
+
+        for i, token in enumerate(tokenization):
+            if token == Atom('token'):
+                for thing in knowledge_base.knowledge.keys():
+                    if remaining.startswith(thing):
+                        # TODO We should also branch here, probably :\
+                        remaining = remaining[len(thing):]
+                        possibility.append(thing)
+                else:
+                    if i + 1 >= len(tokenization):
+                        possibility.append(remaining)
+                        remaining = ""
+
+                    else:
+                        # Try with (HYPERSIMPLISTIC!) backtracking
+                        # Cut using the next token we should use more!!!
+                        next_token = tokenization[i + 1]
+                        cutoff = remaining.find(next_token)
+                        if cutoff < 0:
+                            break
+
+                        possibility.append(remaining[:cutoff])
+                        remaining = remaining[cutoff:]
+            else:
+                if remaining.find(token) < 0: # Not inmediately after!
+                    break
+                remaining = remaining[len(token):]
+
+        else:
+            # Tokenization applicable
+            found += 1
+            if remaining == '':
+                yield possibility
+            else:
+                for consecuent in to_tokens(knowledge_base, remaining, possibility):
+                    yield list(filter(lambda x: x != '', possibility + consecuent))
+    if found == 0:
+        raise Exception('No tokenization found')
+
+def integrate_tokenization(knowledge_base, example):
+    text = example['text']
+    tokens = example['tokens']
+    meaning = example.get('meaning')
+
+    return integrate_token_to_text_matching(knowledge_base, text, tokens)
+
+
+def integrate_token_to_text_matching(knowledge_base, text, tokens):
+    texts = [text]
+
+    # Convert to tokens
+    for token_id, token in enumerate(tokens):
+        # Look for token in texts
+        for i, text in enumerate(texts):
+            if isinstance(text, int):
+                continue
+
+            if token in text:
+                before, after = text.split(token, maxsplit=1)
+                texts = (texts[:i] + [before]
+                         + [token_id]
+                         + [after] + texts[i + 1:])
+                break
+        else:
+            raise Exception('Token not found')
+
+    # Remove leftovers from splits
+    texts = list(filter(lambda x: x != '', texts))
+
+    for token_id, _token in enumerate(tokens):
+        # Find all elements between current token and next token
+        i = texts.index(token_id)
+        elements = [a('token')]
+
+        i += 1
+        while i < len(texts) and not isinstance(texts[i], int):
+            elements.append(texts[i])
+            i += 1
+
+        knowledge_base.tokenization.add(tuple(elements))
+
+def pick_one_tokenization(options):
+    '''
+    Heuristic function to pick the most probable tokenization.
+
+    Just pick the one with more results.
+    '''
+    return sorted(options,
+                  key=lambda tokenization: len(tokenization),
+                  reverse=True)[0]
 
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
@@ -87,7 +181,7 @@ def integrate_language(knowledge_base, example):
     parsed = example["parsed"]
 
     resolved_parsed = copy.deepcopy(parsed)
-    tokens = to_tokens(text)
+    tokens = list(pick_one_tokenization(to_tokens(knowledge_base, text)))
 
     while True:
         session().annotate("P: {}".format(resolved_parsed))
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 1cdfe11..683f85e 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -1,7 +1,8 @@
 import traceback
 import logging
-import datetime
 from .session import org_mode
+
+from .tests import tokenization
 from .tests import basic
 from .tests import gac_100
 from .tests import gac_extension
@@ -9,6 +10,7 @@ from .tests import gac_extension
 logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
+    ("tokenization", tokenization),
     ("basic", basic),
     ("gac 100", gac_100),
     ("gac+", gac_extension),
@@ -24,12 +26,14 @@ def main():
     failed = False
     for test_name, test_module in tests:
         try:
-            test_module.main()
+            with org_mode.global_session().log(test_name):
+                test_module.main()
             print(" \x1b[1;32m✓\x1b[0m {}".format(test_name))
         except AssertionError as ae:
             print(" \x1b[1;31m✗\x1b[0m {}{}".format(test_name,
                                                   ('\n [Assertion] {}'.format(ae.args[0])) if len(ae.args) > 0
                                                    else ''))
+            traceback.print_exc()
             failed = True
 
         except Exception as e:
diff --git a/naive-nlu/tree_nlu/tests/basic.py b/naive-nlu/tree_nlu/tests/basic.py
index 4038bc6..bda8261 100644
--- a/naive-nlu/tree_nlu/tests/basic.py
+++ b/naive-nlu/tree_nlu/tests/basic.py
@@ -3,6 +3,7 @@ import json
 
 from ..knowledge_base import KnowledgeBase
 from ..modifiable_property import is_modifiable_property
+from ..utils.tokenization import train_basic_tokenization
 
 examples = [
     {
@@ -107,6 +108,9 @@ base_knowledge = {
     'swim': {
         "groups": {'verb'},
     },
+    'planet': {
+        'groups': {'noun'}
+    }
 }
 
 def test_assumption(expectedResponse, knowledge, query):
@@ -125,6 +129,8 @@ def main():
         knowledge=base_knowledge,
     )
 
+    train_basic_tokenization(knowledge)
+
     for example in examples:
         with session().log(example['text']):
             differences = knowledge.train([example])
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
new file mode 100644
index 0000000..5a62def
--- /dev/null
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -0,0 +1,67 @@
+from ..session.org_mode import global_session as session
+from ..knowledge_base import KnowledgeBase
+from ..utils.visuals import show_progbar
+from ..visualization import show_knowledge
+
+
+def _assert(args):
+    assert(args)
+
+
+def _assert_msg(args, msg):
+    assert args, msg
+
+
+EXAMPLES = [
+    ('example', {
+        "text": 'cat',
+        "tokens": ['cat'],
+    }),
+    ('example', {
+        "text": 'cats',
+        "tokens": ['cats'],
+        "meaning": { 'cats': ('add-modifier', 'cat', 'plural') },
+    }),
+    ('example', {
+        "text": 'text separated by spaces',
+        "tokens": ['text', 'separated', 'by', 'spaces'],
+    }),
+
+    ('test', {
+        "text": 'plane',
+        "tokens": ['plane'],
+    }),
+    ('test', {
+        "text": 'planes',
+        "tokens": ['planes'],
+        "meaning": { 'planes': ('add-modifier', 'plane', 'plural') },
+    }),
+    ('test', {
+        "text": 'some other text',
+        "tokens": ['some', 'other', 'text'],
+    })
+]
+
+
+def main():
+    knowledge = KnowledgeBase()
+
+    total = len(EXAMPLES)
+
+    for i, (case_type, example) in enumerate(EXAMPLES):
+        show_progbar(i, total, example['text'])
+        if case_type == 'example':
+            with session().log(example['text']):
+                knowledge.train_tokenizer(example)
+
+        elif case_type == 'test':
+            with session().log(example['text']):
+                tokens = list(knowledge.tokenize(example['text']))
+
+                assert example['tokens'] == tokens
+
+        else:
+            raise Exception('Not implemented case {}'.format(case_type))
+
+    print("\r\x1b[K", end='')
+    return knowledge
diff --git a/naive-nlu/tree_nlu/utils/tokenization.py b/naive-nlu/tree_nlu/utils/tokenization.py
new file mode 100644
index 0000000..9b9ee11
--- /dev/null
+++ b/naive-nlu/tree_nlu/utils/tokenization.py
@@ -0,0 +1,19 @@
+BASIC_TOKENIZATION_EXAMPLES = (
+    ({
+        "text": 'cat',
+        "tokens": ['cat'],
+    }),
+    ({
+        "text": 'text separated by spaces',
+        "tokens": ['text', 'separated', 'by', 'spaces'],
+    }),
+    ({
+        "text": 'is earth a planet?',
+        "tokens": ['is', 'earth', 'a', 'planet', '?'],
+    }),
+)
+
+
+def train_basic_tokenization(knowledge_base):
+    for example in BASIC_TOKENIZATION_EXAMPLES:
+        knowledge_base.train_tokenizer(example)

From 40b63128af292f794dd133034be459678f7be023 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 17:07:29 +0200
Subject: [PATCH 56/69] Save structural elements.

---
 naive-nlu/tree_nlu/knowledge_base.py | 10 ++++++++++
 naive-nlu/tree_nlu/parsing.py        |  2 +-
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 830a6f3..b34efe7 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -3,6 +3,7 @@ import logging
 
 from .session.org_mode import global_session as session
 
+from .atoms import Atom
 from . import parsing
 from . import knowledge_evaluation
 from .modifiable_property import is_modifiable_property
@@ -20,6 +21,7 @@ class KnowledgeBase(object):
         self.examples = copy.copy(examples)
         self.trained = copy.copy(trained)
         self.tokenization = set()
+        self.structural_elements = set()
 
     def train_tokenizer(self, example):
         with session().log('Train'):
@@ -74,6 +76,14 @@ class KnowledgeBase(object):
                 return parsing.pick_one_tokenization(options)
             return options
 
+    def add_tokenization(self, tokenization):
+        with session().log('Added tokenization: “{}”'.format(tokenization)):
+            self.tokenization.add(tokenization)
+            for e in tokenization:
+                if (not isinstance(e, Atom)) and (e not in self.structural_elements):
+                    session().annotate('Found new structural element “{}”'.format(e))
+                    self.structural_elements.add(e)
+
     def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 6cae405..198bda2 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -99,7 +99,7 @@ def integrate_token_to_text_matching(knowledge_base, text, tokens):
             elements.append(texts[i])
             i += 1
 
-        knowledge_base.tokenization.add(tuple(elements))
+        knowledge_base.add_tokenization(tuple(elements))
 
 def pick_one_tokenization(options):
     '''

From d601ae3f834d63d29bb9fd6485f06ecb50a7fd87 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 17:08:01 +0200
Subject: [PATCH 57/69] Increase logging, add failing tokenization tests.

---
 naive-nlu/tree_nlu/knowledge_base.py     |  8 ++++++--
 naive-nlu/tree_nlu/parsing.py            | 13 ++++++++++---
 naive-nlu/tree_nlu/tests/tokenization.py |  9 ++++++++-
 3 files changed, 24 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index b34efe7..b796d43 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -71,9 +71,13 @@ class KnowledgeBase(object):
     def tokenize(self, row, return_one=True):
         row = row.lower()
         with session().log("Tokenize: {}".format(row)):
-            options = parsing.to_tokens(self, row)
+            options = list(parsing.to_tokens(self, row))
+            session().log("Results:\n{}".format('\n'.join(map(str, options))))
+
             if return_one:
-                return parsing.pick_one_tokenization(options)
+                chosen = parsing.pick_one_tokenization(options)
+                session().log("Chosen: “{}”".format(chosen))
+                return chosen
             return options
 
     def add_tokenization(self, tokenization):
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 198bda2..1450636 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -18,25 +18,32 @@ def to_tokens(knowledge_base, text, acc=None):
     found = 0
 
     for tokenization in knowledge_base.tokenization:
+      with session().log("Tokenization {}".format(tokenization)):
         remaining = text
         possibility = []
 
+        # Apply tokenization to all elmenets
         for i, token in enumerate(tokenization):
+          with session().log("T “{}” over “{}”".format(token, remaining)):
             if token == Atom('token'):
                 for thing in knowledge_base.knowledge.keys():
+                    session().annotate("Testing with “{}”".format(thing))
                     if remaining.startswith(thing):
                         # TODO We should also branch here, probably :\
                         remaining = remaining[len(thing):]
                         possibility.append(thing)
                 else:
-                    if i + 1 >= len(tokenization):
+                    if i + 1 >= len(tokenization):  # Last element
+                        session().annotate("Token not found, considering it all of  “{}”".format(remaining))
                         possibility.append(remaining)
                         remaining = ""
 
-                    else:
+                    else:  # Not las element, use the next one as cutter
                         # Try with (HYPERSIMPLISTIC!) backtracking
                         # Cut using the next token we should use more!!!
                         next_token = tokenization[i + 1]
+                        session().annotate("Trying to cut for next token on “{}”".format(next_token))
+
                         cutoff = remaining.find(next_token)
                         if cutoff < 0:
                             break
@@ -47,7 +54,7 @@ def to_tokens(knowledge_base, text, acc=None):
                 if remaining.find(token) < 0: # Not inmediately after!
                     break
                 remaining = remaining[len(token):]
-
+            session().annotate("OK, remaining: {}".format(remaining))
         else:
             # Tokenization applicable
             found += 1
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
index 5a62def..0bc1a80 100644
--- a/naive-nlu/tree_nlu/tests/tokenization.py
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -26,7 +26,10 @@ EXAMPLES = [
         "text": 'text separated by spaces',
         "tokens": ['text', 'separated', 'by', 'spaces'],
     }),
-
+    ('example', {
+        "text": 'is earth a planet?',
+        "tokens": ['is', 'earth', 'a', 'planet', '?'],
+    }),
     ('test', {
         "text": 'plane',
         "tokens": ['plane'],
@@ -39,6 +42,10 @@ EXAMPLES = [
     ('test', {
         "text": 'some other text',
         "tokens": ['some', 'other', 'text'],
+    }),
+    ('test', {
+        "text": 'is the sun a star?',
+        "tokens": ['is', 'the', 'sun', 'a', 'star', '?'],
     })
 ]
 

From 998a183fd2bdcf8b89f1f0e18c22f64ca878af8f Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 17:47:04 +0200
Subject: [PATCH 58/69] Dig deeper in cut-by-token approach.

---
 naive-nlu/tree_nlu/knowledge_base.py     |  3 +-
 naive-nlu/tree_nlu/parsing.py            | 91 ++++++++++++++++++++----
 naive-nlu/tree_nlu/test.py               |  6 +-
 naive-nlu/tree_nlu/tests/tokenization.py |  2 +
 4 files changed, 86 insertions(+), 16 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index b796d43..3e09ec6 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -75,7 +75,7 @@ class KnowledgeBase(object):
             session().log("Results:\n{}".format('\n'.join(map(str, options))))
 
             if return_one:
-                chosen = parsing.pick_one_tokenization(options)
+                chosen = parsing.pick_one_tokenization(options, self)
                 session().log("Chosen: “{}”".format(chosen))
                 return chosen
             return options
@@ -92,6 +92,7 @@ class KnowledgeBase(object):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
             tokens = self.tokenize(row)
+            print(tokens)
 
             fit = parsing.get_fit(self, tokens)
             if fit is None:
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 1450636..5683943 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -13,6 +13,29 @@ from .modifiable_property import ModifiableProperty
 from . import parameters
 from .atoms import Atom, a
 
+def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
+    for se in knowledge_base.structural_elements:
+        found_position = remaining.find(se)
+        found = found_position >= 0
+        session().annotate('Looking for structure with “{}”, found? {}'.format(se, found))
+        if found:
+            return [
+                (remaining[:found_position], se, remaining[found_position + len(se):])
+            ]
+
+    for token in knowledge_base.knowledge.keys():
+        found_position = remaining.find(token)
+        found = found_position >= 0
+        session().annotate('Looking for token “{}”, found? {}'.format(token, found))
+        if found:
+            return [
+                (remaining[:found_position], token, remaining[found_position + len(token):])
+            ]
+
+    return None
+
+
+
 def to_tokens(knowledge_base, text, acc=None):
     # TODO This is an extra-naïve implementation
     found = 0
@@ -33,10 +56,29 @@ def to_tokens(knowledge_base, text, acc=None):
                         remaining = remaining[len(thing):]
                         possibility.append(thing)
                 else:
-                    if i + 1 >= len(tokenization):  # Last element
-                        session().annotate("Token not found, considering it all of  “{}”".format(remaining))
-                        possibility.append(remaining)
-                        remaining = ""
+                    if i + 1 >= len(tokenization):  # Last element, lookahead for tokens/structural elements
+                        with session().log("Token not found, looking ahead for splits on “{}”".format(remaining)):
+                            # If we start with remaining[0:] it's not a real lookahead
+                            # ... and it can get us trapped on infinite recursion
+                            splits = lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining[1:])
+
+                            if splits is None:
+                                session().log("No splits found, keeping remaining as token “{}”".format(remaining))
+
+                                possibility.append(remaining)
+                                remaining = ""
+
+                            else:
+                                # Consider we only have one possibility
+                                assert len(splits) == 1
+
+                                before_split, pivot, after_split = splits[0]
+                                before_split = remaining[0] + before_split
+
+                                session().log("1 split found, cutting on token “{}”, keeping “{}”".format(found, before_split))
+
+                                possibility.append(before_split)
+                                remaining = pivot + after_split
 
                     else:  # Not las element, use the next one as cutter
                         # Try with (HYPERSIMPLISTIC!) backtracking
@@ -54,15 +96,17 @@ def to_tokens(knowledge_base, text, acc=None):
                 if remaining.find(token) < 0: # Not inmediately after!
                     break
                 remaining = remaining[len(token):]
-            session().annotate("OK, remaining: {}".format(remaining))
+            session().annotate("OK, remaining: “{}” with {} items".format(remaining, len(tokenization) - (i + 1)))
         else:
             # Tokenization applicable
             found += 1
             if remaining == '':
+                session().log("Concluded possibility “{}”".format(possibility))
                 yield possibility
             else:
-                for consecuent in to_tokens(knowledge_base, remaining, possibility):
-                    yield list(filter(lambda x: x != '', possibility + consecuent))
+                with session().log("Continuing with “{}”".format(remaining)):
+                    for consecuent in to_tokens(knowledge_base, remaining, possibility):
+                        yield list(filter(lambda x: x != '', possibility + consecuent))
     if found == 0:
         raise Exception('No tokenization found')
 
@@ -108,15 +152,38 @@ def integrate_token_to_text_matching(knowledge_base, text, tokens):
 
         knowledge_base.add_tokenization(tuple(elements))
 
-def pick_one_tokenization(options):
+def pick_one_tokenization(options, knowledge_base):
     '''
     Heuristic function to pick the most probable tokenization.
 
     Just pick the one with more results.
     '''
-    return sorted(options,
-                  key=lambda tokenization: len(tokenization),
-                  reverse=True)[0]
+    with session().log("Picking among: {} options\n{}".format(len(options), '\n'.join(map(str, options)))):
+        return pick_by_score(options,
+                             [
+                                 # First by number of splits
+                                 lambda tokenization: len(tokenization),
+
+                                 # Among them, by number of splits without structuring elements
+                                 lambda tokenization: sum(map(
+                                     lambda split: -sum(map(
+                                         lambda se: se in split, knowledge_base.structural_elements
+                                     )), tokenization))
+                             ])
+
+def pick_by_score(options, heuristics):
+    for heuristic in heuristics:
+        assert(len(options) > 0)
+        options = list(map(lambda opt: (heuristic(opt), opt), options))
+        sorted_options = sorted(options, key=lambda x: x[0], reverse=True)
+
+        heuristic_cutoff = sorted_options[0][0]
+        pass_heuristic = [opt for (score, opt) in sorted_options if score <= heuristic_cutoff]
+        options = pass_heuristic
+
+    session().log("{} finalists: \n{}".format(len(options), '\n'.join(map(str, options))))
+    return options[0]
+
 
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
@@ -188,7 +255,7 @@ def integrate_language(knowledge_base, example):
     parsed = example["parsed"]
 
     resolved_parsed = copy.deepcopy(parsed)
-    tokens = list(pick_one_tokenization(to_tokens(knowledge_base, text)))
+    tokens = list(pick_one_tokenization(to_tokens(knowledge_base, text), knowledge_base))
 
     while True:
         session().annotate("P: {}".format(resolved_parsed))
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 683f85e..11cd561 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -11,9 +11,9 @@ logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
     ("tokenization", tokenization),
-    ("basic", basic),
-    ("gac 100", gac_100),
-    ("gac+", gac_extension),
+    # ("basic", basic),
+    # ("gac 100", gac_100),
+    # ("gac+", gac_extension),
 )
 
 
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
index 0bc1a80..4b91dae 100644
--- a/naive-nlu/tree_nlu/tests/tokenization.py
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -65,6 +65,8 @@ def main():
             with session().log(example['text']):
                 tokens = list(knowledge.tokenize(example['text']))
 
+                print(tokens)
+                print(example['tokens'])
                 assert example['tokens'] == tokens
 
         else:

From 79034f85a96d01a5033c31cec22c1b0cb1000dac Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:06:21 +0200
Subject: [PATCH 59/69] Move to a chaining model for tokenization.

This model also explores more tokenization possibilities.
With this, the tokenization tests are passed.
---
 naive-nlu/tree_nlu/atoms.py          |   9 ++
 naive-nlu/tree_nlu/knowledge_base.py |  60 +++++++--
 naive-nlu/tree_nlu/parsing.py        | 181 ++++++++++++++-------------
 3 files changed, 153 insertions(+), 97 deletions(-)

diff --git a/naive-nlu/tree_nlu/atoms.py b/naive-nlu/tree_nlu/atoms.py
index a0028e5..d1de20a 100644
--- a/naive-nlu/tree_nlu/atoms.py
+++ b/naive-nlu/tree_nlu/atoms.py
@@ -8,6 +8,15 @@ from collections import namedtuple
 
 Atom = namedtuple('Atom', field_names='name')
 
+def is_atom(element, name=None):
+    '''Check if an element is an atom with a specific name.'''
+    if not isinstance(element, Atom):
+        return False
+
+    if name is None:
+        return True
+
+    return element.name == name
 
 def a(name):
     '''Build an atom with a given name.'''
diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 3e09ec6..f8cfa99 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -7,25 +7,69 @@ from .atoms import Atom
 from . import parsing
 from . import knowledge_evaluation
 from .modifiable_property import is_modifiable_property
-
+import random
 
 def diff_knowledge(before, after):
     import jsondiff
     return jsondiff.diff(before, after)
 
 
+def randomized_weighted_list(elements):
+    # Randomized
+    randomized = list(elements)
+    random.shuffle(randomized)
+
+    # And return only once
+    already_returned = set()
+    for e in randomized:
+        if e in already_returned:
+            continue
+
+        yield e
+        already_returned.add(e)
+
+
+
 class KnowledgeBase(object):
     def __init__(self, knowledge={}, examples=[], trained=[]):
         self.knowledge = copy.copy(knowledge)
         self.originals = []
         self.examples = copy.copy(examples)
         self.trained = copy.copy(trained)
-        self.tokenization = set()
         self.structural_elements = set()
+        self.token_chains = {}
+        self.tokens = set()
+
+    def add_token_pair(self, precedent, consequent):
+        self.add_token(precedent)
+        self.add_token(consequent)
+
+        if precedent not in self.token_chains:
+            self.token_chains[precedent] = []
+        self.token_chains[precedent].append(consequent)
+
+    def add_token(self, token):
+        self.tokens.add(token)
+        if (not isinstance(token, Atom)) and (token not in self.structural_elements):
+            session().annotate('Found new structural element “{}”'.format(token))
+            self.structural_elements.add(token)
+
+    def expected_token_after_precedent(self, precedent=None):
+        if precedent not in self.token_chains:  # If there's no known precedent, just return all tokens
+            return randomized_weighted_list(self.tokens)
+
+        return randomized_weighted_list(self.token_chains[precedent])
 
     def train_tokenizer(self, example):
-        with session().log('Train'):
-            parsing.integrate_tokenization(self, example)
+        with session().log('Training tokenizer'):
+            session().annotate("Example: {}".format(example))
+            tokens = parsing.integrate_tokenization(self, example)
+
+            # Integrate knowledge of concept
+            for token in tokens:
+                if not token in self.knowledge:
+                    self.knowledge[token] = {}
+
 
     def train(self, examples):
         knowledge_before = copy.deepcopy(self.knowledge)
@@ -80,14 +124,6 @@ class KnowledgeBase(object):
                 return chosen
             return options
 
-    def add_tokenization(self, tokenization):
-        with session().log('Added tokenization: “{}”'.format(tokenization)):
-            self.tokenization.add(tokenization)
-            for e in tokenization:
-                if (not isinstance(e, Atom)) and (e not in self.structural_elements):
-                    session().annotate('Found new structural element “{}”'.format(e))
-                    self.structural_elements.add(e)
-
     def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 5683943..8f7613d 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -11,7 +11,7 @@ from functools import reduce
 from typing import List, Dict
 from .modifiable_property import ModifiableProperty
 from . import parameters
-from .atoms import Atom, a
+from .atoms import Atom, a, is_atom
 
 def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
     for se in knowledge_base.structural_elements:
@@ -36,79 +36,84 @@ def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
 
 
 
-def to_tokens(knowledge_base, text, acc=None):
-    # TODO This is an extra-naïve implementation
-    found = 0
+def to_tokens(knowledge_base, text, precedent=None):
+    if len(text) == 0:
+        session().annotate("No text remaining")
+        yield ['']
+        return
 
-    for tokenization in knowledge_base.tokenization:
-      with session().log("Tokenization {}".format(tokenization)):
-        remaining = text
-        possibility = []
+    with session().log("Tokenizing {}".format(text)):
+        for option in knowledge_base.expected_token_after_precedent(precedent):
+            with session().log("Next: “{}”".format(option)):
+                with session().log("Matching “{}” on “{}”".format(option, text)):
+                    for token_match in tokenization_match(option, text, knowledge_base):
+                        if token_match is None:
+                            session().annotate("No match")
 
-        # Apply tokenization to all elmenets
-        for i, token in enumerate(tokenization):
-          with session().log("T “{}” over “{}”".format(token, remaining)):
-            if token == Atom('token'):
-                for thing in knowledge_base.knowledge.keys():
-                    session().annotate("Testing with “{}”".format(thing))
-                    if remaining.startswith(thing):
-                        # TODO We should also branch here, probably :\
-                        remaining = remaining[len(thing):]
-                        possibility.append(thing)
-                else:
-                    if i + 1 >= len(tokenization):  # Last element, lookahead for tokens/structural elements
-                        with session().log("Token not found, looking ahead for splits on “{}”".format(remaining)):
-                            # If we start with remaining[0:] it's not a real lookahead
-                            # ... and it can get us trapped on infinite recursion
-                            splits = lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining[1:])
+                        match, remaining = token_match
+                        if len(remaining) == len(text):
+                            raise Exception('No text consumed in match')
 
-                            if splits is None:
-                                session().log("No splits found, keeping remaining as token “{}”".format(remaining))
+                        session().annotate('Match: “{}”'.format(match))
+                        with session().log('Remaining “{}”'.format(remaining)):
+                            for sublevel in to_tokens(knowledge_base, remaining, match):
+                                candidate = list(filter(lambda x: x != '', [match] + sublevel))
+                                session().annotate('Yielding candidate “{}”'.format(candidate))
+                                yield candidate
 
-                                possibility.append(remaining)
-                                remaining = ""
 
-                            else:
-                                # Consider we only have one possibility
-                                assert len(splits) == 1
-
-                                before_split, pivot, after_split = splits[0]
-                                before_split = remaining[0] + before_split
-
-                                session().log("1 split found, cutting on token “{}”, keeping “{}”".format(found, before_split))
-
-                                possibility.append(before_split)
-                                remaining = pivot + after_split
-
-                    else:  # Not las element, use the next one as cutter
-                        # Try with (HYPERSIMPLISTIC!) backtracking
-                        # Cut using the next token we should use more!!!
-                        next_token = tokenization[i + 1]
-                        session().annotate("Trying to cut for next token on “{}”".format(next_token))
-
-                        cutoff = remaining.find(next_token)
-                        if cutoff < 0:
-                            break
-
-                        possibility.append(remaining[:cutoff])
-                        remaining = remaining[cutoff:]
-            else:
-                if remaining.find(token) < 0: # Not inmediately after!
-                    break
-                remaining = remaining[len(token):]
-            session().annotate("OK, remaining: “{}” with {} items".format(remaining, len(tokenization) - (i + 1)))
+def tokenization_match(element, text, knowledge_base):
+    # Constant/structural string matching
+    if isinstance(element, str):
+        if text.find(element) == 0:
+            # This match comes from a structuring element
+            # It doesn't appear on the tokenization
+            # So we should return it as an empty string
+            yield ('', text[len(element):])
+            return
         else:
-            # Tokenization applicable
-            found += 1
-            if remaining == '':
-                session().log("Concluded possibility “{}”".format(possibility))
-                yield possibility
-            else:
-                with session().log("Continuing with “{}”".format(remaining)):
-                    for consecuent in to_tokens(knowledge_base, remaining, possibility):
-                        yield list(filter(lambda x: x != '', possibility + consecuent))
-    if found == 0:
-        raise Exception('No tokenization found')
+            # No match found
+            return
+
+    elif is_atom(element, 'token'):
+        yield from match_single_token(text, knowledge_base)
+        return
+    raise NotImplementedError()
+
+
+def match_single_token(text, knowledge_base):
+    found_token = False
+    for token in knowledge_base.knowledge.keys():
+        if text.find(token) == 0:
+            yield token, text[len(token):]
+            found_token = True
+
+    if found_token:
+        return
+
+    session().annotate('No token found at the start of ”{}”'.format(text))
+    session().annotate('using structural elements to infer it')
+    # TODO: review this when multiple structural elements are available
+    for se in knowledge_base.structural_elements:
+        session().annotate('Looking for se “{}” in “{}”'.format(se, text))
+        position = text.find(se, 0)
+        found = position > 0  # 0 is not considered a valid position for this kind of split
+        if found:
+            session().annotate('Found ”{}”, inferring “{}”'.format(se, text[:position]))
+            yield text[:position], text[position:]
+
+    session().annotate('No structural element or token found, inferring only token remaining')
+    yield text, ''
+
+    # Using other tokens for cutoff
+    for token in knowledge_base.knowledge.keys():
+        session().annotate('Looking for token “{}” in “{}”'.format(token, text))
+        position = text.find(token)
+        found = position >= 0
+        if found:
+            session().annotate('Found ”{}”, in position ”{}”'.format(token, position))
+            yield text[:position], text[position:]
+
 
 def integrate_tokenization(knowledge_base, example):
     text = example['text']
@@ -131,7 +136,7 @@ def integrate_token_to_text_matching(knowledge_base, text, tokens):
             if token in text:
                 before, after = text.split(token, maxsplit=1)
                 texts = (texts[:i] + [before]
-                         + [token_id]
+                         + [a('token')]
                          + [after] + texts[i + 1:])
                 break
         else:
@@ -139,18 +144,16 @@ def integrate_token_to_text_matching(knowledge_base, text, tokens):
 
     # Remove leftovers from splits
     texts = list(filter(lambda x: x != '', texts))
+    session().log("Tokenized as {} over {}".format(texts, tokens))
 
-    for token_id, _token in enumerate(tokens):
-        # Find all elements between current token and next token
-        i = texts.index(token_id)
-        elements = [a('token')]
+    for i, element in enumerate(texts[:-1]):
+       learn_token_pair(element, texts[i + 1], knowledge_base)
 
-        i += 1
-        while i < len(texts) and not isinstance(texts[i], int):
-            elements.append(texts[i])
-            i += 1
+    return tokens
+
+def learn_token_pair(precedent, consequent, knowledge_base):
+    knowledge_base.add_token_pair(precedent, consequent)
 
-        knowledge_base.add_tokenization(tuple(elements))
 
 def pick_one_tokenization(options, knowledge_base):
     '''
@@ -158,26 +161,34 @@ def pick_one_tokenization(options, knowledge_base):
 
     Just pick the one with more results.
     '''
+    options = list(options)
     with session().log("Picking among: {} options\n{}".format(len(options), '\n'.join(map(str, options)))):
         return pick_by_score(options,
                              [
-                                 # First by number of splits
-                                 lambda tokenization: len(tokenization),
-
-                                 # Among them, by number of splits without structuring elements
+                                 # By number of splits without structuring elements
                                  lambda tokenization: sum(map(
-                                     lambda split: -sum(map(
+                                     lambda split: sum(map(
                                          lambda se: se in split, knowledge_base.structural_elements
-                                     )), tokenization))
+                                     )), tokenization)),
+
+                                 # By number of unknown tokens
+                                 lambda tokenization: len(list(filter(lambda token:
+                                                                      (token not in knowledge_base.knowledge.keys()) and
+                                                                      (token not in knowledge_base.structural_elements),
+                                                                      tokenization))),
+
+                                 # By number of splits
+                                 lambda tokenization: -len(tokenization),
                              ])
 
 def pick_by_score(options, heuristics):
     for heuristic in heuristics:
         assert(len(options) > 0)
         options = list(map(lambda opt: (heuristic(opt), opt), options))
-        sorted_options = sorted(options, key=lambda x: x[0], reverse=True)
+        sorted_options = sorted(options, key=lambda x: x[0], reverse=False)
 
         heuristic_cutoff = sorted_options[0][0]
+        session().annotate(sorted_options)
         pass_heuristic = [opt for (score, opt) in sorted_options if score <= heuristic_cutoff]
         options = pass_heuristic
 

From 6fb1e1e6495871d36b325de036856ddac9f2e4ca Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:13:45 +0200
Subject: [PATCH 60/69] Replace debugging prints by session logs.

---
 naive-nlu/tree_nlu/knowledge_base.py     | 1 -
 naive-nlu/tree_nlu/tests/tokenization.py | 4 ++--
 naive-nlu/tree_nlu/utils/tokenization.py | 9 +++++++--
 3 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index f8cfa99..218b09a 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -128,7 +128,6 @@ class KnowledgeBase(object):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
             tokens = self.tokenize(row)
-            print(tokens)
 
             fit = parsing.get_fit(self, tokens)
             if fit is None:
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
index 4b91dae..7e93d59 100644
--- a/naive-nlu/tree_nlu/tests/tokenization.py
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -65,8 +65,8 @@ def main():
             with session().log(example['text']):
                 tokens = list(knowledge.tokenize(example['text']))
 
-                print(tokens)
-                print(example['tokens'])
+                session().log('Expected “{}”, found “{}”'
+                            .format(tokens, example['tokens']))
                 assert example['tokens'] == tokens
 
         else:
diff --git a/naive-nlu/tree_nlu/utils/tokenization.py b/naive-nlu/tree_nlu/utils/tokenization.py
index 9b9ee11..b763584 100644
--- a/naive-nlu/tree_nlu/utils/tokenization.py
+++ b/naive-nlu/tree_nlu/utils/tokenization.py
@@ -1,3 +1,7 @@
+from ..session.org_mode import (
+    global_session as session,
+)
+
 BASIC_TOKENIZATION_EXAMPLES = (
     ({
         "text": 'cat',
@@ -15,5 +19,6 @@ BASIC_TOKENIZATION_EXAMPLES = (
 
 
 def train_basic_tokenization(knowledge_base):
-    for example in BASIC_TOKENIZATION_EXAMPLES:
-        knowledge_base.train_tokenizer(example)
+    with session().log('Training basic tokenization'):
+        for example in BASIC_TOKENIZATION_EXAMPLES:
+            knowledge_base.train_tokenizer(example)

From d63781a0d2f4cad67860262eccd2c756d5cb00f2 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:45:24 +0200
Subject: [PATCH 61/69] Learn from tokenizations inferred.

---
 naive-nlu/tree_nlu/knowledge_base.py     |  1 +
 naive-nlu/tree_nlu/tests/tokenization.py | 16 ++++++++++------
 naive-nlu/tree_nlu/utils/tokenization.py |  5 +++++
 3 files changed, 16 insertions(+), 6 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 218b09a..8e12f5e 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -121,6 +121,7 @@ class KnowledgeBase(object):
             if return_one:
                 chosen = parsing.pick_one_tokenization(options, self)
                 session().log("Chosen: “{}”".format(chosen))
+                self.train_tokenizer({'text': row, 'tokens': chosen})
                 return chosen
             return options
 
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
index 7e93d59..6b61fc4 100644
--- a/naive-nlu/tree_nlu/tests/tokenization.py
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -34,11 +34,11 @@ EXAMPLES = [
         "text": 'plane',
         "tokens": ['plane'],
     }),
-    ('test', {
-        "text": 'planes',
-        "tokens": ['planes'],
-        "meaning": { 'planes': ('add-modifier', 'plane', 'plural') },
-    }),
+    # ('test', {
+    #     "text": 'planes',
+    #     "tokens": ['planes'],
+    #     "meaning": { 'planes': ('add-modifier', 'plane', 'plural') },
+    # }),
     ('test', {
         "text": 'some other text',
         "tokens": ['some', 'other', 'text'],
@@ -46,6 +46,10 @@ EXAMPLES = [
     ('test', {
         "text": 'is the sun a star?',
         "tokens": ['is', 'the', 'sun', 'a', 'star', '?'],
+    }),
+    ('test', {
+        "text": 'sometextnotseparatedbyspaces',
+        "tokens": ['some', 'text', 'not', 'separated', 'by', 'spaces'],
     })
 ]
 
@@ -66,7 +70,7 @@ def main():
                 tokens = list(knowledge.tokenize(example['text']))
 
                 session().log('Expected “{}”, found “{}”'
-                            .format(tokens, example['tokens']))
+                            .format(example['tokens'], tokens))
                 assert example['tokens'] == tokens
 
         else:
diff --git a/naive-nlu/tree_nlu/utils/tokenization.py b/naive-nlu/tree_nlu/utils/tokenization.py
index b763584..4664923 100644
--- a/naive-nlu/tree_nlu/utils/tokenization.py
+++ b/naive-nlu/tree_nlu/utils/tokenization.py
@@ -7,6 +7,11 @@ BASIC_TOKENIZATION_EXAMPLES = (
         "text": 'cat',
         "tokens": ['cat'],
     }),
+    ({
+        "text": 'cats',
+        "tokens": ['cats'],
+        "meaning": { 'cats': ('add-modifier', 'cat', 'plural') },
+    }),
     ({
         "text": 'text separated by spaces',
         "tokens": ['text', 'separated', 'by', 'spaces'],

From ee5492e69d41e206a633229c9ef27adf936ce8c3 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:45:59 +0200
Subject: [PATCH 62/69] Log tokenization options in a section separated from
 results.

---
 naive-nlu/tree_nlu/parsing.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 8f7613d..b43084e 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -162,7 +162,8 @@ def pick_one_tokenization(options, knowledge_base):
     Just pick the one with more results.
     '''
     options = list(options)
-    with session().log("Picking among: {} options\n{}".format(len(options), '\n'.join(map(str, options)))):
+    with session().log("Picking among: {} options".format(len(options))):
+        session().log("Options: \n{}".format('\n'.join(map(str, options))))
         return pick_by_score(options,
                              [
                                  # By number of splits without structuring elements

From 6c46f9db4b18de0be31e06d4fcb9e98cc5a9d3d2 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:46:30 +0200
Subject: [PATCH 63/69] Fix element_matches_bugs when element is a dictionary.

---
 naive-nlu/tree_nlu/parsing.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index b43084e..b06e18b 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -423,7 +423,7 @@ def all_matching_indexes(knowledge_base, collection, element):
 
 def element_matches_groups(knowledge, element: Dict, groups):
     if isinstance(groups, str) and groups in knowledge:
-        return len(knowledge[element].get("groups", set()) & element['groups']) > 0
+        return len(knowledge[groups].get("groups", set()) & element['groups']) > 0
     elif isinstance(groups, dict):
         return len(element.get("groups", set()) & element['groups']) > 0
     return False

From 45cc3a8a31e78296d79d17be7fb462c02ba70668 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 20:47:08 +0200
Subject: [PATCH 64/69] Train basic tokenization before gac_100 tests.

---
 naive-nlu/tree_nlu/tests/gac_100.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 5c57766..2e6bcf4 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -2,6 +2,7 @@ from ..session.org_mode import global_session as session
 from ..knowledge_base import KnowledgeBase
 from ..utils.visuals import show_progbar
 from ..visualization import show_knowledge
+from ..utils.tokenization import train_basic_tokenization
 
 def _assert(args):
     assert(args)
@@ -674,6 +675,8 @@ def main():
         knowledge=base_knowledge,
     )
 
+    train_basic_tokenization(knowledge)
+
     total = len(examples)
 
     for i, (example_type, data) in enumerate(examples):

From 130630672385e212f9163d39a96757fd4d53e79a Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 21:10:49 +0200
Subject: [PATCH 65/69] Pass tests using tokenization.

---
 naive-nlu/tree_nlu/parsing.py             | 33 +++++++++++++++--------
 naive-nlu/tree_nlu/test.py                |  6 ++---
 naive-nlu/tree_nlu/tests/gac_100.py       |  4 +++
 naive-nlu/tree_nlu/tests/gac_extension.py |  1 +
 4 files changed, 30 insertions(+), 14 deletions(-)

diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index b06e18b..1705286 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -406,22 +406,33 @@ def all_indexes(collection, element):
 def all_matching_indexes(knowledge_base, collection, element):
     indexes = []
 
-    assert("groups" in element)
-    element = element["groups"]
-    for i, instance in enumerate(collection):
-        if isinstance(instance, dict):
-            instance = instance["groups"]
-        elif instance in knowledge_base.knowledge:
-            instance = knowledge_base.knowledge[instance]["groups"]
+    with session().log('Matching “{}”'.format(element)):
+        assert("groups" in element)
+        element = element["groups"]
+        for i, instance in enumerate(collection):
+            session().log('Checking “{}”'.format(instance))
 
-        intersection = set(instance) & set(element)
-        if (len(intersection) > 0 or (0 == len(instance) == len(element))):
-            indexes.append((i, intersection))
+            if isinstance(instance, dict):
+                instance = instance["groups"]
+            elif instance in knowledge_base.knowledge:
+                session().log('Knowledge about “{}”: ”{}”'.format(instance, knowledge_base.knowledge[instance]))
 
-    return [x[0] for x in sorted(indexes, key=lambda x: len(x[1]), reverse=True)]
+                if "groups" not in knowledge_base.knowledge[instance]:
+                    # This means that is only known as token
+                    # so we should try to avoid using it
+                    continue
+
+                instance = knowledge_base.knowledge[instance]["groups"]
+
+            intersection = set(instance) & set(element)
+            if (len(intersection) > 0 or (0 == len(instance) == len(element))):
+                indexes.append((i, intersection))
+
+        return [x[0] for x in sorted(indexes, key=lambda x: len(x[1]), reverse=True)]
 
 
 def element_matches_groups(knowledge, element: Dict, groups):
+  with session().log("Checking if e “{}” matches groups “{}”".format(element, groups)):
     if isinstance(groups, str) and groups in knowledge:
         return len(knowledge[groups].get("groups", set()) & element['groups']) > 0
     elif isinstance(groups, dict):
diff --git a/naive-nlu/tree_nlu/test.py b/naive-nlu/tree_nlu/test.py
index 11cd561..683f85e 100644
--- a/naive-nlu/tree_nlu/test.py
+++ b/naive-nlu/tree_nlu/test.py
@@ -11,9 +11,9 @@ logging.getLogger().setLevel(logging.ERROR)
 
 tests = (
     ("tokenization", tokenization),
-    # ("basic", basic),
-    # ("gac 100", gac_100),
-    # ("gac+", gac_extension),
+    ("basic", basic),
+    ("gac 100", gac_100),
+    ("gac+", gac_extension),
 )
 
 
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index 2e6bcf4..f4656fb 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -668,6 +668,10 @@ base_knowledge = {
     'electricity': {
         "groups": {'power'},
     },
+    'airplanes': {},
+    'white': {
+        'groups': {'property'},
+    }
 }
 
 def main():
diff --git a/naive-nlu/tree_nlu/tests/gac_extension.py b/naive-nlu/tree_nlu/tests/gac_extension.py
index 5aae0a2..abb87ba 100644
--- a/naive-nlu/tree_nlu/tests/gac_extension.py
+++ b/naive-nlu/tree_nlu/tests/gac_extension.py
@@ -22,4 +22,5 @@ def ask_then_learn_test(knowledge: KnowledgeBase):
 def main():
     knowledge = gac_100.main()
 
+    knowledge.knowledge['blue'] = {'groups': {'property'}}
     knowledge = ask_then_learn_test(knowledge)

From 8b67b96d2fe724e59c4618417ab81b8cc1daa4d6 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Sun, 15 Apr 2018 22:15:28 +0200
Subject: [PATCH 66/69] Separate tokenization module.

---
 naive-nlu/tree_nlu/knowledge_base.py |   7 +-
 naive-nlu/tree_nlu/parsing.py        | 187 +--------------------------
 naive-nlu/tree_nlu/tokenization.py   | 186 ++++++++++++++++++++++++++
 3 files changed, 192 insertions(+), 188 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/tokenization.py

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 8e12f5e..389a70a 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -5,6 +5,7 @@ from .session.org_mode import global_session as session
 
 from .atoms import Atom
 from . import parsing
+from . import tokenization
 from . import knowledge_evaluation
 from .modifiable_property import is_modifiable_property
 import random
@@ -63,7 +64,7 @@ class KnowledgeBase(object):
     def train_tokenizer(self, example):
         with session().log('Training tokenizer'):
             session().annotate("Example: {}".format(example))
-            tokens = parsing.integrate_tokenization(self, example)
+            tokens = tokenization.integrate_tokenization(self, example)
 
             # Integrate knowledge of concept
             for token in tokens:
@@ -115,11 +116,11 @@ class KnowledgeBase(object):
     def tokenize(self, row, return_one=True):
         row = row.lower()
         with session().log("Tokenize: {}".format(row)):
-            options = list(parsing.to_tokens(self, row))
+            options = list(tokenization.to_tokens(self, row))
             session().log("Results:\n{}".format('\n'.join(map(str, options))))
 
             if return_one:
-                chosen = parsing.pick_one_tokenization(options, self)
+                chosen = tokenization.pick_one_tokenization(options, self)
                 session().log("Chosen: “{}”".format(chosen))
                 self.train_tokenizer({'text': row, 'tokens': chosen})
                 return chosen
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/parsing.py
index 1705286..f22a4ce 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/parsing.py
@@ -1,6 +1,7 @@
 #!/usr/bin/env python
 
 from . import knowledge_evaluation
+from . import tokenization
 
 from . import depth_meter
 from .session.org_mode import global_session as session
@@ -13,190 +14,6 @@ from .modifiable_property import ModifiableProperty
 from . import parameters
 from .atoms import Atom, a, is_atom
 
-def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
-    for se in knowledge_base.structural_elements:
-        found_position = remaining.find(se)
-        found = found_position >= 0
-        session().annotate('Looking for structure with “{}”, found? {}'.format(se, found))
-        if found:
-            return [
-                (remaining[:found_position], se, remaining[found_position + len(se):])
-            ]
-
-    for token in knowledge_base.knowledge.keys():
-        found_position = remaining.find(token)
-        found = found_position >= 0
-        session().annotate('Looking for token “{}”, found? {}'.format(token, found))
-        if found:
-            return [
-                (remaining[:found_position], token, remaining[found_position + len(token):])
-            ]
-
-    return None
-
-
-
-def to_tokens(knowledge_base, text, precedent=None):
-    if len(text) == 0:
-        session().annotate("No text remaining")
-        yield ['']
-        return
-
-    with session().log("Tokenizing {}".format(text)):
-        for option in knowledge_base.expected_token_after_precedent(precedent):
-            with session().log("Next: “{}”".format(option)):
-                with session().log("Matching “{}” on “{}”".format(option, text)):
-                    for token_match in tokenization_match(option, text, knowledge_base):
-                        if token_match is None:
-                            session().annotate("No match")
-
-                        match, remaining = token_match
-                        if len(remaining) == len(text):
-                            raise Exception('No text consumed in match')
-
-                        session().annotate('Match: “{}”'.format(match))
-                        with session().log('Remaining “{}”'.format(remaining)):
-                            for sublevel in to_tokens(knowledge_base, remaining, match):
-                                candidate = list(filter(lambda x: x != '', [match] + sublevel))
-                                session().annotate('Yielding candidate “{}”'.format(candidate))
-                                yield candidate
-
-
-def tokenization_match(element, text, knowledge_base):
-    # Constant/structural string matching
-    if isinstance(element, str):
-        if text.find(element) == 0:
-            # This match comes from a structuring element
-            # It doesn't appear on the tokenization
-            # So we should return it as an empty string
-            yield ('', text[len(element):])
-            return
-        else:
-            # No match found
-            return
-
-    elif is_atom(element, 'token'):
-        yield from match_single_token(text, knowledge_base)
-        return
-    raise NotImplementedError()
-
-
-def match_single_token(text, knowledge_base):
-    found_token = False
-    for token in knowledge_base.knowledge.keys():
-        if text.find(token) == 0:
-            yield token, text[len(token):]
-            found_token = True
-
-    if found_token:
-        return
-
-    session().annotate('No token found at the start of ”{}”'.format(text))
-    session().annotate('using structural elements to infer it')
-    # TODO: review this when multiple structural elements are available
-    for se in knowledge_base.structural_elements:
-        session().annotate('Looking for se “{}” in “{}”'.format(se, text))
-        position = text.find(se, 0)
-        found = position > 0  # 0 is not considered a valid position for this kind of split
-        if found:
-            session().annotate('Found ”{}”, inferring “{}”'.format(se, text[:position]))
-            yield text[:position], text[position:]
-
-    session().annotate('No structural element or token found, inferring only token remaining')
-    yield text, ''
-
-    # Using other tokens for cutoff
-    for token in knowledge_base.knowledge.keys():
-        session().annotate('Looking for token “{}” in “{}”'.format(token, text))
-        position = text.find(token)
-        found = position >= 0
-        if found:
-            session().annotate('Found ”{}”, in position ”{}”'.format(token, position))
-            yield text[:position], text[position:]
-
-
-def integrate_tokenization(knowledge_base, example):
-    text = example['text']
-    tokens = example['tokens']
-    meaning = example.get('meaning')
-
-    return integrate_token_to_text_matching(knowledge_base, text, tokens)
-
-
-def integrate_token_to_text_matching(knowledge_base, text, tokens):
-    texts = [text]
-
-    # Convert to tokens
-    for token_id, token in enumerate(tokens):
-        # Look for token in texts
-        for i, text in enumerate(texts):
-            if isinstance(text, int):
-                continue
-
-            if token in text:
-                before, after = text.split(token, maxsplit=1)
-                texts = (texts[:i] + [before]
-                         + [a('token')]
-                         + [after] + texts[i + 1:])
-                break
-        else:
-            raise Exception('Token not found')
-
-    # Remove leftovers from splits
-    texts = list(filter(lambda x: x != '', texts))
-    session().log("Tokenized as {} over {}".format(texts, tokens))
-
-    for i, element in enumerate(texts[:-1]):
-       learn_token_pair(element, texts[i + 1], knowledge_base)
-
-    return tokens
-
-def learn_token_pair(precedent, consequent, knowledge_base):
-    knowledge_base.add_token_pair(precedent, consequent)
-
-
-def pick_one_tokenization(options, knowledge_base):
-    '''
-    Heuristic function to pick the most probable tokenization.
-
-    Just pick the one with more results.
-    '''
-    options = list(options)
-    with session().log("Picking among: {} options".format(len(options))):
-        session().log("Options: \n{}".format('\n'.join(map(str, options))))
-        return pick_by_score(options,
-                             [
-                                 # By number of splits without structuring elements
-                                 lambda tokenization: sum(map(
-                                     lambda split: sum(map(
-                                         lambda se: se in split, knowledge_base.structural_elements
-                                     )), tokenization)),
-
-                                 # By number of unknown tokens
-                                 lambda tokenization: len(list(filter(lambda token:
-                                                                      (token not in knowledge_base.knowledge.keys()) and
-                                                                      (token not in knowledge_base.structural_elements),
-                                                                      tokenization))),
-
-                                 # By number of splits
-                                 lambda tokenization: -len(tokenization),
-                             ])
-
-def pick_by_score(options, heuristics):
-    for heuristic in heuristics:
-        assert(len(options) > 0)
-        options = list(map(lambda opt: (heuristic(opt), opt), options))
-        sorted_options = sorted(options, key=lambda x: x[0], reverse=False)
-
-        heuristic_cutoff = sorted_options[0][0]
-        session().annotate(sorted_options)
-        pass_heuristic = [opt for (score, opt) in sorted_options if score <= heuristic_cutoff]
-        options = pass_heuristic
-
-    session().log("{} finalists: \n{}".format(len(options), '\n'.join(map(str, options))))
-    return options[0]
-
-
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
     template = list(parsed)
@@ -267,7 +84,7 @@ def integrate_language(knowledge_base, example):
     parsed = example["parsed"]
 
     resolved_parsed = copy.deepcopy(parsed)
-    tokens = list(pick_one_tokenization(to_tokens(knowledge_base, text), knowledge_base))
+    tokens = list(tokenization.pick_one_tokenization(tokenization.to_tokens(knowledge_base, text), knowledge_base))
 
     while True:
         session().annotate("P: {}".format(resolved_parsed))
diff --git a/naive-nlu/tree_nlu/tokenization.py b/naive-nlu/tree_nlu/tokenization.py
new file mode 100644
index 0000000..7322cb5
--- /dev/null
+++ b/naive-nlu/tree_nlu/tokenization.py
@@ -0,0 +1,186 @@
+from .session.org_mode import global_session as session
+from .atoms import Atom, a, is_atom
+
+def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
+    for se in knowledge_base.structural_elements:
+        found_position = remaining.find(se)
+        found = found_position >= 0
+        session().annotate('Looking for structure with “{}”, found? {}'.format(se, found))
+        if found:
+            return [
+                (remaining[:found_position], se, remaining[found_position + len(se):])
+            ]
+
+    for token in knowledge_base.knowledge.keys():
+        found_position = remaining.find(token)
+        found = found_position >= 0
+        session().annotate('Looking for token “{}”, found? {}'.format(token, found))
+        if found:
+            return [
+                (remaining[:found_position], token, remaining[found_position + len(token):])
+            ]
+
+    return None
+
+
+
+def to_tokens(knowledge_base, text, precedent=None):
+    if len(text) == 0:
+        session().annotate("No text remaining")
+        yield ['']
+        return
+
+    with session().log("Tokenizing {}".format(text)):
+        for option in knowledge_base.expected_token_after_precedent(precedent):
+            with session().log("Next: “{}”".format(option)):
+                with session().log("Matching “{}” on “{}”".format(option, text)):
+                    for token_match in tokenization_match(option, text, knowledge_base):
+                        if token_match is None:
+                            session().annotate("No match")
+
+                        match, remaining = token_match
+                        if len(remaining) == len(text):
+                            raise Exception('No text consumed in match')
+
+                        session().annotate('Match: “{}”'.format(match))
+                        with session().log('Remaining “{}”'.format(remaining)):
+                            for sublevel in to_tokens(knowledge_base, remaining, match):
+                                candidate = list(filter(lambda x: x != '', [match] + sublevel))
+                                session().annotate('Yielding candidate “{}”'.format(candidate))
+                                yield candidate
+
+
+def tokenization_match(element, text, knowledge_base):
+    # Constant/structural string matching
+    if isinstance(element, str):
+        if text.find(element) == 0:
+            # This match comes from a structuring element
+            # It doesn't appear on the tokenization
+            # So we should return it as an empty string
+            yield ('', text[len(element):])
+            return
+        else:
+            # No match found
+            return
+
+    elif is_atom(element, 'token'):
+        yield from match_single_token(text, knowledge_base)
+        return
+    raise NotImplementedError()
+
+
+def match_single_token(text, knowledge_base):
+    found_token = False
+    for token in knowledge_base.knowledge.keys():
+        if text.find(token) == 0:
+            yield token, text[len(token):]
+            found_token = True
+
+    if found_token:
+        return
+
+    session().annotate('No token found at the start of ”{}”'.format(text))
+    session().annotate('using structural elements to infer it')
+    # TODO: review this when multiple structural elements are available
+    for se in knowledge_base.structural_elements:
+        session().annotate('Looking for se “{}” in “{}”'.format(se, text))
+        position = text.find(se, 0)
+        found = position > 0  # 0 is not considered a valid position for this kind of split
+        if found:
+            session().annotate('Found ”{}”, inferring “{}”'.format(se, text[:position]))
+            yield text[:position], text[position:]
+
+    session().annotate('No structural element or token found, inferring only token remaining')
+    yield text, ''
+
+    # Using other tokens for cutoff
+    for token in knowledge_base.knowledge.keys():
+        session().annotate('Looking for token “{}” in “{}”'.format(token, text))
+        position = text.find(token)
+        found = position >= 0
+        if found:
+            session().annotate('Found ”{}”, in position ”{}”'.format(token, position))
+            yield text[:position], text[position:]
+
+
+def integrate_tokenization(knowledge_base, example):
+    text = example['text']
+    tokens = example['tokens']
+    meaning = example.get('meaning')
+
+    return integrate_token_to_text_matching(knowledge_base, text, tokens)
+
+
+def integrate_token_to_text_matching(knowledge_base, text, tokens):
+    texts = [text]
+
+    # Convert to tokens
+    for token_id, token in enumerate(tokens):
+        # Look for token in texts
+        for i, text in enumerate(texts):
+            if isinstance(text, int):
+                continue
+
+            if token in text:
+                before, after = text.split(token, maxsplit=1)
+                texts = (texts[:i] + [before]
+                         + [a('token')]
+                         + [after] + texts[i + 1:])
+                break
+        else:
+            raise Exception('Token not found')
+
+    # Remove leftovers from splits
+    texts = list(filter(lambda x: x != '', texts))
+    session().log("Tokenized as {} over {}".format(texts, tokens))
+
+    for i, element in enumerate(texts[:-1]):
+       learn_token_pair(element, texts[i + 1], knowledge_base)
+
+    return tokens
+
+def learn_token_pair(precedent, consequent, knowledge_base):
+    knowledge_base.add_token_pair(precedent, consequent)
+
+
+def pick_one_tokenization(options, knowledge_base):
+    '''
+    Heuristic function to pick the most probable tokenization.
+
+    Just pick the one with more results.
+    '''
+    options = list(options)
+    with session().log("Picking among: {} options".format(len(options))):
+        session().log("Options: \n{}".format('\n'.join(map(str, options))))
+        return pick_by_score(options,
+                             [
+                                 # By number of splits without structuring elements
+                                 lambda tokenization: sum(map(
+                                     lambda split: sum(map(
+                                         lambda se: se in split, knowledge_base.structural_elements
+                                     )), tokenization)),
+
+                                 # By number of unknown tokens
+                                 lambda tokenization: len(list(filter(lambda token:
+                                                                      (token not in knowledge_base.knowledge.keys()) and
+                                                                      (token not in knowledge_base.structural_elements),
+                                                                      tokenization))),
+
+                                 # By number of splits
+                                 lambda tokenization: -len(tokenization),
+                             ])
+
+def pick_by_score(options, heuristics):
+    for heuristic in heuristics:
+        assert(len(options) > 0)
+        options = list(map(lambda opt: (heuristic(opt), opt), options))
+        sorted_options = sorted(options, key=lambda x: x[0], reverse=False)
+
+        heuristic_cutoff = sorted_options[0][0]
+        session().annotate(sorted_options)
+        pass_heuristic = [opt for (score, opt) in sorted_options if score <= heuristic_cutoff]
+        options = pass_heuristic
+
+    session().log("{} finalists: \n{}".format(len(options), '\n'.join(map(str, options))))
+    return options[0]
+

From a444766c7caed2395d30275ab557ab57b22aef31 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Mon, 23 Apr 2018 22:48:10 +0200
Subject: [PATCH 67/69] Exploration of layers for tokenization and parsing.

---
 .gitignore                                    |  1 +
 naive-nlu/tree_nlu/knowledge_base.py          | 76 ++---------------
 naive-nlu/tree_nlu/layered_model.py           | 47 +++++++++++
 naive-nlu/tree_nlu/{ => layers}/parsing.py    | 36 ++------
 naive-nlu/tree_nlu/layers/parsing_layer.py    | 11 +++
 .../tree_nlu/{ => layers}/tokenization.py     |  4 +-
 .../tree_nlu/layers/tokenization_layer.py     | 84 +++++++++++++++++++
 naive-nlu/tree_nlu/tests/gac_100.py           | 16 ++--
 naive-nlu/tree_nlu/tests/tokenization.py      |  4 +-
 naive-nlu/tree_nlu/utils/tokenization.py      |  2 +-
 10 files changed, 173 insertions(+), 108 deletions(-)
 create mode 100644 naive-nlu/tree_nlu/layered_model.py
 rename naive-nlu/tree_nlu/{ => layers}/parsing.py (95%)
 create mode 100644 naive-nlu/tree_nlu/layers/parsing_layer.py
 rename naive-nlu/tree_nlu/{ => layers}/tokenization.py (98%)
 create mode 100644 naive-nlu/tree_nlu/layers/tokenization_layer.py

diff --git a/.gitignore b/.gitignore
index 961205f..e9d4714 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,5 +1,6 @@
 *#*
 *~
+.vscode
 *.ba?k
 *.pyc
 __pycache__
diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 389a70a..3302ea9 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -4,8 +4,7 @@ import logging
 from .session.org_mode import global_session as session
 
 from .atoms import Atom
-from . import parsing
-from . import tokenization
+from . import layered_model
 from . import knowledge_evaluation
 from .modifiable_property import is_modifiable_property
 import random
@@ -15,21 +14,6 @@ def diff_knowledge(before, after):
     return jsondiff.diff(before, after)
 
 
-def randomized_weighted_list(elements):
-    # Randomized
-    randomized = list(elements)
-    random.shuffle(randomized)
-
-    # And return only once
-    already_returned = set()
-    for e in randomized:
-        if e in already_returned:
-            continue
-
-        yield e
-        already_returned.add(e)
-
-
 
 class KnowledgeBase(object):
     def __init__(self, knowledge={}, examples=[], trained=[]):
@@ -37,41 +21,9 @@ class KnowledgeBase(object):
         self.originals = []
         self.examples = copy.copy(examples)
         self.trained = copy.copy(trained)
-        self.structural_elements = set()
-        self.token_chains = {}
-        self.tokens = set()
-
-    def add_token_pair(self, precedent, consequent):
-        self.add_token(precedent)
-        self.add_token(consequent)
-
-        if precedent not in self.token_chains:
-            self.token_chains[precedent] = []
-        self.token_chains[precedent].append(consequent)
-
-    def add_token(self, token):
-        self.tokens.add(token)
-        if (not isinstance(token, Atom)) and (token not in self.structural_elements):
-            session().annotate('Found new structural element “{}”'.format(token))
-            self.structural_elements.add(token)
-
-    def expected_token_after_precedent(self, precedent=None):
-        if precedent not in self.token_chains:  # If there's no known precedent, just return all tokens
-            return randomized_weighted_list(self.tokens)
-
-        return randomized_weighted_list(self.token_chains[precedent])
-
-    def train_tokenizer(self, example):
-        with session().log('Training tokenizer'):
-            session().annotate("Example: {}".format(example))
-            tokens = tokenization.integrate_tokenization(self, example)
-
-            # Integrate knowledge of concept
-            for token in tokens:
-                if not token in self.knowledge:
-                    self.knowledge[token] = {}
-
+        self.layers = layered_model.BaseModel(self)
 
+    ## Parsing
     def train(self, examples):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log('Train'):
@@ -86,11 +38,12 @@ class KnowledgeBase(object):
                         self.act_upon(result)
 
                 with session().log("language integration"):
-                    tokens, decomposition, inferred_tree = parsing.integrate_language(self, example)
-                    session().annotate("Tokens: {}".format(tokens))
-                    session().annotate("Inferred tree: {}".format(inferred_tree))
+                    for tokens, decomposition, inferred_tree in self.layers.integrate(self, example):
+                        session().annotate("Tokens: {}".format(tokens))
+                        session().annotate("Inferred tree: {}".format(inferred_tree))
 
                 with session().log("full information integration"):
+                    tokens = self.layers.tokenization.tokenize(example['text'], return_one=True)
                     result = knowledge_evaluation.integrate_information(self.knowledge, {
                         "elements": tokens,
                         "decomposition": decomposition,
@@ -105,7 +58,7 @@ class KnowledgeBase(object):
 
                 # Reduce values
                 with session().log("reprocessing"):
-                    self.trained = parsing.reprocess_language_knowledge(self, self.examples)
+                    self.layers.reprocess(self.examples)
 
             knowledge_after = copy.deepcopy(self.knowledge)
             knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
@@ -113,19 +66,6 @@ class KnowledgeBase(object):
 
             return knowledge_diff_getter
 
-    def tokenize(self, row, return_one=True):
-        row = row.lower()
-        with session().log("Tokenize: {}".format(row)):
-            options = list(tokenization.to_tokens(self, row))
-            session().log("Results:\n{}".format('\n'.join(map(str, options))))
-
-            if return_one:
-                chosen = tokenization.pick_one_tokenization(options, self)
-                session().log("Chosen: “{}”".format(chosen))
-                self.train_tokenizer({'text': row, 'tokens': chosen})
-                return chosen
-            return options
-
     def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
diff --git a/naive-nlu/tree_nlu/layered_model.py b/naive-nlu/tree_nlu/layered_model.py
new file mode 100644
index 0000000..9ecc242
--- /dev/null
+++ b/naive-nlu/tree_nlu/layered_model.py
@@ -0,0 +1,47 @@
+from .layers import tokenization_layer
+from .layers import parsing_layer
+
+
+def make_yield_pipe(layers, knowledge_base, example):
+    if len(layers) < 1:
+        yield example
+        return
+
+    input_generator = make_yield_pipe(layers[:-1], knowledge_base, example)
+    for input in input_generator:
+        print("-->", input)
+        for d in list(layers[-1].integrate(knowledge_base, input)):
+            yield d
+
+
+class BaseModel:
+    def __init__(self, knowledge_base):
+        self.tokenization = tokenization_layer.TokenizationLayer(knowledge_base)
+        self.parsing = parsing_layer.ParsingLayer()
+
+        self.layers = [
+            self.tokenization,
+            self.parsing,
+        ]
+
+    def reprocess(self, examples):
+        for example in examples:
+            self._reprocess_single(example)
+
+    def _reprocess_single(self, example):
+        return 
+        pattern_examples = []
+        for i, sample in enumerate(examples):
+            other = examples[:i] + examples[i + 1:]
+            match = get_matching(sample, other)
+            if len(match) > 0:
+                sample = (match, sample[1],)
+            pattern_examples.append(sample)
+
+        return pattern_examples
+
+    def integrate(self, knowledge_base, example):
+        yield from make_yield_pipe(self.layers, knowledge_base, example)    
+
+    def tokenize(self, row, return_one=True):
+        return self.tokenization.to_tokens(row)
diff --git a/naive-nlu/tree_nlu/parsing.py b/naive-nlu/tree_nlu/layers/parsing.py
similarity index 95%
rename from naive-nlu/tree_nlu/parsing.py
rename to naive-nlu/tree_nlu/layers/parsing.py
index f22a4ce..7073a3a 100644
--- a/naive-nlu/tree_nlu/parsing.py
+++ b/naive-nlu/tree_nlu/layers/parsing.py
@@ -1,18 +1,14 @@
 #!/usr/bin/env python
 
-from . import knowledge_evaluation
-from . import tokenization
-
-from . import depth_meter
-from .session.org_mode import global_session as session
+from ..session.org_mode import global_session as session
 import re
 import copy
 
 from functools import reduce
 from typing import List, Dict
-from .modifiable_property import ModifiableProperty
-from . import parameters
-from .atoms import Atom, a, is_atom
+from ..modifiable_property import ModifiableProperty
+from .. import parameters
+from ..atoms import Atom, a, is_atom
 
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
@@ -83,8 +79,8 @@ def integrate_language(knowledge_base, example):
     text = example["text"].lower()
     parsed = example["parsed"]
 
+    tokens = example['tokens']
     resolved_parsed = copy.deepcopy(parsed)
-    tokens = list(tokenization.pick_one_tokenization(tokenization.to_tokens(knowledge_base, text), knowledge_base))
 
     while True:
         session().annotate("P: {}".format(resolved_parsed))
@@ -95,14 +91,14 @@ def integrate_language(knowledge_base, example):
 
         for position, atom in lower_levels:
             with session().log("Atom {}".format(atom)):
+                result = None
                 similars = get_similar_tree(knowledge_base, atom, tokens)
                 for similar in similars:
                     result = build_remix_matrix(knowledge_base, tokens, atom, similar)
                     if result is not None:
                         break
 
-                if result is None:
-                    raise Exception("No match found")
+                return
                 remix, (start_bounds, end_bounds) = result
 
                 after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
@@ -147,7 +143,7 @@ def integrate_language(knowledge_base, example):
     session().annotate("M: {}".format(matcher))
     session().annotate("R: {}".format(result))
     session().annotate("---")
-    return tokens, matcher, result
+    yield tokens, matcher, result
 
 
 def apply_remix(tokens, remix):
@@ -319,7 +315,7 @@ def get_similar_tree(knowledge_base, atom, tokens):
 
     sorted_possibilities = sorted(sorted_possibilities, key=lambda p: p[3] * 100 + p[4], reverse=True)
     if len(sorted_possibilities) < 1:
-        return None
+        return []
 
     for i, possibility in enumerate(sorted_possibilities):
         similar_matcher, similar_result, similar_result_resolved, _atom_score, _token_score = possibility
@@ -369,20 +365,6 @@ def get_matching(sample, other):
     return matching
 
 
-def reprocess_language_knowledge(knowledge_base, examples):
-    examples = knowledge_base.examples + examples
-
-    pattern_examples = []
-    for i, sample in enumerate(examples):
-        other = examples[:i] + examples[i + 1:]
-        match = get_matching(sample, other)
-        if len(match) > 0:
-            sample = (match, sample[1],)
-        pattern_examples.append(sample)
-
-    return pattern_examples
-
-
 def reverse_remix(tree_section, remix):
     result_section = []
     offset = 0
diff --git a/naive-nlu/tree_nlu/layers/parsing_layer.py b/naive-nlu/tree_nlu/layers/parsing_layer.py
new file mode 100644
index 0000000..13b865d
--- /dev/null
+++ b/naive-nlu/tree_nlu/layers/parsing_layer.py
@@ -0,0 +1,11 @@
+from . import parsing
+
+class ParsingLayer:
+    def __init__(self):
+        pass
+
+    def integrate(self, knowledge_base, example):
+        yield from parsing.integrate_language(knowledge_base, example)
+
+    def train(self, knowledge_base, example):
+        assert False
\ No newline at end of file
diff --git a/naive-nlu/tree_nlu/tokenization.py b/naive-nlu/tree_nlu/layers/tokenization.py
similarity index 98%
rename from naive-nlu/tree_nlu/tokenization.py
rename to naive-nlu/tree_nlu/layers/tokenization.py
index 7322cb5..ec3f0a8 100644
--- a/naive-nlu/tree_nlu/tokenization.py
+++ b/naive-nlu/tree_nlu/layers/tokenization.py
@@ -1,5 +1,5 @@
-from .session.org_mode import global_session as session
-from .atoms import Atom, a, is_atom
+from ..session.org_mode import global_session as session
+from ..atoms import Atom, a, is_atom
 
 def lookahead_for_tokens_or_strucutral_elements(knowledge_base, remaining):
     for se in knowledge_base.structural_elements:
diff --git a/naive-nlu/tree_nlu/layers/tokenization_layer.py b/naive-nlu/tree_nlu/layers/tokenization_layer.py
new file mode 100644
index 0000000..1271818
--- /dev/null
+++ b/naive-nlu/tree_nlu/layers/tokenization_layer.py
@@ -0,0 +1,84 @@
+from ..session.org_mode import global_session as session
+from ..atoms import Atom
+from . import tokenization
+import random
+import copy
+
+def randomized_weighted_list(elements):
+    # Randomized
+    randomized = list(elements)
+    random.shuffle(randomized)
+
+    # And return only once
+    already_returned = set()
+    for e in randomized:
+        if e in already_returned:
+            continue
+
+        yield e
+        already_returned.add(e)
+
+class TokenizationLayer:
+    def __init__(self, knowledge_base):
+        self.structural_elements = set()
+        self.token_chains = {}
+        self.tokens = set()
+        self.knowledge_base = knowledge_base
+        self.knowledge = knowledge_base.knowledge
+
+    def integrate(self, knowledge_base, data):
+        assert knowledge_base is self.knowledge_base
+
+        print(data)
+        assert 'text' in data
+        with session().log("Tokenize: {}".format(data['text'])):
+            for tokens in tokenization.to_tokens(self, data['text']):
+                data_with_row = copy.copy(data)
+                data_with_row['tokens'] = tokens
+                print(data_with_row)
+                yield data_with_row
+
+
+    def tokenize(self, row, return_one=True):
+        row = row.lower()
+        with session().log("Tokenize: {}".format(row)):
+            options = list(tokenization.to_tokens(self, row))
+            session().log("Results:\n{}".format('\n'.join(map(str, options))))
+
+            if return_one:
+                chosen = tokenization.pick_one_tokenization(options, self)
+                session().log("Chosen: “{}”".format(chosen))
+                self.train({'text': row, 'tokens': chosen})
+                return chosen
+            return options
+
+    ## Tokenization
+    def add_token_pair(self, precedent, consequent):
+        self.add_token(precedent)
+        self.add_token(consequent)
+
+        if precedent not in self.token_chains:
+            self.token_chains[precedent] = []
+        self.token_chains[precedent].append(consequent)
+
+    def add_token(self, token):
+        self.tokens.add(token)
+        if (not isinstance(token, Atom)) and (token not in self.structural_elements):
+            session().annotate('Found new structural element “{}”'.format(token))
+            self.structural_elements.add(token)
+
+    def expected_token_after_precedent(self, precedent=None):
+        if precedent not in self.token_chains:  # If there's no known precedent, just return all tokens
+            return randomized_weighted_list(self.tokens)
+
+        return randomized_weighted_list(self.token_chains[precedent])
+
+    def train(self, example):
+        with session().log('Training tokenizer'):
+            session().annotate("Example: {}".format(example))
+            tokens = tokenization.integrate_tokenization(self, example)
+
+            # Integrate knowledge of concept
+            for token in tokens:
+                if not token in self.knowledge:
+                    self.knowledge[token] = {}
\ No newline at end of file
diff --git a/naive-nlu/tree_nlu/tests/gac_100.py b/naive-nlu/tree_nlu/tests/gac_100.py
index f4656fb..71469ac 100644
--- a/naive-nlu/tree_nlu/tests/gac_100.py
+++ b/naive-nlu/tree_nlu/tests/gac_100.py
@@ -99,14 +99,14 @@ examples = [
              lambda knowledge: _assert('electricity' in knowledge.knowledge['computers']['performs-over']['use'])
          ),],
      }),
-    ('full_example',
-     {
-         "text": "The dominant language in france is french?",
-         "affirmation": "The dominant language in france is french",
-         "parsed": ("question",
-                    ("property-has-value", "france", "dominant-language", "french")),
-         "answer": True,
-     }),
+    # ('full_example',
+    #  {
+    #      "text": "The dominant language in france is french?",
+    #      "affirmation": "The dominant language in france is french",
+    #      "parsed": ("question",
+    #                 ("property-has-value", "france", "dominant-language", "french")),
+    #      "answer": True,
+    #  }),
     # {
     #     "text": "was abraham lincoln once president of the united states?",
     #     "affirmation": "was abraham lincoln once president of the united states?",
diff --git a/naive-nlu/tree_nlu/tests/tokenization.py b/naive-nlu/tree_nlu/tests/tokenization.py
index 6b61fc4..9e32588 100644
--- a/naive-nlu/tree_nlu/tests/tokenization.py
+++ b/naive-nlu/tree_nlu/tests/tokenization.py
@@ -63,11 +63,11 @@ def main():
         show_progbar(i, total, example['text'])
         if case_type == 'example':
             with session().log(example['text']):
-                knowledge.train_tokenizer(example)
+                knowledge.layers.tokenization.train(example)
 
         elif case_type == 'test':
             with session().log(example['text']):
-                tokens = list(knowledge.tokenize(example['text']))
+                tokens = list(knowledge.layers.tokenization.tokenize(example['text']))
 
                 session().log('Expected “{}”, found “{}”'
                             .format(example['tokens'], tokens))
diff --git a/naive-nlu/tree_nlu/utils/tokenization.py b/naive-nlu/tree_nlu/utils/tokenization.py
index 4664923..f13c798 100644
--- a/naive-nlu/tree_nlu/utils/tokenization.py
+++ b/naive-nlu/tree_nlu/utils/tokenization.py
@@ -26,4 +26,4 @@ BASIC_TOKENIZATION_EXAMPLES = (
 def train_basic_tokenization(knowledge_base):
     with session().log('Training basic tokenization'):
         for example in BASIC_TOKENIZATION_EXAMPLES:
-            knowledge_base.train_tokenizer(example)
+            knowledge_base.layers.tokenization.train(example)

From 1ded981099094ebb43205fab4a0d407160b7de33 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 24 Apr 2018 23:01:36 +0200
Subject: [PATCH 68/69] Pass test using layer structure.

---
 naive-nlu/tree_nlu/knowledge_base.py          |  7 +++---
 naive-nlu/tree_nlu/layered_model.py           | 24 ++++++++++---------
 naive-nlu/tree_nlu/layers/parsing.py          |  4 +++-
 naive-nlu/tree_nlu/layers/parsing_layer.py    |  5 +++-
 .../tree_nlu/layers/tokenization_layer.py     | 20 ++++++++++------
 5 files changed, 36 insertions(+), 24 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 3302ea9..28ad221 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -58,7 +58,8 @@ class KnowledgeBase(object):
 
                 # Reduce values
                 with session().log("reprocessing"):
-                    self.layers.reprocess(self.examples)
+                    res = self.layers.reprocess(self.examples)
+                    self.trained = res
 
             knowledge_after = copy.deepcopy(self.knowledge)
             knowledge_diff_getter = lambda: diff_knowledge(knowledge_before,
@@ -69,9 +70,7 @@ class KnowledgeBase(object):
     def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
-            tokens = self.tokenize(row)
-
-            fit = parsing.get_fit(self, tokens)
+            fit = self.layers.process(self, row)
             if fit is None:
                 return None
 
diff --git a/naive-nlu/tree_nlu/layered_model.py b/naive-nlu/tree_nlu/layered_model.py
index 9ecc242..0aee057 100644
--- a/naive-nlu/tree_nlu/layered_model.py
+++ b/naive-nlu/tree_nlu/layered_model.py
@@ -1,16 +1,18 @@
 from .layers import tokenization_layer
 from .layers import parsing_layer
+from .layers import parsing
+from .session.org_mode import global_session as session
 
 
-def make_yield_pipe(layers, knowledge_base, example):
+def make_yield_pipe(layers, knowledge_base, example, func):
     if len(layers) < 1:
         yield example
         return
 
-    input_generator = make_yield_pipe(layers[:-1], knowledge_base, example)
+    input_generator = make_yield_pipe(layers[:-1], knowledge_base, example, func)
     for input in input_generator:
-        print("-->", input)
-        for d in list(layers[-1].integrate(knowledge_base, input)):
+        session().annotate("[{}] --> {}".format(len(layers), input))
+        for d in list(func(layers[-1], input)):
             yield d
 
 
@@ -25,15 +27,10 @@ class BaseModel:
         ]
 
     def reprocess(self, examples):
-        for example in examples:
-            self._reprocess_single(example)
-
-    def _reprocess_single(self, example):
-        return 
         pattern_examples = []
         for i, sample in enumerate(examples):
             other = examples[:i] + examples[i + 1:]
-            match = get_matching(sample, other)
+            match = parsing.get_matching(sample, other)
             if len(match) > 0:
                 sample = (match, sample[1],)
             pattern_examples.append(sample)
@@ -41,7 +38,12 @@ class BaseModel:
         return pattern_examples
 
     def integrate(self, knowledge_base, example):
-        yield from make_yield_pipe(self.layers, knowledge_base, example)    
+        yield from make_yield_pipe(self.layers, knowledge_base,
+         example, lambda l, i: l.integrate(knowledge_base, i))
+
+    def process(self, knowledge_base, example):
+        yield from make_yield_pipe(self.layers, knowledge_base,
+            example, lambda l, i: l.process(knowledge_base, i))
 
     def tokenize(self, row, return_one=True):
         return self.tokenization.to_tokens(row)
diff --git a/naive-nlu/tree_nlu/layers/parsing.py b/naive-nlu/tree_nlu/layers/parsing.py
index 7073a3a..69215d0 100644
--- a/naive-nlu/tree_nlu/layers/parsing.py
+++ b/naive-nlu/tree_nlu/layers/parsing.py
@@ -9,6 +9,7 @@ from typing import List, Dict
 from ..modifiable_property import ModifiableProperty
 from .. import parameters
 from ..atoms import Atom, a, is_atom
+from .. import knowledge_evaluation
 
 def make_template(knowledge_base, tokens, parsed):
     matcher = list(tokens)
@@ -97,8 +98,9 @@ def integrate_language(knowledge_base, example):
                     result = build_remix_matrix(knowledge_base, tokens, atom, similar)
                     if result is not None:
                         break
+                else:
+                    raise Exception('Similar not found')
 
-                return
                 remix, (start_bounds, end_bounds) = result
 
                 after_remix = apply_remix(tokens[len(start_bounds):-len(end_bounds)], remix)
diff --git a/naive-nlu/tree_nlu/layers/parsing_layer.py b/naive-nlu/tree_nlu/layers/parsing_layer.py
index 13b865d..b631c75 100644
--- a/naive-nlu/tree_nlu/layers/parsing_layer.py
+++ b/naive-nlu/tree_nlu/layers/parsing_layer.py
@@ -8,4 +8,7 @@ class ParsingLayer:
         yield from parsing.integrate_language(knowledge_base, example)
 
     def train(self, knowledge_base, example):
-        assert False
\ No newline at end of file
+        assert False
+
+    def process(self, knowledge_base, input):
+        yield from parsing.get_fit(knowledge_base, input)
\ No newline at end of file
diff --git a/naive-nlu/tree_nlu/layers/tokenization_layer.py b/naive-nlu/tree_nlu/layers/tokenization_layer.py
index 1271818..28852fc 100644
--- a/naive-nlu/tree_nlu/layers/tokenization_layer.py
+++ b/naive-nlu/tree_nlu/layers/tokenization_layer.py
@@ -29,14 +29,20 @@ class TokenizationLayer:
     def integrate(self, knowledge_base, data):
         assert knowledge_base is self.knowledge_base
 
-        print(data)
         assert 'text' in data
-        with session().log("Tokenize: {}".format(data['text'])):
-            for tokens in tokenization.to_tokens(self, data['text']):
-                data_with_row = copy.copy(data)
-                data_with_row['tokens'] = tokens
-                print(data_with_row)
-                yield data_with_row
+        tokens = self.tokenize(data['text'])
+        data_with_row = copy.copy(data)
+        data_with_row['tokens'] = tokens
+        yield data_with_row
+
+        # with session().log("Tokenize: {}".format(data['text'])):
+        #     for tokens in tokenization.to_tokens(self, data['text']):
+        #         data_with_row = copy.copy(data)
+        #         data_with_row['tokens'] = tokens
+        #         yield data_with_row
+        
+    def process(self, knowledge_base, row):
+        yield self.tokenize(row)
 
 
     def tokenize(self, row, return_one=True):

From 712503804d7210661b7f6565ce11d119806b19e3 Mon Sep 17 00:00:00 2001
From: kenkeiras <kenkeiras@codigoparallevar.com>
Date: Tue, 24 Apr 2018 23:12:14 +0200
Subject: [PATCH 69/69] Properly handle solutions not found.

---
 naive-nlu/tree_nlu/knowledge_base.py       | 6 +++---
 naive-nlu/tree_nlu/layers/parsing_layer.py | 4 +++-
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/naive-nlu/tree_nlu/knowledge_base.py b/naive-nlu/tree_nlu/knowledge_base.py
index 28ad221..f33b39f 100644
--- a/naive-nlu/tree_nlu/knowledge_base.py
+++ b/naive-nlu/tree_nlu/knowledge_base.py
@@ -70,11 +70,11 @@ class KnowledgeBase(object):
     def process(self, row):
         knowledge_before = copy.deepcopy(self.knowledge)
         with session().log("Process: {}".format(row)):
-            fit = self.layers.process(self, row)
-            if fit is None:
+            fit = list(self.layers.process(self, row))
+            if len(fit) == 0:
                 return None
 
-            tokens, inferred_tree = fit
+            tokens, inferred_tree = fit[0]
             result = knowledge_evaluation.integrate_information(self.knowledge,
                                                                 {
                                                                     "elements": tokens,
diff --git a/naive-nlu/tree_nlu/layers/parsing_layer.py b/naive-nlu/tree_nlu/layers/parsing_layer.py
index b631c75..2bfda2a 100644
--- a/naive-nlu/tree_nlu/layers/parsing_layer.py
+++ b/naive-nlu/tree_nlu/layers/parsing_layer.py
@@ -11,4 +11,6 @@ class ParsingLayer:
         assert False
 
     def process(self, knowledge_base, input):
-        yield from parsing.get_fit(knowledge_base, input)
\ No newline at end of file
+        fit = parsing.get_fit(knowledge_base, input)
+        if fit is not None:
+            yield fit
\ No newline at end of file