odoo/openerp/tools/mail.py

# -*- coding: utf-8 -*-
##############################################################################
#
#    OpenERP, Open Source Business Applications
#    Copyright (C) 2012 OpenERP S.A. (<http://openerp.com>).
#
#    This program is free software: you can redistribute it and/or modify
#    it under the terms of the GNU Affero General Public License as
#    published by the Free Software Foundation, either version 3 of the
#    License, or (at your option) any later version.
#
#    This program is distributed in the hope that it will be useful,
#    but WITHOUT ANY WARRANTY; without even the implied warranty of
#    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#    GNU Affero General Public License for more details.
#
#    You should have received a copy of the GNU Affero General Public License
#    along with this program.  If not, see <http://www.gnu.org/licenses/>.
#
##############################################################################

import lxml.html
import operator
import re

from openerp.loglevels import ustr

def html_sanitize(src):
    if not src:
        return src
    src = ustr(src, errors='replace')
    root = lxml.html.fromstring(u"<div>%s</div>" % src)
    result = handle_element(root)
    res = []
    for element in children(result[0]):
        if isinstance(element, basestring):
            res.append(element)
        else:
            element.tail = ""
            res.append(lxml.html.tostring(element))
    return ''.join(res)

# FIXME: shouldn't this be a whitelist rather than a blacklist?!
to_remove = set(["script", "head", "meta", "title", "link", "img"])
to_unwrap = set(["html", "body"])

javascript_regex = re.compile(r"^\s*javascript\s*:.*$", re.IGNORECASE)

def handle_a(el, new):
    href = el.get("href", "#")
    if javascript_regex.search(href):
        href = "#"
    new.set("href", href)

special = {
    "a": handle_a,
}

def handle_element(element):
    if isinstance(element, basestring):
        return [element]
    if element.tag in to_remove:
        return []
    if element.tag in to_unwrap:
        return reduce(operator.add, [handle_element(x) for x in children(element)])
    result = lxml.html.fromstring("<%s />" % element.tag)
    for c in children(element):
        append_to(handle_element(c), result)
    if element.tag in special:
        special[element.tag](element, result)
    return [result]

def children(node):
    res = []
    if node.text is not None:
        res.append(node.text)
    for child_node in node.getchildren():
        res.append(child_node)
        if child_node.tail is not None:
            res.append(child_node.tail)
    return res

def append_to(elements, dest_node):
    for element in elements:
        if isinstance(element, basestring):
            children = dest_node.getchildren()
            if len(children) == 0:
                dest_node.text = element
            else:
                children[-1].tail = element
        else:
            dest_node.append(element)
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`# -- coding: utf-8 --`
			`##############################################################################`
			`#`
			`# OpenERP, Open Source Business Applications`
			`# Copyright (C) 2012 OpenERP S.A. (<http://openerp.com>).`
			`#`
			`# This program is free software: you can redistribute it and/or modify`
			`# it under the terms of the GNU Affero General Public License as`
			`# published by the Free Software Foundation, either version 3 of the`
			`# License, or (at your option) any later version.`
			`#`
			`# This program is distributed in the hope that it will be useful,`
			`# but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the`
			`# GNU Affero General Public License for more details.`
			`#`
			`# You should have received a copy of the GNU Affero General Public License`
			`# along with this program. If not, see <http://www.gnu.org/licenses/>.`
			`#`
			`##############################################################################`
Added some code to sanitize html bzr revid: nicolas.vanhoren@openerp.com-20120813125307-d8cycdvtd7ad0f8e 2012-08-13 12:53:07 +00:00
[IMP] removed dependency to pyquery bzr revid: nicolas.vanhoren@openerp.com-20120905153212-0gi1wjhf9m4xtnml 2012-09-05 15:32:12 +00:00			`import lxml.html`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`import operator`
Added protection against javascript in <a> bzr revid: nicolas.vanhoren@openerp.com-20120813155205-uohwb39ejn66bgmv 2012-08-13 15:52:05 +00:00			`import re`
Added some code to sanitize html bzr revid: nicolas.vanhoren@openerp.com-20120813125307-d8cycdvtd7ad0f8e 2012-08-13 12:53:07 +00:00
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`from openerp.loglevels import ustr`

			`def html_sanitize(src):`
			`if not src:`
			`return src`
			`src = ustr(src, errors='replace')`
			`root = lxml.html.fromstring(u"<div>%s</div>" % src)`
[IMP] removed dependency to pyquery bzr revid: nicolas.vanhoren@openerp.com-20120905153212-0gi1wjhf9m4xtnml 2012-09-05 15:32:12 +00:00			`result = handle_element(root)`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`res = []`
			`for element in children(result[0]):`
			`if isinstance(element, basestring):`
			`res.append(element)`
[IMP] removed dependency to pyquery bzr revid: nicolas.vanhoren@openerp.com-20120905153212-0gi1wjhf9m4xtnml 2012-09-05 15:32:12 +00:00			`else:`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`element.tail = ""`
			`res.append(lxml.html.tostring(element))`
			`return ''.join(res)`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`# FIXME: shouldn't this be a whitelist rather than a blacklist?!`
removed images bzr revid: nicolas.vanhoren@openerp.com-20120813144401-cll0enjblqkh8ina 2012-08-13 14:44:01 +00:00			`to_remove = set(["script", "head", "meta", "title", "link", "img"])`
Did better stuff bzr revid: nicolas.vanhoren@openerp.com-20120813143755-g9ccs0iubcwvm02i 2012-08-13 14:37:55 +00:00			`to_unwrap = set(["html", "body"])`

[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`javascript_regex = re.compile(r"^\sjavascript\s:.*$", re.IGNORECASE)`

Did better stuff bzr revid: nicolas.vanhoren@openerp.com-20120813143755-g9ccs0iubcwvm02i 2012-08-13 14:37:55 +00:00			`def handle_a(el, new):`
Added protection against javascript in <a> bzr revid: nicolas.vanhoren@openerp.com-20120813155205-uohwb39ejn66bgmv 2012-08-13 15:52:05 +00:00			`href = el.get("href", "#")`
			`if javascript_regex.search(href):`
			`href = "#"`
			`new.set("href", href)`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00
Did better stuff bzr revid: nicolas.vanhoren@openerp.com-20120813143755-g9ccs0iubcwvm02i 2012-08-13 14:37:55 +00:00			`special = {`
			`"a": handle_a,`
			`}`

[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`def handle_element(element):`
			`if isinstance(element, basestring):`
			`return [element]`
			`if element.tag in to_remove:`
Did better stuff bzr revid: nicolas.vanhoren@openerp.com-20120813143755-g9ccs0iubcwvm02i 2012-08-13 14:37:55 +00:00			`return []`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`if element.tag in to_unwrap:`
			`return reduce(operator.add, [handle_element(x) for x in children(element)])`
			`result = lxml.html.fromstring("<%s />" % element.tag)`
			`for c in children(element):`
			`append_to(handle_element(c), result)`
			`if element.tag in special:`
			`special[element.tag](element, result)`
			`return [result]`

			`def children(node):`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00			`res = []`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`if node.text is not None:`
			`res.append(node.text)`
			`for child_node in node.getchildren():`
			`res.append(child_node)`
			`if child_node.tail is not None:`
			`res.append(child_node.tail)`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00			`return res`

[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`def append_to(elements, dest_node):`
			`for element in elements:`
			`if isinstance(element, basestring):`
			`children = dest_node.getchildren()`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00			`if len(children) == 0:`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`dest_node.text = element`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00			`else:`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`children[-1].tail = element`
First working version of the html sanitizer bzr revid: nicolas.vanhoren@openerp.com-20120813142232-xn7h0ov7mb3pls4o 2012-08-13 14:22:32 +00:00			`else:`
[IMP] html_sanitize: attempt to make slightly more pythonic/readable + re-enable test. Proper review + test still needed. bzr revid: odo@openerp.com-20120905225746-npjjzy1w00k05vtc 2012-09-05 22:57:46 +00:00			`dest_node.append(element)`