Cleaning up Microsoft generated HTML
<?php
    tidy_setopt("word-2000", true);
    tidy_parse_file("/tmp/mydoc.html");
    tidy_clean_repair();
    echo tidy_get_output();
?>