Улучшено распознавание xml-формата

2020-12-15 15:04:30 +07:00
parent b1f5f3dd28
commit 8ef6551560
3 changed files with 10 additions and 2 deletions
--- a/server/core/Reader/BookConverter/ConvertBase.js
+++ b/server/core/Reader/BookConverter/ConvertBase.js
@@ -103,6 +103,11 @@ class ConvertBase {
        return he.escape(he.decode(text.replace(/&nbsp;/g, ' ')));
    }

+    isDataXml(data) {
+        const str = data.toString().trim();
+        return (str.indexOf('<?xml version="1.0"') == 0 || str.indexOf('<?xml version=\'1.0\'') == 0 );
+    }
+
    formatFb2(fb2) {
        const out = xmlParser.formatXml({
            FictionBook: {
--- a/server/core/Reader/BookConverter/ConvertFb2.js
+++ b/server/core/Reader/BookConverter/ConvertFb2.js
@@ -6,7 +6,10 @@ class ConvertFb2 extends ConvertBase {
    check(data, opts) {
        const {dataType} = opts;

-        return (dataType && dataType.ext == 'xml' && data.toString().indexOf('<FictionBook') >= 0);
+        return (
+            ( (dataType && dataType.ext == 'xml') || this.isDataXml(data) ) && 
+            data.toString().indexOf('<FictionBook') >= 0
+        );
    }

    async run(data, opts) {
--- a/server/core/Reader/BookConverter/ConvertHtml.js
+++ b/server/core/Reader/BookConverter/ConvertHtml.js
@@ -7,7 +7,7 @@ class ConvertHtml extends ConvertBase {
        const {dataType} = opts;

        //html?
-        if (dataType && (dataType.ext == 'html' || dataType.ext == 'xml')) 
+        if ( ( (dataType && (dataType.ext == 'html' || dataType.ext == 'xml')) ) || this.isDataXml(data) )
            return {isText: false};

        //может это чистый текст?