Почему при копировании из пдф в ворд получаются иероглифы
Перейти к содержимому

Почему при копировании из пдф в ворд получаются иероглифы

  • автор:

[Legacy] [PagePlus] Как избавиться от иероглифов при копировании из PDF?

Суть проблемы новичка. Понадобился жирный шрифт GOST B для большого перевода с чертежами, в оригинале можно сделать его только полужирным. В одном из редакторов сделал как надо, шрифт дубль. При создании PDF все отлично. Но при копировании с готового PDF в Word или блокнот возникают иероглифы. Скорее всего проблема в самом шрифте, так как оригинальный тоже переносится таким образом. Что можно предпринять?

Последнее редактирование: 04.04.2018

PDF Квадраты и символы при копировании

Как-то раз мне на стол принесли PDF-файл с просьбой скопировать содержимое текста, мол сами не могут т.к. при копировании текст превращается в квадраты, крякозяблы и странные символы. «Кодировка, защита или недостающие шрифты», подумал я, это ж легко. Однако пережимы pdf, снятие защиты через онлайн сервисы и прочие простые решения не помогли. При копировании со всех созданных вариантов данного pdf имеем такую картину:

PDF Квадраты и символы при копировании

Поиски решения

Открываем PDF в программе Acrobat reader, скачать его можно по ссылке идем в редактирование — защита — параметры защиты. Самой защиты на моем PDF не оказалось, однако на вкладке Шрифты указаны отсутствующие у меня на компе шрифты с заказной кодировкой. Скорее всего дело в этом, можно погуглив найти и установить недостающий шрифт, однако в моем случае такое решение не прокатит. Шрифт MSTT31c, кодировка — заказная.

PDF Квадраты и символы при копировании

Быстрое решение

Дабы особо не ломать голову, выбираем самое простое решение. Мы попросту разобьем данный PDF на JPEG файлы и заново пересоберем, используя Pdf 24 Creator или его аналоги. (см. Конвертация PDF в JPEG и обратно).

Открываем программу — тыкаем Pdf конструктор, ищем наш файл и перетаскиваем в правую часть окна и тыкаем сохранить. В появившемся окне жмем «Настраиваемый» и выбираем Jpeg. DPI оставляйте как есть и жмите продолжить. Вам предложат путь куда вы сохраните весь ваш файл в виде изображений.

PDF Квадраты и символы при копировании

  • PDF Квадраты и символы при копировании
  • PDF Квадраты и символы при копировании
  • PDF Квадраты и символы при копировании
  • Не закрывая программу идем в папку куда сохранили изображения и перетаскиваем их на правую часть. Сохраняем как PDF, получаем слепленный из изображений файл, с которого пока что нельзя копировать ничего. Осталось чуть-чуть.

    PDF Квадраты и символы при копировании

    Снова открываем программу, на этот раз жмем Recognize text, выбираем язык документа, желаемое качество, жмем Add files и выбираем созданный на прошлом шаге файл. И всё, жмем Start, по завершению из нашего PDF можно с легкостью копировать текст. Надеюсь помог =)

    Почему при копировании из пдф в ворд получаются иероглифы

    Электронные книги вошли в нашу повседневную жизнь и продолжают укреплять свою позицию. PDF – один из самых популярных форматов, который можно встретить на интернет просторах, посещая сайты и магазины. Но бывают досадные ситуации, когда текст, который мы хотим скопировать, просто превращается в непонятные символы. Кто-то на них говорит иероглифы, другие – кракозябры . Как же исправить такую ситуацию?

    Я не уверен, что следующие советы помогут для всех решить проблему, но частичное решение ее все же возможно.

    Давайте сразу отбросим отсканированые и нераспознанные PDF документы, из которых просто невозможно скопировать текст. Это равносильно попытке копирования текста из обычной фотографии, сделанной на ваш смартфон. В таком случае текст нужно распознать специальной программой, вроде ABBYY FineReader.

    Наша книга (тестовая) полностью поддерживает копирование текста и изображений. Но при попытке перенести такой текст в Microsoft Office Word, можно видеть такие нечитабельные символы как на скриншоте сверху статьи.

    Способ 1 (длинный).

    Вся проблема в шрифтах и системе кодирования. PDF документ, с которого производится копирование имеет встроенные шрифты. И если такие шрифты отсутствуют в вашей операционной системе, то вы увидите такие кракозябры .

    Чтобы можно было видеть нормальные буквы, при переносе текста нужно устанавливать соответствующие шрифты .

    Чтобы узнать какие именно нужно инсталлировать на компьютер шрифты, нужно открыть наш PDF документ поддерживаемой программой (на примере PDF-XChange Viewer ). Далее идем в «Файл» → «Свойства документа» (можно нажать сочетание клавиш Ctrl + D).

    кракозябры

    Далее нажимаем на параметр «Шрифты» и видим список шрифтов, установленных в документе. Их и нужно найти в интернете и установить на компьютер. Для этого на загруженном шрифте два раза нажимаем левой клавишей мыши (то есть, открываем его), а потом нажимаем на кнопку «Установить» .

    кракозябры

    кракозябры

    Далее копируем и вставляем текст из PDF документа, выделяем его в Microsoft Office Word (или в другом офисном редакторе, который у вас установлен) и выбираем из списка недавно установленный шрифт. Все должно быть нормально. Снизу на скриншоте видно, что я намеренно применил нужный шрифт только на одно предложение, другую часть текста прочитать невозможно.

    кракозябры

    Способ 2 (быстро и удобно).

    кракозябры

    Другой, более правильный и простой вариант – это использование программы (или плагина к редактору Notepad ++ ), которая называется Shtirlitz. Программа старая, давно не обновлялась, однако работает отлично. Прямо на лету выполняется вставка нормального текста. Никаких шрифтов не требуется. После копирования текста с данной программы и дальнейшей вставкой его в редактор Microsoft Office Word, все буквы и символы будут читаться и с использованием любого шрифта. Первый вариант не позволяет изменить шрифт. То есть, всегда, и на каждом компьютере нужно будет инсталлировать нужные шрифты для чтения только определенного документа. А если таких документов несколько сотен? Поэтому желательно воспользоваться этой программой для декодирования.

    Способ 3 (онлайн).

    Кто не хочет использовать программу Shtirlitz или она не работает, может использовать следующие онлайн сервисы для перекодирования (отдельные сервисы имеют ограничения по объему текста).

    кракозябры

    Обратите внимание, что кодирование нашей тестовой книги windows-1252. Для нас нужна кодировка windows-1251. Поэтому переходим на сервис online-decoder.com.

    Там можно видеть окно, где написано «Скопируйте сюда текст». Вставляем наш непонятный текст и нажимаем на кнопку «Подбор». Такой способ будет правильно использовать если вам неизвестна система кодирования. Декодер попытается подобрать ее автоматически. Если вы знаете исходное кодирование своей кракозябры, то можете смело нажимать кнопку «Точно», указав перед этим кодирование, напротив текста «Я знаю нужные кодировки».

    кракозябры

    Второй сервис «artlebedev.ru». Есть два способа для декодирования: «Просто» и «Сложно». Первый вариант работает на автомате. Второй – дает возможность, при необходимости, указать исходное и конечное кодирование.

    кракозябры

    Третий онлайн сервис для декодирования текста «2cyr.com» имеет отличие от предыдущих в том, что позволяет выбирать язык. Кроме русского, доступен также и украинский язык интерфейса (и надеюсь, что кодирования также, просто не было возможности проверить).

    Есть также два режима: автоматический и режим эксперта. Во втором можно указывать исходное и конечное кодирование. Рекомендуется автоматический режим. После того как вставили текст, напротив слов «Выберите кодировку : » , нужно выбрать «Автоматически (рекомендуется)» и нажать на кнопку «Ок».

    Все три сервиса отлично работали на моей тестовой книге в формате PDF с кракозябрами.

    Способ 4 (с помощью макросов для Microsoft Office Word ).

    Еще один вариант для программы Microsoft Office Word. Никаких шрифтов ставить не нужно. Создаем макрос со следующим кодом:

    Код 1: «Перекодирование 1252 в 1251»

    Sub Corr1252_1251()
    Dim s$, i&, j&
    s = Selection
    For i = 1 To Len(s)
    j = AscW(Mid$(s, i, 1))
    If j < 256 Then
    Mid$(s, i, 1) = Chr(j)
    ‘ Debug.Print i & vbTab & Mid$(s, i, 1) & vbTab & j & vbTab & Chr(j)
    End If
    Next
    Selection.Text = s
    End Sub

    Код 2: «Перекодирование 1252 в 1251 (с учетом русской буквы Ё)»

    Sub changeToRus()

    ‘ Замена кракозябр на кириллические буквы
    ‘ CP1252 -> CP1251

    For i = 192 To 255
    a1 = i
    a = Trim(«^u») & Trim(Str(a1))
    ‘ Формирование запроса для поля Найти
    sRus = Array(«А», «Б», «В», «Г», «Д», «Е», «Ж», «З», «И», «Й», «К», «Л», «М», «Н», «О», _
    «П», «Р», «С», «Т», «У», «Ф», «Х», «Ц», «Ч», «Ш», «Щ», «Ъ», «Ы», «Ь», «Э», «Ю», «Я», _
    «а», «б», «в», «г», «д», «е», «ж», «з», «и», «й», «к», «л», «м», «н», «о», _
    «п», «р», «с», «т», «у», «ф», «х», «ц», «ч», «ш», «щ», «ъ», «ы», «ь», «э», «ю», «я»)
    ‘ Формирование массива кириллических букв для поля Заменить
    Selection.Find.ClearFormatting
    Selection.Find.Replacement.ClearFormatting
    With Selection.Find
    .Text = a
    .Replacement.Text = sRus(i — 192)
    .Forward = True
    .Wrap = wdFindContinue
    .MatchCase = True
    End With
    Selection.Find.Execute Replace:=wdReplaceAll
    ‘ Выполнение замены по тексту
    Next i

    ‘ Замена Ё и ё
    Selection.Find.ClearFormatting
    Selection.Find.Replacement.ClearFormatting
    With Selection.Find
    .Text = ChrW(168)
    .Replacement.Text = «Ё»
    .Forward = True
    .Wrap = wdFindContinue
    End With
    Selection.Find.Execute Replace:=wdReplaceAll
    Selection.Find.ClearFormatting
    Selection.Find.Replacement.ClearFormatting
    With Selection.Find
    .Text = ChrW(184)
    .Replacement.Text = «ё»
    .Forward = True
    .Wrap = wdFindContinue
    End With
    Selection.Find.Execute Replace:=wdReplaceAll
    End Sub

    Выделяем вставленный текст с иероглифами. Тогда запускаем макрос на выполнение и получаем нормальный текст, который можно спокойно редактировать, изменять шрифты и т.д.

    Для добавления готового макроса в Word делаем следующее:

    Открываем редактор и переходим в «Вид».

    кракозябры

    Там находим кнопку «Макросы» и нажимаем на нее.

    кракозябры

    кракозябры

    Даем для макроса имя (любое, оно будет автоматически изменено при полном копировании кода выше).

    кракозябры

    Откроется окно в котором можно заметить название нашего макроса. При желании можете оставить свое имя. Но лучше, чтобы не было ошибок, полностью заменить весь код на готовый (код смотрите сверху).

    кракозябры

    Как видно, макрос начинается так:

    Sub названиемакроса()
    дальше идет код макроса
    End Sub

    Название макроса может любым, но не цифры и не должно быть пробелов. Может быть так: декодирование_кракозябр_с_ё. Но не может быть так: декодирование кракозябр с ё.

    То есть, для нас нужно заменить для нашего созданного пустого макроса весь текст с кодом, который показан выше.

    После того как заменили, нужно закрыть окно редактирования макросов (можно нажать на иконку сохранения, хотя изменения сохраняются автоматически). Далее выделяем наш иероглифический текст, открываем макросы, выбираем из списка (если их у вас несколько) нужный и нажимаем на кнопку «Выполнить».

    кракозябры

    Ваш текст должен стать читабельным.

    кракозябры

    Источник макросов для Microsoft Office Word: http://wordexpert.ru

    Как ни крути, но это не полное решение ситуации. Поиск после данных действий в самом PDF документе работать не будет. Проблема остается. Кто может подсказать ее решение, просьба писать в комментариях.

    Закорючки, иероглифы кракозябры при копировании из pdf ⁠ ⁠

    Адекватного решения на просторах интернета я не нашел.

    Пост для таких же как и я.

    Решение оказалось простым это программа Adobe Acrobat.

    Инструкция: 1) Открываем приложение Adobe Acrobat

    2) В левом столбике нажимаем «Мой компьютер» -> «рабочий стол»

    3) Выбираем нужный нам файл ( у меня он был на рабочем столе)

    4) В правом столбике (правой части экрана) ищем иконку в виде листика со стрелочкой в кружке, при наведение будет написано «Экспорт PDF» нажимаем

    5) Далее нажимаем «Экспорт» и выбираем папку куда сохранить файл.

    1.1K постов 3.7K подписчиков

    Подписаться Добавить пост
    3 года назад
    пдф и акробат. да ну нафиг, брехня какая то
    3 года назад

    @moderator, а можно добавить возможность менять сообщество также, как редактируем теги? Народ частенько промахивается, а сделать ничего нельзя каждый раз.

    Автору: совет дельный, конечно, но PDF формат был разработан Adobe, которая, собственно, и делает Acrobat специально для работы с этим форматом, поэтому совсем неудивительно, что без Акробата у вас были проблемы с копированием из файла, особенно если файл был специально так сделан, например.

    раскрыть ветку
    3 года назад

    Иллюстрация к комментарию

    3 года назад

    Спасибо, полезная информация, хоть и немного не своевременно, но может кому-то еще это реально поможет.

    1 год назад

    Огромное спасибо, юзер! Спас от перепечатки простыней техдокументации!

    Лучшие посты за сегодня
    23 часа назад

    «Мой муж — бодибилдер.»⁠ ⁠

    Мой муж — бодибилдер. Подруги, знакомые и родственники говорят, что мне безумно повезло, отхватила себе такого красавца, сильного, мужественного и т. д.

    Отфотошопленные фотки в соцсетях создают идеальную картину. А вот реальность: весит он 120 кг, ужасная отдышка, на 5 этаж еле поднимается, бегать не может, прыгать — тоже. Отжаться не может, подтянуться — тоже.

    Гибкости никакой. Весь в огромных кровоточащих прыщах от приема специальных «витаминок», на которые уходит почти вся его тренерская зарплата. Огромные варикозные вены, грыжи. Проблемы с эрекцией, особенно когда на курсе «витаминок».

    Ест очень много и часто. Мы не можем сходить в кино или на выставку. Режим и сон в 10 вечера. Я не могу есть курицу гриль, пиццу и прочие вкусности, так как ему тоже хочется, а рацион посчитан. Проблемы с сердцем и суставами, врачи говорят худеть. Гормоны, как у бабки, но ему пофиг.

    Сейчас готовится к очередному чемпионату области, где получит бесполезный кубок и пакет дешевого протеина. Крутую карьеру уже не построить, да и эстетики тела нет. А на подготовку даже к небольшому чемпионату уйдёт уйма средств и здоровья…

    Для нашего города он крутой, не пьет, не курит, зарплата немного выше среднего. Родители не поймут, если мы разойдемся. Ему пофиг на меня, на ребенка, на своих родных. С каждым годом он становится все злее и злее, потому что вершины в бодибилдинге ему не светят, рекламодателям он не нужен.

    Говорю: «Береги здоровье хоть ради сына», — он отвечает тупыми цитатами из интернета. Да и сам понимает, что все печально.

    А виновата я, так как недостаточно мотивирую.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *