Меню в данный момент недоступно

Text Duplicate Killer 1.1 release 2

Text Duplicate Killer

Text Duplicate Killer (TDK, убийца текстовых дубликатов) – не большая программа, созданная для удаления из файлов повторяющихся строчек (не только соседних). В следствии создается свежий текстовый файл, в каком любая строчка встречается лишь 1 раз.

В общем вы когда-нибудь задавались вопросом: "Как удалить повторяющиеся строки в текстовом файле"? Если да, то эта программа именно для вас.

Если коротко, то Text Duplicate Killer это маленькая, но очень полезная утилита для удаления повторяющихся строк из списка текстового файла c расширением txt.

Итог быть может записан в форматах CR и CR/LF; есть функция игнорирования регистра; поддерживаются доводы командной строчки. Трудится тольк ос текстовыми файлами формата ASCII.Что новейшего: Немного типов сортировки итога. Функция игнорирования обрамляющих пробелов. Улучшен графический интерфейс. Командная строчка поддерживает все функции интерфейса.

Если просто, про программу можно охарактеризовать так:

Простая программа для поиска и удаления дубликатов строчек в текстовых документах . На российском языке. Опосля окончания работы демонстрирует все обнаруженные дубликаты . Сберечь проверенный и расчищенный от дубликатов текст возможно : скажем в начальный текстовый документ , но и в какой-либо иной . Действует с чрезвычайно немаленькими по объему файлами . Изъянов в програмке не отметил . Исполняет собственную работу на ура...

Как отыскать дубликаты строк в текстовом файле

1. У Вас обязан быть готов файл формата ASCII, имеющий текст, в каком Вы желаете удалить дублирующиеся строчки. Раз Вам надо подвергнуть обработке текст из файлов DOC либо RTF, то экспортируйте его в ASCII.

2. Опосля пуска утилиты tdk exe подберите пункт рационом Файл|Открыть начальный файл и укажите файл, в каком нужно будет удалить дубликаты.

3. Потом при помощи пт рационов Файл|Установить целевой файл укажите фамилия свежего файла. В данный файл утилита поместит подвергнутый обработке текст, который теснее не станет содержать дубликатов. У вас есть возможность механически сделать свежее фамилия. Чтобы достичь желаемого результата нажмите клавишу с “волшебной палочкой”.

4. Для пуска процесса поиска и удаления дубликатов подберите пункт рационом Операции|Убрать дубликаты!. В каждый миг Вам предоставляется возможность прервать работу, нажав на клавишу Стоп, окружающую в правом нижнем углу. При великом размере слова обработка имеет возможность занять некое время.

Название целевого файла

Название целевого файла возможно сделать механически, нажав на клавишу “волшебная палочка”. В автоматом сделанном фамилии кодируются какие-либо опции.

Ниже приведены образцы:

Название начального файла: test txt

  • Варианты автоматом творимого фамилии целевого файла:
  • test txt no_dupes_w_i txt – конец строчки формата Windows (CR/LF), пренебрегать регистр
  • test txt no_dupes_u_i txt – конец строчки формата Unix (LF), пренебрегать регистр
  • test txt no_dupes_w txt – конец строчки формата Windows (CR/LF), не избегать регистр
  • test txt no_dupes_u txt – конец строчки формата Unix (LF), не пренебрегать регистр

Внимание! Тогда, когда файл с целевым именованием теснее присутствует, он перезапишется в отсутствии запроса.

Допускаемые форматы файлов

Text Duplicate Killer корректно обрабатывает лишь текстовые файлы формата ASCII.

Чтоб подвергнуть обработке документы Microsoft Word и другие файлы, имеющие трудоемкую текстуру, нужно экспортировать их в формат ASCII.

Обработка всех двоичных файлов помимо прочего недопустима.

Характеристики командной строчки

Формат характеристик командной строчки:

tdk exe [/teol=w|u] [/ic |-] [/ios |-] [/h=1|2|3|4|5|6] [/so=desc|asc]

[/s=none|char|len|loc] [/in=] [/out=] | [/?]

Описание характеристик:

  • /teol=w – установить для целевого файла конец строчки в Windows-формате (#13#10)
  • /teol=u – установить для целевого файла конец строчки в Unix-формате (#10)
  • /ic – пренебрегать регистр (лишь для латинских букв!)
  • /ic- – принимать во внимание регистр (лишь для латинских букв!)
  • /ios - игнорировать обрамляющие пробелы
  • /ios- – принимать во внимание обрамляющие пробелы
  • /h=X – установить “ступень” хеширования одинаковой X знакам. X = 1..6
  • /so=desc – установить для сортировки обратный порядок/по убыванию
  • /so=asc – установить для сортировки прямой порядок/по возрастанию
  • /s=none – в отсутствии сортировки целевого слова
  • /s=loc – сортировка по национальному алфавиту
  • /s=char – сортировка по кодам знаков
  • /s=len – сортировка по протяженности строчки
  • /in= – фамилия начального файла (ASCII)
  • /out= – фамилия новейшего файла. TDK восоздает данный файл на базе source, исключая повторяющиеся строчки
  • /? - вывести справку по програмке

Образцы:

tdk /in=file1 txt /out=file2 txt – удалить дубликаты из файла file1 txt и записать оригинальные строчки в файл file2 txt, используя нынешние опции программы.

tdk /ic /ios /so=asc /s=char /in=file1 txt /out=file2 txt

Примечания:

При запуске с параметрами

  • - коль скоро некоторый параметр не указан, то употребляется его интерфейсная установка (сантим файл tdk с расширением ini);
  • - утилита автоматом начнет обработку и запись свежего слова, а по окончании работы – закроется;
  • - коль скоро начальный файл очень великий, то обнаруженные дубликаты не показываются.

Характеристики хладнокровны к регистру.

Характеристики обязаны отделяться между собой по крайней мере одним пробелом!

Не примите на вооружение пробелы в фамилиях файлов

Опции, установленные при помощи характеристик командной строчки, запоминаются.

Рационе

Рационе / Файл

Открыть начальный файл – Разрешает подобрать начальный файл (формата ASCII).

Установить целевой файл – Дозволяет показать фамилия целевого файла, в который станут записываться неповторимые строчки из начального файла. Вид конца строчки (Unix/Windows) в целевом файлике возможно показать в функциях.

Рационам / Вид

Хэш-данные – Данная функция разрешает включить отображение специфичных сведений, к примеру, скорость обработки.

Обнаруженные дубликаты – Эта функция разрешает включить отображение окошка с экземплярами отысканных дубликатов. К примеру, раз в тексте станет обнаружено 10 дубликатов одной строчки, то любой экземпляр добавиться в данное окошко. При обработке великих слов рекомендовано отключать отображение данного окошка, так как обнаруженные дубликаты имеют все шансы заполнить оперативную память.

Рационах / Функции

Целевой EOL = CR/LF (Windows) – Установить в целевом файлике конец строчки как CR/LF.

Целевой EOL = LF (Unix) – Установить в целевом файлике конец строчки как LF.

Избегать регистр (латиница) – Эта функция показывает, собственно регистр латинских букв не предусматривается. Тогда, к примеру, строчки String, string и STRING станут рассматриваться как дубликаты.

Пренебрегать основные и окончательные пробелы – По сравнению строчек не предусматриваются “обрамляющие” пробелы. К примеру, при включенной настройки, строчки “текст” и ” текст ” станут считаться дубликатами. Внимание: в целевом тексте пробелы не отсекаются!

В отсутствии сортировки целевого слова – Строчки целевого слова не сортируются.

Сортировка по национальному алфавиту – Сортировка государственных знаков случается с учетом опций языка в операционной системе Windows.

Сортировка по кодам знаков - Сортировка базируется на кодах знаков (Latin-1, то есть расширенный 8-битный ASCII-код).

Сортировка по протяженности строчки – Строчки сортируются по протяженности (включая пробелы).

Сортировать в прямом порядке/по возрастанию – Исходя из подобранного на подобии сортировки функция показывает или на прямой алфавитный порядок, или на вырастающий порядок кодов или же длины строчки.

Сортировать в обратном порядке/по убыванию – Подобно предшествующей настройки.

Хэшировать по N знаков - Какое количество первых знаков принимать на вооружение для хэширования. Эта настройка главна лишь в том случае, когда вы обрабатываете чрезвычайно великие файлы, не вмещающиеся в оперативную память. Хэш-индекс базируется на ASCII-коде, в следствии этого при хэшировании по 1 знаку наибольшее число частей точно также 255. При применении 2 знаков число частей делается одинаковым 65536. Ибо программа “сбрасывает” разделы на строгий диск, то повышение числа частей имеет возможность значительно понизить притязании к своевременной памяти, желая перегрузка на дисковую систему увелчивается (и быстрота работы в соответствии с этим). Ежели вам пригодилось скорректировать данную настройку, то найти необходимое значение возможно экспериментально, хотя имейте в виду, собственно для различных слов отдача обработки имеет возможность в значительной степени различаться. По умолчанию установлено 3 знака – данное какой-то компромисс меж скоростью работы и притязаниями к ОЗУ.

Установить первоначальные настройки – Команда устанавливает “заводские” настройки (в том числе положение и размер формы). Удаляет повторы в текстовых файлах. Присутствуют некоторые полезные опции. С объемными листами работает достаточно медленно.

Изменения в Text Duplicate Killer 1.1 release 2   история изменений

  • несколько типов сортировки
  • опция игнорирования "обрамляющих" пробелов
  • сохранение настроек
Статус программыFree | Бесплатная
Операционная системаWindows All
ИнтерфейсМногоязычный включая русский
Последнее обновление2013-03-22 04:47:34
Размер0,353 мб
Закачек1710

Скачать Text Duplicate Killer




Рейтинг: 3 из 5 (голосов: 14)

Скачать Text Duplicate Killer
(Перейти на страницу загрузки Text Duplicate Killer)

Отзывы о программе Text Duplicate Killer

Написать отзыв



Anna
2013-08-11
I found just what I was needed, and it was enigitarntne!
comments powered by HyperComments

Похожие программы