Добро пожаловать к нам в гости! Наш сайт посвящён программе NeoBook, с помощью которой вы легко сможете создавать собственные мультимедиа-приложения без необходимости изучать сложные языки программирования! Зарегистрируйтесь, чтобы стать членом нашего сообщества.
Возможно ли средствами NB при анализе готового текста определить раскладку (кириллица-латиница) в какой вводился тот или иной символ?
Пока что это для меня чисто теоретический вопрос, но хотелось бы знать - возможно это или нет. Поясню задачу. Различные программные системы направленные на поиск плагиата в текстах научных работ спорят с желанием находчивых студентов и нерадивых аспирантов содрать готовый текст из сети Интернет и выдать за свой. Находчивые студенты придумали, в частности, такой трюк: если, к примеру, заменить все русские "с" на латинские "с", то визуально в тексте разницы нет, а система "антиплагиат" уже не видит заимствование... В antiplagiat.ru утверждают, что их систему уже нельзя обмануть.
Однако мне стало любопытно - возможно ли, например, с помощью NB сделать так, чтобы после обработки проверяемого файла, символы, написанные латиницей, выделялись бы цветным шрифтом или маркером? Так можно было бы увидеть - пытается ли ловкий студент стать находчивым, т.е. надуть систему данным способом.
Берем, скажем, доковский файл (присланный реферат), переводим его в rtf, а затем надо как-то определить символ какой раскладки используется, если английский, то применяем к нему форматирование. Это возможно?
P.S.: Конечно, экспериментальным путем я бы мог проверить последнюю гипотезу, но может быть у кого-то уже есть ответ?
Вадим, русские и ангельские букавы могут выглядеть одинаково, но коды у них разные. то есть диапазоны кодов, следовательно твоя задача имеет решение. В нб наверное должна быть функция дающая код символа, вот с ее помощью и попробуй это реализовать. Естественно, текст нужно привести к какому либо стандарту, по кодировке.
Добавлено (28 Январь 2011, 23:32) --------------------------------------------- посмотри тут
Добавлено (28 Январь 2011, 23:40) --------------------------------------------- Win(cp1251) Unicode KOI8-R DOS,cp866 (альтернативная) IS08859-5 (основная) Mac А C0 0410 E1 80 B0 80 если втречается код символа меньше чем код буквы А , и он не входит в диапазон цифр и знаков, и управляющих символов, то текст содержит английские букавы.
Теоретически (да и наверное практически) реализовать возможно, но это же придется каждый символ перебирать да проверять, да выделять, мне кажется эта штука медленно будет работать с обьемными текстами, да еще и с rtf, где своих посторонних тегов (и на англ к тому же) помимо текста много, и они мешаться будут. вероятно, в этом есть смысл разве что делать внутри плага и с чистым текстом. Как задавать вопросы
Теоретически все возможно! А практически... Поиск английских символов с одновременным форматированием RTF-текста - специализированная задача для целого текстового процессора, и естесственно, что созданием подобного "чуда в перьях" никто заниматься, без нужды, не станет!
Quote (DEMBEL)
внутри плага и с чистым текстом
Именно - с чистым текстом, и то всего-лишь простой поиск "пиратских" символов. - А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
возможно, но исполнить, да еще на НБ это архисложная задача... если док перегнать в ртф и открыть его в НБ, то можно проанализировать перебором. Пример слова Наскок
Quote
Наскок Hacкoк Hackok
\'ed\'e0\'f1\'ea\'ee\'ea \'edac\'ea o\'ea Hackok
Но речь же не о двух словах, а о многостраничных документов! А цикл такого масштаба на НБ, это зависание Есть еще анализировать в анси, но это тоже самое
Quote
Чудо инет глючит
Сообщение отредактировано Сергей - Сб, 29 Января 2011, 00:43
Это все можно и средствами самой NB сделать, вот только скорость обработки (особенно больших текстов) будет некудышная.
Но у Вадима-то, как всегда, "сверхзадача":
Quote (Вадим)
чтобы после обработки проверяемого файла, символы, написанные латиницей, выделялись бы цветным шрифтом или маркером?
Quote (Вадим)
Берем, скажем, доковский файл (присланный реферат), переводим его в rtf, а затем надо как-то определить символ какой раскладки используется, если английский, то применяем к нему форматирование.
.........
- А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
И, кстати, возникает такой вопрос: а если в реферате "легально" присутствуют английские символы (ведь могут же быть какие-то "цитаты" и т.п)? Как в этом случае быть?
А если этот "какой-то текст" листов, этак, на 50 формата А4, да ещё и с мелким шрифтом впридачу?
- А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
При сверхзадачах, время не имеет значения, главное автоматизм, запустил и пошел спать. Я как то делал шнягу, для замены ссылок на сайте, там хренова туча страниц, и подсчитать трудно, но со шнягой за неделю другую управились.
А если этот "какой-то текст" листов, этак, на 50 формата А4, да ещё и с мелким шрифтом впридачу?
Не тама было в районе несколько десятков тыс. Сложные задачи нужно упрощать, тогда и черт не страшен будет.
Добавлено (29 Январь 2011, 00:32) --------------------------------------------- Самый простой и тупой способ, в ворде проверить орфографию, фсе сразу и вылезет. Вот тебе и техставый прохвессар.
Самый простой и тупой способ, в ворде проверить орфографию, фсе сразу и вылезет.
- А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
В ворде фсе есть, как в греции, билл сказал. Весь васик к твоим услугам.
А что - классная тема, в целом, вышла! "Побрызгали слюной", поломали головы...
Это из серии "А слона-то мы и не заметили!"...
- А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
Лепиш че нада на сях иль делфях и делаеш в виде активса, потом прикручиваеш к ворду. Я прикручивал ну фсякое там умное шелезо, промышленного характера.
если встречается код символа меньше чем код буквы А , и он не входит в диапазон цифр и знаков, и управляющих символов, то текст содержит английские букавы
Спасибо за пример алгоритма!
Quote (Alex3A)
В нб наверное должна быть функция дающая код символа
Интересно, надо будет поискать. В любом случае - это полезное знание.
Quote (Alex3A)
Естественно, текст нужно привести к какому либо стандарту, по кодировке.
А может быть такое, что в одном доковском документе разные абзацы (слова, символы) разной кодировки? Или речь идет лишь о разных файлах?
Quote (Peter)
Это все можно и средствами самой NB сделать, вот только скорость обработки
Quote (DEMBEL)
придется каждый символ перебирать да проверять, да выделять
Quote (Сергей)
Но речь же не о двух словах, а о многостраничных документов!
Да, тоже мысли такие были... Документы бывают от 10 до 300 стр. (уровня от простых контрольных до диссертаций).
Quote (Alien)
Вот, ради интереса написал пример
Спасибо, интересный пример!
Quote (Peter)
И, кстати, возникает такой вопрос: а если в реферате "легально" присутствуют английские символы (ведь могут же быть какие-то "цитаты" и т.п)?
Ну, визуальный контроль же предполагается. Цитату можно отличить по наличию ссылки. Открываем обработанный файл и либо ставим диагноз - "пестрит", либо файл здоров и без цветных узоров "воспаленных слов".
Quote (Alex3A)
Самый простой и тупой способ, в ворде проверить орфографию, фсе сразу и вылезет.
Действительно, для указанной цели это, должно быть, самый простой способ! Хех, вот ведь как бывает! И взаправду Слон!
Ну раз я такого еще не заметил, значит подобным способом меня еще не пытались обмануть (орфография у меня по умолчанию включена; правда есть вероятность, что при большом кол-ве ошибок ворд ее просто отключает, но ведь тогда должен вывести соответствующую мессагу).
Большущее спасибо всем за ответы! Я понял, что сделать это в принципе возможно, но не очень просто и есть вероятность, что работать прога будет крайне медленно. Однако все равно радует то, что на NB это возможно!
Мона сказать что не текст в кодировке, а документ имеет некую кодировку текста. Хотя это не справедливо скажем к хтмл странице, как раз там и любят тыкать в разной кодировке. Но энто динамически клепаемые страницы страдают подобным.
Т.е. любой файл .doc или docx содержит текст в единой кодировке (или только "документ", как часть файла?).
Мда, вопрос канечна не детский. Скажем так, что скорее всего файл, ибо некоторые кодировки содержат в начале файла дескриптор указывающий на кодировку текста, но! Могут быть хрен знать какой структуры, файлы, вот там можлива и документ. Но шибка не переживай, в основных, стандартных форматах - файл, за исключением скажем аксеса и мож екселя. И то, когда читаемые данные делались на ином софте, юзающем другую кодировку.
Да, у меня кажется каша в голове, на предмет, что такое файл... Поправьте, если я не прав. В моем понимании как-то сложилось, что файл - это информация, размещенная (и доступная для считывания) посредством упорядоченного кодирования на определенной (целостной или связанной) области памяти носителя. Таким образом мы получаем аппаратно независимое определение файла. Но если так понимать файл, то как объяснить, что всяческие хеши подсчитывают лишь "тело" файла, исключая "голову" - название файла, исключая "руки и ноги" - свойства и атрибуты файла? Я убедился, в том, что изменение имени, свойств и атрибутов файла не влияют на его хеш; хотя это странно, поскольку в свойствах файла можно указать очень даже не мало информации... Ну, кроме "тела", "рук" и "ног" файл должен иметь еще и "одежду" - т.е. описание того как этот файл понимать (всяческие дескрипторы, метки и прочие шмотки, представляющие файл в определенном "свете", указывающие на его "роль" и соответственно на то, как к нему относиться...). Если я правильно понял, то "тело" файла имеет как правило одну кодировку, а вот "голова" (название файла) может иметь другую кодировку, про "одежду" не знаю...
Всё то у файла есть, только причиндалов не хватает... Наверное я что-то упустил в описании!
Вадим, файл и есть то что вы называете телом файла, все остальное это его характеристики и описания. Вадим это файл, его имя, возраст, размер сапог и усе остальное уже описание, такм образом имея Вадима можно сделать его описание, и оно существует отдельно, вовсе не являясь частью самого файла.
Добавлено (31 Январь 2011, 02:20) --------------------------------------------- По сути файл это набор ноликов и единиц, существующий сам по себе, а вот для его использования уже необходимо некое его описание, скажем, для передачи важно знать его размер, при его пересыке можно передавать только его тело, если в пункте приема известны необходимые его характеристики. Вы сами можете определить что важно для его использования а что нет, что является постоянной его характеристикой а что можно изменить. Имя и расширение файла несут некую информацию о его использовании, и для человека и для машины, но это все условно, изменив имя и даже расширение вы не измените его сути. К примеру, блокнот.ехе можете переименовать в вадим.хрен, и дать машине инструкцию, информацию что делать с этим файлом. В итоге комп его запустит и вы получите тот же блокнот.
По правде говоря, я не понимаю зачем забивать себе голову всякой всячиной? Понятие файла интуитивно напрашивается само-собой именно такое, какое и дал Алекс. Все остальное - требуха, неимеющая почти никакого практического смысла. Меньше знаешь - крепче спишь!
- А вам какую операционку поставить - экспи, семерку или висту? - Это ты сейчас о чем? - Олег Георгиевич, вам какой компьютер хотелось бы - молодежный или надежный? - Ну, конечно, надежный! - Вот, значит - экспи, без вопросов! Сейчас сделаем...
(Улицы разбитых фонарей, сезон 10, серия 17)
Единственная инновация Windows 8 это - Metro, чтобы дебилы по иконкам не промахивались!
При модном втюхе модоподдающимся начинает нравиться
описание <...> существует отдельно, вовсе не являясь частью самого файла
Понятно. Значит с файлом всегда идет "бирка", изменения в которой не считаются изменениями в файле. Ну, теперь понятнее как-то... :). Хотя все равно странно, что пересылаем один "объект", а на самом деле два (тогда надо и целостность описания файла проверять отдельно, поскольку там можно такого понаписать..., что и будет настоящей информацией, а само тело файла будет только прикрытием...).
Quote (Peter)
Информации в сети море!
Да, мы как-то поднимали уже эту тему, я тогда искал, но имеющиеся определения меня не устраивают, все время по разным причинам. Вот, например, во многих определениях файла "имя файла" является частью файла...
например, возьми мою функцию для создания процесса, возьми блокнот, переименуй его в notepad.temp и создай процесс этого файла. файл будет запущен и откроется блокнот несмотря на такое имя. Расширение и пр. это скорее для внешних связей программы (с интерфейсом, системой), а сущность файла может реализовываться на более низком уровне совсем по другому. Как задавать вопросы
У меня еще недостаточно понимания, чтобы иметь свое интуитивное определение.
Как мне товарищь один объяснял когда то давно что такое файл, это книга стоящая на полке, подшитая папка, или просто листок бумаги. Все что внутри, информация. Файл, это касета магнитофонная, а компьютер это магнитофон. И т.д. Поправьте если не правильно. Не хочешь читать хелп?