ЮНИКОДОБЛЯДЬ НЕ ЧЕЛОВЕК #11. Более простой механизм мультибайтовой адресации: вместо 11... 10... байты с ведущей единицей идут в начале и середине представления и кодируют страницу, а байт с ведущим нулём - конечный и кодирует символ на странице. Благодаря этому обеспечивается более простая программная реализация.2. На каждой странице, кроме нулевой, символы только определённого класса.3. Поддержка кроме двунаправленного письма татегаки и монгольского написания + снизу вверх4. В базовой странице вместо старых как говно мамонта управляющих символов - знак отрицания, бесконечность, параграф, тире и неразрывный пробел, а также весь новый русский алфавит.5. В этой же базовой странице каждая строка имеет уникальное свойство. Стоит получше рассмотреть таблицу, чтобы убедиться.
>>2595552 (OP)>чмхйнднакъдэ ме векнбейфЕКЮЧ РЕАЕ ЯНЯМСРЭ РПХ МХЦЕПЯЙХУ УСИЖЮ, ЙНЦДЮ РЕАЕ ОНМЮДНАХРЯЪ БЯРЮБКЪРЭ РЕЙЯР ХГ ПЮГМШУ ЪГШЙНБ.
>>2595589Ты пукнуть хотел или специально обосрался? DKOTI будет включать в себя все символы уникода и даже больше. Разные языки? Пожалуйста, поставил разные ведущие байты и попал на разные подстраницы.
>>2595692Сам же написал - чтобы можно было комбинировать символы разных языков в пределах одной страницы.
>>2595691Вот скажи, нахуя тебе например подтверждение на запрос телетайпа или разделитель записей? Вместо них можно заполнить таблицу реально нужными в 2к19 символами.
>>2595707Блять, текст кодировать, понимаешь? Компуктер не умеет работать с самими буковами, их нужно представлять в виде битовых последовательностей.
>>2595708Ты даун? У тебя миллионы свободных знакомест умещаются в половину машинного слова. Нахуя ломать всё? Зачем?
>>2595714>А кто что ломает?Ты, ломая совместимость с ASCII.>Уникод мертворождёнВсе нормальные ОС и системы давно перешли на юникод. Я пишу это сообщение в юникоде. Не такой уж и мёртвый выходит.> и требует более продуманной замены.Я жду аргументы и критику. Что тебя не устраивает в юникоде?
>>2595718> ASCIIНе нужен в 21 веке.> Что не устраивает?В оппосте описаны преимущества дикоти, где уникод сосёт с проглотом.
>>2595719>Не нужен в 21 веке.Так же как и кони. Но ширина колеи, дорог и в итоге ракет, которые по этим дорогам возят = ширине 2 коней.
>>2595720> пикЭто временно. В дальнейшем менее приспособленные к жизни стандарты отсеются, и останется пара-тройка стандартов.
>>2595722>В дальнейшем менее приспособленные к жизни стандарты отсеются90% всего текста - юникод. Ты что, слепой? Он прекрасно приспособлен.
>>2595726Ладно, вот тебе ещё аргумент. Символ с кодовым индексом U+188. Чем он кодируется? 110... 10... то есть, его кодовое представление никак не совпадает с этим самым индексом на бумаге. И при реализации любой йобы, связанной с юникодом, приходится для каждого символа высчитывать его реальный адрес. Это раз. Во вторых, для кодироаания даже двубайтовых символов тратится 5 лишних бит вместо двух. И ещё, посмотри на это:Твой уникод должен был эти две графемы об'единить и получить флаг, но обосрался. Дикоти лишена всех этих недостатков.
>>2595729>его кодовое представление никак не совпадает с этим самым индексом на бумагеи чо? Ты вообще в курсе, что это шестнадцатиричное чило? Ты каждый день его с бумаги переписываешь? Вообще посмотри на него, что это за ёба?>приходится для каждого символа высчитывать его реальный адресКакой ещё адрес, ты что несёшь?>Твой уникод должен был эти две графемы об'единить и получить флаг, но обосрался.Юникод должен был положить конец зоопарку кодировок, что он и сделал. >Дикоти лишена всех этих недостатков.Даже название мерзкое
>>2595732> Какой адрес?Спустись ниже. Тот самый адрес, который указан в первом столбце таблицы. Он не равен 188.> Зоопарк кодировокДикоти делает то же самое - даёт возможность кодировать любой символ из любой кодировке по единой схеме, так зачем мне какой то уникод?> Название мерзкоеДвоичный код обмена текстовой информацией. Идеальное название для стандарта.
>>2595734>Спустись ниже. Тот самый адрес, который указан в первом столбце таблицы. Он не равен 188.Я повторюсь. И чо?>так зачем мне какой то уникод?Он уже есть и проблем кроме твоего субъективного фи с кодом символа ты не назвал>Двоичный код обмена текстовой информацией. Идеальное название для стандарта.Как совковым канцеляритом запахло. Фу. Ты чё, диплом пишешь по этой хуете?
>>2595736> И чо?Ясно, бесполезно быдлу об'яснять.> Совковый канцеляритЛучший канцелярит в мире. Намного лучше, чем "ASCII", например.
>>2595738>Ясно, бесполезно быдлу об'яснять.Ты даже не пытался. Как попугай одно и то же пукнул про код.>Лучший канцелярит в мире. Намного лучше, чем "ASCII", например.Дикоти звучит как название хуёвого магазина говна типа fixprice
>>2595749> Мам смотри я освоил фотошоп сейчас всех тралить буду> Мам ну скажи ему что юникодобляди не соснули, что DKOTI говно ну мам
Чет нихера не понял в чём суть, если против того, чтобы тащить смайлики (эмодзи) в таблицы символов, то я за. Нахер вообще этот юникод нужен не догоняю. Насколько я понимаю он реально нужен в Китае кажется или в Индии для отображения, накой он нужен остальному миру неясно. Смайлики нахер не нужны в таблицах символов.
>>2595758Я так понял, это костыль для ленивых пользователей, которые не хотят видеть квадратики вместо иностранного текста, и для ленивых программистов, не хотящих пилить софт, объединяющий несколько таблиц символов в одну на лету без ущерба производительности. Зачем, если уже есть одна большая общепринятая таблица, покрывающая все возможные нужды? Она удобна, значит, похуй на байтоёбскую оптимизацию.
Это тред порванных пердоликов?Тем временем на винде с юникодом всё хорошо и удобно уже лет 20 как минимум.
>>2595758Сейчас, в эпоху интернета юникод нужен везде. Ты скачал песенку с иностранными буквами и смотришь на квадратики, ты открыл иностранный сайт и смотришь на квадратики, ты скачал иностранную программу и она крашится и показывает квадратики. В век ИНТЕРНАЦИОНАЛЬНОЙ СЕТИ юникод не нужен только махровому деревенскому быдлу, не вылазящему за пределы своей сельской локалки.
>>2595758> Нахер вообще этот юникод нужен не догоняю.Без уникода ты бы вместо букв видел Aeooouaeooe?
>>2595775> Тем временем на винде с юникодом всё хорошо и удобно уже лет 20 как минимум.Вим в поверщели на русском без Оаеоа ммм))) не запускается. У пиндосов юникод не стоит, а в настройках языка системы(не отображаемого языка, а языка, который отображается програмам) написано "Форсить юникод(бета)"
>>2595552 (OP)> В базовой странице вместо старых как говно мамонта управляющих символовСказочный долбаёб....
>>2595907Наоборот, самый лучший, просто и идеально работает аналогично классическим ASCII. А вот говно-кодирование с парсингом ведет к >>2595729 Тупые пердоли везде эту парашу напихали, и бугуртят теберь, дебилы, лол. Весь этот шлак годится только как внешний формат - сохранять в файлы и тому подобное, но ни в коем случае не для внутреннего представления и обработки в программе.
>>2596348>работает аналогично классическим ASCIIНо ведь это про utf-32. А utf-16 - это параша, которую создали для совместимости с ранними версиями юникода.
>>2596659Одно и то же, только 32 занимает в два раза больше места впустую.>>2596748Воистину. Поэтому линупсоидов с их линупсами нужно признать больными и принудительно лечить, изолировав от общества, а то мало того, что лепят говно-программы ради них самих, так еще своими тупыми кукареками мешают здоровым людям обсуждать софт.
>>2596848>Одно и то же, только 32 занимает в два раза больше места впустую.У utf-16 как и utf-8 переменный размер символа, иначе миллион не влез бы.
ЮНИКОДОБЛЯДИ СОСНУЛИ<!DOCTYPE html><html lang="ru_RU"><head> <meta http-equiv="content-type" content="text/html" /> <meta charset="utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1" /> <meta name="author" content="Interquadro" /> <meta name="description" content="" /> <meta name="keywords" content=""> <meta name="format-detection" content="telephone=no" /> <meta http-equiv="x-rim-auto-match" content="telephone=none" /> <meta name="referrer" content="no-referrer" /> <meta name="_suburl" content="" /> <meta property="og:locale" content="ru_RU" /> <title></title> <link rel="icon" href=".ico" type="image/x-icon" /> <link rel="shortcut icon" href="favicon.ico" type="image/x-icon" /> <link rel="stylesheet" href="favicon.css" type="text/css" title="" /> <!--[if (gte IE 6)&(lte IE 8)]> <script src="js/selectivizr.js" type="text/javascript"></script> <noscript><link rel="stylesheet" href="" type="text/css" /></noscript> <script src="js/respond.js" type="text/javascript"></script> <![endif]--> <!--[if lt IE 9]> <script src="js/html5shiv.js" type="text/javascript"></script> <![endif]--> <style type="text/css"> body { font-family: sans-serif, monospace; } table, th, td { border: 1px solid black; } th, td { min-width: 3rem; height: 3rem; font-size: 2rem; text-align: center; line-height: 3rem; } th { color: white; background-color: #808; } </style></head><body> <main> <table> <tr> <th></th> <th>0</th> <th>1</th> <th>2</th> <th>3</th> <th>4</th> <th>5</th> <th>6</th> <th>7</th> <th>8</th> <th>9</th> <th>A</th> <th>B</th> <th>C</th> <th>D</th> <th>E</th> <th>F</th> </tr> <tr> <th class="line-key">0</th> <td class="char" data-code="00"></td> <td class="char" data-code="01"></td> <td class="char" data-code="02"></td> <td class="char" data-code="03"></td> <td class="char" data-code="04"></td> <td class="char" data-code="05"></td> <td class="char" data-code="06"></td> <td class="char" data-code="07"></td> <td class="char" data-code="08"></td> <td class="char" data-code="09"></td> <td class="char" data-code="0a"></td> <td class="char" data-code="0b"></td> <td class="char" data-code="0c"></td> <td class="char" data-code="0d"></td> <td class="char" data-code="0e">␡</td> <td class="char" data-code="0f"></td> </tr> <tr> <th class="line-key">1</th> <td class="char" data-code="10">0</td> <td class="char" data-code="11">1</td> <td class="char" data-code="12">2</td> <td class="char" data-code="13">3</td> <td class="char" data-code="14">4</td> <td class="char" data-code="15">5</td> <td class="char" data-code="16">6</td> <td class="char" data-code="17">7</td> <td class="char" data-code="18">8</td> <td class="char" data-code="19">9</td> <td class="char" data-code="1a">[</td> <td class="char" data-code="1b">]</td> <td class="char" data-code="1c">"</td> <td class="char" data-code="1d">#</td> <td class="char" data-code="1e">§</td> <td class="char" data-code="1f">_</td> </tr> <tr> <th class="line-key">2</th> <td class="char" data-code="20">%</td> <td class="char" data-code="21">|</td> <td class="char" data-code="22">@</td> <td class="char" data-code="23">\</td> <td class="char" data-code="24">¤</td> <td class="char" data-code="25">:</td> <td class="char" data-code="26">^</td> <td class="char" data-code="27">&</td> <td class="char" data-code="28"><</td> <td class="char" data-code="29">></td> <td class="char" data-code="2a">{</td> <td class="char" data-code="2b">}</td> <td class="char" data-code="2c">`</td> <td class="char" data-code="2d">~</td> <td class="char" data-code="2e">∞</td> <td class="char" data-code="2f"> </td> </tr> <tr> <th class="line-key">3</th> <td class="char" data-code="30">!</td> <td class="char" data-code="31">+</td> <td class="char" data-code="32">–</td> <td class="char" data-code="33">/</td> <td class="char" data-code="34">*</td> <td class="char" data-code="35">;</td> <td class="char" data-code="36">,</td> <td class="char" data-code="37">.</td> <td class="char" data-code="38">=</td> <td class="char" data-code="39">?</td> <td class="char" data-code="3a">(</td> <td class="char" data-code="3b">)</td> <td class="char" data-code="3c">'</td> <td class="char" data-code="3d">-</td> <td class="char" data-code="3e">¬</td> <td class="char" data-code="3f"> </td> </tr> <tr> <th class="line-key">4</th> <td class="char" data-code="40">A</td> <td class="char" data-code="41">B</td> <td class="char" data-code="42">C</td> <td class="char" data-code="43">D</td> <td class="char" data-code="44">E</td> <td class="char" data-code="45">Ә</td> <td class="char" data-code="46">F</td> <td class="char" data-code="47">G</td> <td class="char" data-code="48">Ч</td> <td class="char" data-code="49">H</td> <td class="char" data-code="4a">I</td> <td class="char" data-code="4b">J</td> <td class="char" data-code="4c">K</td> <td class="char" data-code="4d">L</td> <td class="char" data-code="4e">M</td> <td class="char" data-code="4f">N</td> </tr> <tr> <th class="line-key">5</th> <td class="char" data-code="50">O</td> <td class="char" data-code="51">P</td> <td class="char" data-code="52">Ш</td> <td class="char" data-code="53">Q</td> <td class="char" data-code="54">R</td> <td class="char" data-code="55">S</td> <td class="char" data-code="56">T</td> <td class="char" data-code="57">U</td> <td class="char" data-code="58">V</td> <td class="char" data-code="59">W</td> <td class="char" data-code="5a">X</td> <td class="char" data-code="5b">Y</td> <td class="char" data-code="5c">Z</td> <td class="char" data-code="5d">Э</td> <td class="char" data-code="5e">Ю</td> <td class="char" data-code="5f">Я</td> </tr> <tr> <th class="line-key">6</th> <td class="char" data-code="60">a</td> <td class="char" data-code="61">b</td> <td class="char" data-code="62">c</td> <td class="char" data-code="63">d</td> <td class="char" data-code="64">e</td> <td class="char" data-code="65">ә</td> <td class="char" data-code="66">f</td> <td class="char" data-code="67">g</td> <td class="char" data-code="68">ч</td> <td class="char" data-code="69">h</td> <td class="char" data-code="6a">i</td> <td class="char" data-code="6b">j</td> <td class="char" data-code="6c">k</td> <td class="char" data-code="6d">l</td> <td class="char" data-code="6e">m</td> <td class="char" data-code="6f">n</td> </tr> <tr> <th class="line-key">7</th> <td class="char" data-code="70">o</td> <td class="char" data-code="71">p</td> <td class="char" data-code="72">ш</td> <td class="char" data-code="73">q</td> <td class="char" data-code="74">r</td> <td class="char" data-code="75">s</td> <td class="char" data-code="76">t</td> <td class="char" data-code="77">u</td> <td class="char" data-code="78">v</td> <td class="char" data-code="79">w</td> <td class="char" data-code="7a">x</td> <td class="char" data-code="7b">y</td> <td class="char" data-code="7c">z</td> <td class="char" data-code="7d">э</td> <td class="char" data-code="7e">ю</td> <td class="char" data-code="7f">я</td> </tr> </table> </main></body></html>
>>2597113Не, это хуйня. По хорошему надо сначала написать скриптик для поддержки значения "dkoti" в meta charset, который будет сам переводить настоящие символы в сосихуйский уникод. В идеале к этому не помешал бы шрифтик, специально для представления DKOTI массам.
Напоминаю: ЮНИКОДАУНЫ САСАТБ<code_set_name> DKOTI-SU<comment_char> %<escape_char> /CHARMAP<U0000> /x00 NULL CHARACTER<U000E> /x01 SINGLE-BYTE MODE<U000F> /x02 MULTI-BYTE MODE<U0007> /x03 BELL<U0008> /x04 BACKSPACE<U0009> /x05 CHARACTER TABULATION<U000A> /x06 LINE FEED<U000B> /x07 LINE TABULATION<U000C> /x08 FORM FEED<U000D> /x09 CARRIAGE RETURN<U0091> /x0a INTERRUPT SIGNAL<U0018> /X0b CANCEL SIGNAL<U0092> /x0c INFORMATION SEPARATOR<U034F> /x0d GRAPHEME JOINER<U007F> /X0e DELETE CHARACTER<U001B> /x0f ESCAPE<U0030> /x10 DIGIT ZERO<U0031> /x11 DIGIT ONE<U0032> /x12 DIGIT TWO<U0033> /x13 DIGIT THREE<U0034> /x14 DIGIT FOUR<U0035> /x15 DIGIT FIVE<U0036> /x16 DIGIT SIX<U0037> /x17 DIGIT SEVEN<U0038> /x18 DIGIT EIGHT<U0039> /x19 DIGIT NINE<U005B> /x1a LEFT SQUARE BRACKET<U005D> /x1b RIGHT SQUARE BRACKET<U0022> /x1c QUOTATION MARK<U0023> /x1d NUMBER SIGN<U00A7> /x1e SECTION SIGN<U005F> /x1f UNDERSCORE<U0025> /x20 PERCENT SIGN<U007C> /x21 VERTICAL LINE<U0040> /x22 COMMERCIAL AT<U005C> /x23 REVERSE SOLIDUS<U00A4> /x24 CURRENCY SIGN<U003A> /x25 COLON<U005E> /x26 CIRCUMFLEX ACCENT<U0026> /x27 AMPERSAND<U003C> /x28 LESS-THAN SIGN<U003E> /x29 GREATER-THAN SIGN<U007B> /x2a LEFT CURLY BRACKET<U007D> /x2b RIGHT CURLY BRACKET<U0060> /x2c GRAVE ACCENT<U007E> /x2d TILDE<U221E> /x2e INFINITY<U00A0> /x2f NO-BREAK SPACE<U0021> /x30 EXCLAMATION MARK<U002B> /x31 PLUS SIGN<U2013> /x32 EN DASH-MINUS<U002F> /x33 SOLIDUS<U002A> /x34 ASTERISK<U003B> /x35 SEMICOLON<U002C> /x36 COMMA<U002E> /x37 FULL STOP<U003D> /x38 EQUALS SIGN<U003F> /x39 QUESTION MARK<U0028> /x3a LEFT PARENTHESIS<U0029> /x3b RIGHT PARENTHESIS<U0027> /x3c APOSTROPHE<U002D> /x3d HYPHEN<U00AC> /x3e NOT SIGN<U0020> /x3f SPACE<U0041> /x40 LATIN CAPITAL LETTER A<U0042> /x41 LATIN CAPITAL LETTER B<U0043> /x42 LATIN CAPITAL LETTER C<U0044> /x43 LATIN CAPITAL LETTER D<U0045> /x44 LATIN CAPITAL LETTER E<U04D8> /x45 CYRILLIC CAPITAL LETTER SCHWA<U0046> /x46 LATIN CAPITAL LETTER F<U0047> /x47 LATIN CAPITAL LETTER G<U0427> /x48 CYRILLIC CAPITAL LETTER CHA<U0048> /x49 LATIN CAPITAL LETTER H<U0049> /x4a LATIN CAPITAL LETTER I<U004A> /x4b LATIN CAPITAL LETTER J<U004B> /x4c LATIN CAPITAL LETTER K<U004C> /x4d LATIN CAPITAL LETTER L<U004D> /x4e LATIN CAPITAL LETTER M<U004E> /x4f LATIN CAPITAL LETTER N<U004F> /x50 LATIN CAPITAL LETTER O<U0050> /x51 LATIN CAPITAL LETTER P<U0428> /x52 CYRILLIC CAPITAL LETTER SHA<U0051> /x53 LATIN CAPITAL LETTER Q<U0052> /x54 LATIN CAPITAL LETTER R<U0053> /x55 LATIN CAPITAL LETTER S<U0054> /x56 LATIN CAPITAL LETTER T<U0055> /x57 LATIN CAPITAL LETTER U<U0056> /x58 LATIN CAPITAL LETTER V<U0057> /x59 LATIN CAPITAL LETTER W<U0058> /x5a LATIN CAPITAL LETTER X<U0059> /x5b LATIN CAPITAL LETTER Y<U005A> /x5c LATIN CAPITAL LETTER Z<U042D> /x5d CYRILLIC CAPITAL LETTER E<U042E> /x5e CYRILLIC CAPITAL LETTER YU<U042F> /x5f CYRILLIC CAPITAL LETTER YA<U0061> /x60 LATIN SMALL LETTER A<U0062> /x61 LATIN SMALL LETTER B<U0063> /x62 LATIN SMALL LETTER C<U0064> /x63 LATIN SMALL LETTER D<U0065> /x64 LATIN SMALL LETTER E<U04D9> /x65 CYRILLIC SMALL LETTER SCHWA<U0066> /x66 LATIN SMALL LETTER F<U0067> /x67 LATIN SMALL LETTER G<U0447> /x68 LATIN SMALL LETTER CHA<U0068> /x69 LATIN SMALL LETTER H<U0069> /x6a LATIN SMALL LETTER I<U006A> /x6b LATIN SMALL LETTER J<U006B> /x6c LATIN SMALL LETTER K<U006C> /x6d LATIN SMALL LETTER L<U006D> /x6e LATIN SMALL LETTER M<U006E> /x6f LATIN SMALL LETTER N<U006F> /x70 LATIN SMALL LETTER O<U0070> /x71 LATIN SMALL LETTER P<U0448> /x72 CYRILLIC SMALL LETTER SHA<U0071> /x73 LATIN SMALL LETTER Q<U0072> /x74 LATIN SMALL LETTER R<U0073> /x75 LATIN SMALL LETTER S<U0074> /x76 LATIN SMALL LETTER T<U0075> /x77 LATIN SMALL LETTER U<U0076> /x78 LATIN SMALL LETTER V<U0077> /x79 LATIN SMALL LETTER W<U0078> /x7a LATIN SMALL LETTER X<U0079> /x7b LATIN SMALL LETTER Y<U007A> /x7c LATIN SMALL LETTER Z<U044D> /x7d CYRILLIC SMALL LETTER E<U044E> /x7e CYRILLIC SMALL LETTER YU<U044F> /x7f CYRILLIC SMALL LETTER YA<U2500> /x80 BOX DRAWINGS LIGHT HORIZONTAL<U2502> /x81 BOX DRAWINGS LIGHT VERTICAL<U250C> /x82 BOX DRAWINGS LIGHT DOWN AND RIGHT<U2510> /x83 BOX DRAWINGS LIGHT DOWN AND LEFT<U2514> /x84 BOX DRAWINGS LIGHT UP AND RIGHT<U2518> /x85 BOX DRAWINGS LIGHT UP AND LEFT<U2550> /x86 BOX DRAWINGS DOUBLE HORIZONTAL<U2551> /x87 BOX DRAWINGS DOUBLE VERTICAL<U2554> /x88 BOX DRAWINGS DOUBLE DOWN AND RIGHT<U2557> /x89 BOX DRAWINGS DOUBLE DOWN AND LEFT<U255A> /x8a BOX DRAWINGS DOUBLE UP AND RIGHT<U255D> /x8b BOX DRAWINGS DOUBLE UP AND LEFT<U2591> /x8c LIGHT SHADE <U2592> /x8d MEDIUM SHADE<U2593> /x8e DARK SHADE<U2588> /x8f FULL BLOCK<U2030> /x90 PER MILLE SIGN<U2020> /x91 DAGGER<U00AF> /x92 MACRON<U2116> /x93 NUMERO SIGN<U224B> /x94 TRIPLE TILDE<U00AE> /x95 REGISTERED SIGN<U0018> /x96 DIAERESIS<U2026> /x97 HORIZONTAL ELLIPSIS<U2248> /x98 ALMOST EQUAL TO<U00B0> /x99 DEGREE SIGN<U00AB> /x9a LEFT-POINTING DOUBLE ANGLE QUOTATION MARK<U00BB> /x9b RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK<U201C> /x9c LEFT DOUBLE QUOTATION MARK<U201D> /x9d RIGHT DOUBLE QUOTATION MARK<U201E> /x9e DOUBLE LOW-9 QUOTATION MARK<U042A> /x9f CYRILLIC CAPITAL LETTER HARD SIGN<U2105> /xa0 CARE OF<U2021> /xa1 DOUBLE DAGGER<U221A> /xa2 SQUARE ROOT<U00D7> /xa3 MULTIPLICATION SIGN<U2605> /xa4 BLACK STAR<U2122> /xa5 TRADE MARK SIGN<U00B8> /xa6 CEDILLA<U2022> /xa7 BULLET<U2264> /xa8 LESS-THAN OR EQUAL TO<U2265> /xa9 GREATER-THAN OR EQUAL TO<U03BC> /xaa GREEK SMALL LETTER MU<U03C0> /xab GREEK SMALL LETTER PI<U00A6> /xac BROKEN BAR<U2211> /xad N-ARY SUMMATION<U00B6> /xae PILCROW SIGN<UE000> /xaf RUBBLE SIGN<U00A1> /xb0 INVERTED EXCLAMATION MARK<U00B1> /xb1 PLUS MINUS SYMBOL<U2014> /xb2 EM DASH<U00F7> /xb3 DIVISION SIGN<U2261> /xb4 IDENTIAL TO<U00A9> /xb5 COPYRIGHT SIGN<U00B4> /xb6 ACUTE ACCENT<U00B7> /xb7 MIDDLE DOT<U2260> /xb8 NOT EQUAL TO<U00BF> /xb9 INVERTED QUESTION MARK<U2039> /xba SINGLE LEFT-POINTING ANGLE QUOTATION MARK<U203A> /xbb SINGLE RIGHT-POINTING ANGLE QUOTATION MARK<U2018> /xbc LEFT SINGLE QUOTATION MARK<U2019> /xbd RIGHT SINGLE QUOTATION MARK<U201A> /xbe SINGLE LOW-9 QUOTATION MARK<U044A> /xbf CYRILLIC SMALL LETTER HARD SIGN<U0410> /xc0 CYRILLIC CAPITAL LETTER A<U0411> /xc1 CYRILLIC CAPITAL LETTER BE<U0412> /xc2 CYRILLIC CAPITAL LETTER VE<U0413> /xc3 CYRILLIC CAPITAL LETTER GHE<U0490> /xc4 CYRILLIC CAPITAL LETTER GHE WITH UPTURN<U0414> /xc5 CYRILLIC CAPITAL LETTER DE<U0415> /xc6 CYRILLIC CAPITAL LETTER IE<U0401> /xc7 CYRILLIC CAPITAL LETTER IO<U0404> /xc8 CYRILLIC CAPITAL LETTER UKRAINIAN IE<U0416> /xc9 CYRILLIC CAPITAL LETTER ZHE<U0417> /xca CYRILLIC CAPITAL LETTER ZE<U0418> /xcb CYRILLIC CAPITAL LETTER I<U0406> /xcc CYRILLIC CAPITAL LETTER BYELORUSSIAN-UKRANIAN I<U0407> /xcd CYRILLIC CAPITAL LETTER YI<U0419> /xce CYRILLIC CAPITAL LETTER SHORT I<U041A> /xcf CYRILLIC CAPITAL LETTER KA<U041B> /xd0 CYRILLIC CAPITAL LETTER EL<U041C> /xd1 CYRILLIC CAPITAL LETTER EM<U041D> /xd2 CYRILLIC CAPITAL LETTER EN<U041E> /xd3 CYRILLIC CAPITAL LETTER O<U041F> /xd4 CYRILLIC CAPITAL LETTER PE<U0420> /xd5 CYRILLIC CAPITAL LETTER ER<U0421> /xd6 CYRILLIC CAPITAL LETTER ES<U0422> /xd7 CYRILLIC CAPITAL LETTER TE<U0423> /xd8 CYRILLIC CAPITAL LETTER U<U040E> /xd9 CYRILLIC CAPITAL LETTER SHORT U<U0424> /xda CYRILLIC CAPITAL LETTER EF<U0425> /xdb CYRILLIC CAPITAL LETTER HA<U0426> /xdc CYRILLIC CAPITAL LETTER TSE<U0429> /xdd CYRILLIC CAPITAL LETTER SHCHA<U042B> /xde CYRILLIC CAPITAL LETTER YERU<U042C> /xdf CYRILLIC CAPITAL LETTER SOFT SIGN<U0430> /xe0 CYRILLIC SMALL LETTER A<U0431> /xe1 CYRILLIC SMALL LETTER BE<U0432> /xe2 CYRILLIC SMALL LETTER VE<U0433> /xe3 CYRILLIC SMALL LETTER GHE<U0491> /xe4 CYRILLIC SMALL LETTER GHE WITH UPTURN<U0434> /xe5 CYRILLIC SMALL LETTER DE<U0435> /xe6 CYRILLIC SMALL LETTER IE<U0451> /xe7 CYRILLIC SMALL LETTER IO<U0454> /xe8 CYRILLIC SMALL LETTER UKRAINIAN IE<U0436> /xe9 CYRILLIC SMALL LETTER ZHE<U0437> /xea CYRILLIC SMALL LETTER ZE<U0438> /xeb CYRILLIC SMALL LETTER I<U0456> /xec CYRILLIC SMALL LETTER BYELORUSSIAN-UKRANIAN I<U0457> /xed CYRILLIC SMALL LETTER YI<U0439> /xee CYRILLIC SMALL LETTER SHORT I<U043A> /xef CYRILLIC SMALL LETTER KA<U043B> /xf0 CYRILLIC SMALL LETTER EL<U043C> /xf1 CYRILLIC SMALL LETTER EM<U043D> /xf2 CYRILLIC SMALL LETTER EN<U043E> /xf3 CYRILLIC SMALL LETTER O<U043F> /xf4 CYRILLIC SMALL LETTER PE<U0440> /xf5 CYRILLIC SMALL LETTER ER<U0441> /xf6 CYRILLIC SMALL LETTER ES<U0442> /xf7 CYRILLIC SMALL LETTER TE<U0443> /xf8 CYRILLIC SMALL LETTER U<U045E> /xf9 CYRILLIC SMALL LETTER SHORT U<U0444> /xfa CYRILLIC SMALL LETTER EF<U0445> /xfb CYRILLIC SMALL LETTER HA<U0446> /xfc CYRILLIC SMALL LETTER THE<U0449> /xfd CYRILLIC SMALL LETTER SHCHA<U044B> /xfe CYRILLIC SMALL LETTER YERU<U044C> /xff CYRILLIC SMALL LETTER SOFT SIGNEND CHARMAP
>>25977063 ошибки выявил, но скомпилил. Локаль поставил ru_SU, но она пока является просто копией ru_SU. Поэтому когда в настройках установил новый язык и регион и перезагрузился, линукс стал зависать и вылетать на входе. Пиздец короче. Допиливать и допиливать. Скорее всего, дело в локали, там же группы символов остались на прежних местах.
>>2597706Чето я не понял как твое говно использовать когда в 1 слове используются буквы из китайского английского русского индусского японского напримертред не читал
>>2595552 (OP)>в начале и середине представленияв какой ещё середине? объясни понятнеевсего получается 128 страниц * 128 символов, я правильно понял?и если страница не базовая, то получается по 2 байта на каждый символ - табличный и символьный, верно?
>>2597960у них что, свой язык не самодостаточен? пример кинь, только не разговорный, само собой...кстати, даже в таком случае можно включить подобные литеры в национальный словарь и не лезть в чужие кодировки
>>2597964>пример кинь, только не разговорный, само собой...Вот прямо здесь, на первом же сайте.>кстати, даже в таком случае можно включить подобные литеры в национальный словарь и не лезть в чужие кодировкиОхуительный костыль. Чтобы вернуться в нулевые и смотреть на аооеоё.
>>2597966>прямо здесьмне кажется, что лексемы там-таки разные, хоть и пишутся слитно; ну и это не строгое письмо, о чём я и говорю, как digitalизация у Кличко )>>2597966>аооеоёэто что такое, просвяти;если речь идёт о заимствовании букв, то их судьба может развиваться уже по своим законам; как например французские послевоенные неологизмы вроде сортира, который по-французски просто "выйти" и не более...
>>2597963Если первый байт начинается с нуля, тогда это базовый DKOTI-символ из базовой страницы (первая половина таблицы оппоста). Если первый байт начинается с единицы, читаем его и переходим ко второму. Если второй байт начинается с нуля, тогда мы получили двубайтовый символ, из 128 страниц по 128 символов. Если тоже с единицы, тогда читаем его и переходим к третьему. Если третий байт начинается с нуля - это трёхбайтовый символ из 16384 страниц итд. Первый байт обеспечивает самосинхронизацию, окда. Максимально возможное число байт для одного символа - 4. То есть у нас есть 270549120 кодовых позиций.
0x00 = 0x8000 = 0x808000 = 0x80808000первый символ первой таблицы во всех случаях?>>2597975>Максимально возможное число байтне ограничено ведьа зачем такая лабуда - собирать номер таблицы с 2..3 ПОЛУбайтов?а если 1 256-символьной таблицы не хватит? есть же наверняка нотации с огромным количеством знаков, та же иеролглифная
>>2597988> 0x00 = 0x8000 = 0x808000 = 0x80808000Нет, с чего ты взял?> не ограничено ведьТехнически да, но должны быть рамки, чтобы можно было разместить символы в ОЗУ равным числом байт. Тот же utf-8 тоже по спецификации ограничен 6 байтами.> а зачем такая лабуда - собирать номер таблицы с 2..3 ПОЛУбайтов?Это у уникода почти полубайты, а здесь 7 "полезных" бит из 8. Не понял вопрос, ты предлагаешь для номера страницы использовать полные байты? Тогда выйдет жирно, базовую латиницу придётся хранить по 4 байта на символ. Да и самосинхронизация потеряется.> а если 1 256-символьной таблицы не хватит? есть же наверняка нотации с огромным количеством знаков, та же иеролглифнаяПадажи, какие 1256? Больше 270 млн же.
>>2597973>мне кажется, что лексемы там-таки разные, хоть и пишутся слитно; ну и это не строгое письмо, о чём я и говорю, как digitalизация у Кличко )Что за отвлечённую хуйню ты несёшь? Есть задача: символы 2-ух\3-ёх алфавитов в одном блоке текста. Как её выполнить? Не надо вилять, что ненужно.
>а если одной 256128-символьной таблицы не хватит>>25979947+7+7 битов кодируют 2^21 таблиц, или просто пространство 2^28 и делай с ним что хочешь?>>2597994>Нетда ) где ошибка-то? 00000000 - нулевой символ (нулевой таблицы)10000000 00000000 - нулевой символ нулевой опять же таблицыи т. д.>>2598004>в одном блоке текстаи кто тут виляет? )
>>2598011> >а если одной 256128-символьной таблицы не хватитДля базовых символов хватает. Остальные кодируются несколькими байтами.> 7+7+7 битов кодируют 2^21 таблиц, или просто пространство 2^28 и делай с ним что хочешь?Смотря как посмотреть. Скорее первое.> >Нет> да ) где ошибка-то?> 00000000 - нулевой символ (нулевой таблицы)> 10000000 00000000 - нулевой символ нулевой опять же таблицы> и т. д.Схуяли 0x8000 - опять нулевая таблица? Это две разных таблицы.
>>2598027короче, у тебя просто протокол передачи информации 7+1, где 8ой бит каждого байта определяет длину последовательности; в плане ёмкости это не рационально, а в плане кодировки - это незначительно
>>2598051> в плане ёмкости это не рациональноКуда ещё рациональнее? Говноуникод использует для задания длины 3+ бит, а каждый последний байт у символа обрезается ещё на 2 бита. Один бит от целого байта отхапать и решить им все проблемы - не рационально?
>>2600650И чем они похожи кроме самого факта мультибайтовости и самосинхронизации?Юникод це:110..... 10......DKOTI це:1....... 0.......
>>26011614 дня искал сленговое словечко из интернета, браво; виляние++ ) напоминаю, речь шла про иностранный алфавит в объёме одной лексемы; наподобие ї в украинском (о чём и надо было вспомнить, а не японское акселератство перелопачивать)однако в таком случае литера уже входит в украинский алфавит, а не "тянется" из западноевропейского; при определённых условиях она даже может изменяться, вне зависимости от судьбы аналогичной единицы у других народов - как например разница между русской "т" (прописью "m") и латинской "t"
>>2595552 (OP)Нет совместимости с ASCII - сразу нахуй. Еще 0-0x20 НУЖНЫ, UTF-8 придумали не линуксоиды, а ОП - ебаный кирилл с корованами.
>>2601184> 4 дня искал сленговое словечко из интернета, браво; виляние++ )Я другой анон, зашел только вчера.> напоминаю, речь шла про иностранный алфавит в объёме одной лексемы; наподобие ї в украинскомРечь шла про любой язык с буквой другого языка в афавите. Вот у меня клавиатура сломалась, я вместо р писал p английскую, потому что лень было клаву покупать
Закончил с пунктуацией и математическими операторами, приступил к латинице и некомбинируемой диакритике. Скоро будет готова версия 0.1. Официально заявляю: юникодауны - сасатб.
>>2604074Знаю, но я запилю специальный формат шрифтов, перепердолив OTF.Алсо, заглавная латиница почти готова.
>>2595714> высирать мертворожденную ни с чем не совместимую кодировочку, которой не будешь пользоваться даже сам> называть юникод мертворожденнымЯ так смотрю, шиза со страшной силой косит твои ряды.
>>2604517Ты бы лучше предусмотрел составные символы как в юникоде. Чтобы Й кодировалась двумя символами. Так будет удобнее, когда до корейского алфавита дойдешь, например. Да и зачем тебе композитные символы, если ты изначально не планируешь растровые шрифты? В текстовом режиме VGA твоя ебала же по-определению работать не будет.
>>2604384>Знаю, но я запилю специальный формат шрифтов, перепердолив OTF.Лол, ты не представляешь какой это геморой. При том, что даже документации нормальной на формат нет. И у эппла и у МС доки на TTF с ошибками, например.
>>2604958Комбинируемая диакритика будет, конечно же. Но и комбайны из уникода все перенесу для более простого перекодирования.>>2604961Значит, запилю совершенно новый формат - zip с svg-файлами.
Блять, это ИДЕАЛЬНО. Вы поглядите, как синхронно идут страницы заглавных и строчных букв! Это какая же ягодка для регулярок и просто поисковиков без учёта регистра. По одному байту определить регистр и одним же сменить. Где петушки, что кукарекали: твоя параша медленная, уникод кококо? Да в уникоде такого минимума энтропии никогда не будет. Жду ваших оправданий.
>>2605112Оправдываешься здесь ты, корябая сообщеньки на сосачик в ненавистном utf8.Используй дкоти своё, либо фпизду поди.
>>2605898Хочешь сказать, символов дохуя? Да, работы много, но иероглифы не разбиты на заглавные и строчные и даже не упорядочены по алфавиту, поэтому мне помогут скриптики.
>>2606148Хуиптики. Будет твоя хуйня свободна от того, за что критикуют Юникод?https://en.wikipedia.org/wiki/Unicode#Philosophical_and_completeness_criticisms
>>2606148Если нужен конкретный пример: начертания одних и тех же иероглифов могут отличаться для китайского, японского (кандзи) и корейском (ханча), удачи тебе с раскидыванием их по отдельным страницам. Кроме того, не забудь про альтернативные начертания кандзи, которых в Юникоде нет, так что тебе придётся как минимум еще и японскую кодировку TRON изучать, ороро.
>>2606162>японскую кодировку TRONhttps://en.wikipedia.org/wiki/TRON_%28encoding%29И еще, будь ласка, не забудь про кодировку UCS - ее используют те, кто работает со старославянскими и древнерусскими текстами.http://www.irmologion.ru/ucsenc.html
Накатал небольшой скриптик, переводящий файлы из неправильного уникода в правильную DKOTI:## -- coding: utf-8 --import systable = { "\x00": b"\x00", # NULL CHARACTER "\x01": b"\x80\x03", # START OF HEADING "\x02": b"\x80\x05", # START OF TEXT "\x03": b"\x80\x06", # END OF TEXT "\x04": b"\x80\x02", # END OF TRANSMISSION "\x05": b"\x80\x0a", # ENQUIRY "\x06": b"\x80\x0b", # ACKNOWLEDGE "\x07": b"\x03", # BELL "\x08": b"\x04", # BACKSPACE "\x09": b"\x05", # CHARACTER TABULATION "\x0a": b"\x06", # LINE FEED "\x0b": b"\x07", # LINE TABULATION "\x0c": b"\x08", # FORM FEED "\x0d": b"\x09", # CARRIAGE RETURN "\x0e": b"\x01", # SINGLE-BYTE MODE "\x0f": b"\x02", # MULTI-BYTE MODE "\x10": b"\x09", # DATA LINK ESCAPE "\x11": b"\x80\x10", # DEVICE CONTROL ONE "\x12": b"\x80\x11", # DEVICE CONTROL TWO "\x13": b"\x80\x12", # DEVICE CONTROL THREE "\x14": b"\x80\x13", # DEVICE CONTROL FOUR "\x15": b"\x80\x0c", # NEGATIVE ACKNOWLEDGE "\x16": b"\x80\x00", # SYNCHRONOUS IDLE "\x17": b"\x80\x0d", # END OF TRANSMISSION BLOCK "\x18": b"\x0b", # CANCEL SIGNAL "\x19": b"\x80\x0e", # END OF MEDIUM "\x1a": b"\x80\x0f", # SUBSTITUTE "\x1b": b"\x0f", # ESCAPE "\x1c": b"\x80\x17", # INFORMATION SEPARATOR FOUR "\x1d": b"\x80\x16", # INFORMATION SEPARATOR THREE "\x1e": b"\x80\x15", # INFORMATION SEPARATOR TWO "\x1f": b"\x80\x14", # INFORMATION SEPARATOR ONE " ": b"\x3f", # SPACE "!": b"\x30", # EXCLAMATION MARK "\"": b"\x1c", # QUOTATION MARK "#": b"\x1d", # NUMBER SIGN "$": b"", # DOLLAR SIGN "%": b"\x20", # PERCENT SIGN "&": b"\x27", # AMPERSAND "'": b"\x3c", # APOSTROPHE "(": b"\x3a", # LEFT PARENTHESIS ")": b"\x3b", # RIGHT PARENTHESIS "*": b"\x34", # ASTERISK "+": b"\x31", # PLUS SIGN ",": b"\x36", # COMMA "-": b"\x3d", # HYPHEN ".": b"\x37", # FULL STOP "/": b"\x33", # SOLIDUS "0": b"\x10", # DIGIT ZERO "1": b"\x11", # DIGIT ONE "2": b"\x12", # DIGIT TWO "3": b"\x13", # DIGIT THREE "4": b"\x14", # DIGIT FOUR "5": b"\x15", # DIGIT FIVE "6": b"\x16", # DIGIT SIX "7": b"\x17", # DIGIT SEVEN "8": b"\x18", # DIGIT EIGHT "9": b"\x19", # DIGIT NINE ":": b"\x25", # COLON ";": b"\x35", # SEMICOLON "<": b"\x28", # LESS-THAN SIGN "=": b"\x38", # EQUALS SIGN ">": b"\x29", # GREATER-THAN SIGN "?": b"\x39", # QUESTION MARK "@": b"\x22", # COMMERCIAL AT "A": b"\x40", # LATIN CAPITAL LETTER A "B": b"\x41", # LATIN CAPITAL LETTER B "C": b"\x42", # LATIN CAPITAL LETTER C "D": b"\x43", # LATIN CAPITAL LETTER D "E": b"\x44", # LATIN CAPITAL LETTER E "F": b"\x46", # LATIN CAPITAL LETTER F "G": b"\x47", # LATIN CAPITAL LETTER G "H": b"\x49", # LATIN CAPITAL LETTER H "I": b"\x4a", # LATIN CAPITAL LETTER I "J": b"\x4b", # LATIN CAPITAL LETTER J "K": b"\x4c", # LATIN CAPITAL LETTER K "L": b"\x4d", # LATIN CAPITAL LETTER L "M": b"\x4e", # LATIN CAPITAL LETTER M "N": b"\x4f", # LATIN CAPITAL LETTER N "O": b"\x50", # LATIN CAPITAL LETTER O "P": b"\x51", # LATIN CAPITAL LETTER P "Q": b"\x53", # LATIN CAPITAL LETTER Q "R": b"\x54", # LATIN CAPITAL LETTER R "S": b"\x55", # LATIN CAPITAL LETTER S "T": b"\x56", # LATIN CAPITAL LETTER T "U": b"\x57", # LATIN CAPITAL LETTER U "V": b"\x58", # LATIN CAPITAL LETTER V "W": b"\x59", # LATIN CAPITAL LETTER W "X": b"\x5a", # LATIN CAPITAL LETTER X "Y": b"\x5b", # LATIN CAPITAL LETTER Y "Z": b"\x5c", # LATIN CAPITAL LETTER Z "[": b"\x1a", # LEFT SQUARE BRACKET "\\": b"\x23", # REVERSE SOLIDUS "]": b"\x1b", # RIGHT SQUARE BRACKET "^": b"\x26", # CIRCUMFLEX ACCENT "_": b"\x1f", # UNDERSCORE "`": b"\x2c", # GRAVE ACCENT "a": b"\x60", # LATIN SMALL LETTER A "b": b"\x61", # LATIN SMALL LETTER B "c": b"\x62", # LATIN SMALL LETTER C "d": b"\x63", # LATIN SMALL LETTER D "e": b"\x64", # LATIN SMALL LETTER E "f": b"\x66", # LATIN SMALL LETTER F "g": b"\x67", # LATIN SMALL LETTER G "h": b"\x69", # LATIN SMALL LETTER H "i": b"\x6a", # LATIN SMALL LETTER I "j": b"\x6b", # LATIN SMALL LETTER J "k": b"\x6c", # LATIN SMALL LETTER K "l": b"\x6d", # LATIN SMALL LETTER L "m": b"\x6e", # LATIN SMALL LETTER M "n": b"\x6f", # LATIN SMALL LETTER N "o": b"\x70", # LATIN SMALL LETTER O "p": b"\x71", # LATIN SMALL LETTER P "q": b"\x73", # LATIN SMALL LETTER Q "r": b"\x74", # LATIN SMALL LETTER R "s": b"\x75", # LATIN SMALL LETTER S "t": b"\x76", # LATIN SMALL LETTER T "u": b"\x77", # LATIN SMALL LETTER U "v": b"\x78", # LATIN SMALL LETTER V "w": b"\x79", # LATIN SMALL LETTER W "x": b"\x7a", # LATIN SMALL LETTER X "y": b"\x7b", # LATIN SMALL LETTER Y "z": b"\x7c", # LATIN SMALL LETTER Z "{": b"\x2a", # LEFT CURLY BRACKET "|": b"\x21", # VERTICAL LINE "}": b"\x2b", # RIGHT CURLY BRACKET "~": b"\x2d", # TILDE "\x7f": b"\x0e", # DELETE CHARACTER "\xc2\x91": b"\x0a", # INTERRUPT SIGNAL "\xc2\x92": b"\x0c", # INFORMATION SEPARATOR "§": b"\x1e", # SECTION SIGN "¤": b"\x24", # CURRENCY SIGN "∞": b"\x2e", # INFINITY " ": b"\x2f", # NO-BREAK SPACE "¬": b"\x2e", # NOT SIGN "Ә": b"\x45", # CYRILLIC CAPITAL LETTER SCHWA "Ч": b"\x48", # CYRILLIC CAPITAL LETTER CHA "Ш": b"\x52", # CYRILLIC CAPITAL LETTER SHA "Э": b"\x5d", # CYRILLIC CAPITAL LETTER E "Ю": b"\x5e", # CYRILLIC CAPITAL LETTER YU "Я": b"\x5f" # CYRILLIC CAPITAL LETTER YA}dkoti = bytearray(b"")with open(sys.argv[1], 'r') as file: utf = file.read()for c in utf: dkoti.extend(table[c])with open(sys.argv[2], 'wb') as file: file.write(dkoti)
И обратно, DKOTI в уникод. Хотя кому это понадобится лет через 5?## -- coding: utf-8 --import systable = { "\x00": "\x00", # NULL CHARACTER "\x80\x03": "\x01", # START OF HEADING "\x80\x05": "\x02", # START OF TEXT "\x80\x06": "\x03", # END OF TEXT "\x80\x02": "\x04", # END OF TRANSMISSION "\x80\x0a": "\x05", # ENQUIRY "\x80\x0b": "\x06", # ACKNOWLEDGE "\x03": "\x07", # BELL "\x04": "\x08", # BACKSPACE "\x05": "\x09", # CHARACTER TABULATION "\x06": "\x0a", # LINE FEED "\x07": "\x0b", # LINE TABULATION "\x08": "\x0c", # FORM FEED "\x09": "\x0d", # CARRIAGE RETURN "\x01": "\x0e", # SINGLE-BYTE MODE "\x02": "\x0f", # MULTI-BYTE MODE "\x09": "\x10", # DATA LINK ESCAPE "\x80\x10": "\x11", # DEVICE CONTROL ONE "\x80\x11": "\x12", # DEVICE CONTROL TWO "\x80\x12": "\x13", # DEVICE CONTROL THREE "\x80\x13": "\x14", # DEVICE CONTROL FOUR "\x80\x0c": "\x15", # NEGATIVE ACKNOWLEDGE "\x80\x00": "\x16", # SYNCHRONOUS IDLE "\x80\x0d": "\x17", # END OF TRANSMISSION BLOCK "\x0b": "\x18", # CANCEL SIGNAL "\x80\x0e": "\x19", # END OF MEDIUM "\x80\x0f": "\x1a", # SUBSTITUTE "\x0f": "\x1b", # ESCAPE "\x80\x17": "\x1c", # INFORMATION SEPARATOR FOUR "\x80\x16": "\x1d", # INFORMATION SEPARATOR THREE "\x80\x15": "\x1e", # INFORMATION SEPARATOR TWO "\x80\x14": "\x1f", # INFORMATION SEPARATOR ONE "\x3f": " ", # SPACE "\x30": "!", # EXCLAMATION MARK "\x1c": "\"", # QUOTATION MARK "\x1d": "#", # NUMBER SIGN "": "$", # DOLLAR SIGN "\x20": "%", # PERCENT SIGN "\x27": "&", # AMPERSAND "\x3c": "'", # APOSTROPHE "\x3a": "(", # LEFT PARENTHESIS "\x3b": ")", # RIGHT PARENTHESIS "\x34": "*", # ASTERISK "\x31": "+", # PLUS SIGN "\x36": ",", # COMMA "\x3d": "-", # HYPHEN "\x37": ".", # FULL STOP "\x33": "/", # SOLIDUS "\x10": "0", # DIGIT ZERO "\x11": "1", # DIGIT ONE "\x12": "2", # DIGIT TWO "\x13": "3", # DIGIT THREE "\x14": "4", # DIGIT FOUR "\x15": "5", # DIGIT FIVE "\x16": "6", # DIGIT SIX "\x17": "7", # DIGIT SEVEN "\x18": "8", # DIGIT EIGHT "\x19": "9", # DIGIT NINE "\x25": ":", # COLON "\x35": ";", # SEMICOLON "\x28": "<", # LESS-THAN SIGN "\x38": "=", # EQUALS SIGN "\x29": ">", # GREATER-THAN SIGN "\x39": "?", # QUESTION MARK "\x22": "@", # COMMERCIAL AT "\x40": "A", # LATIN CAPITAL LETTER A "\x41": "B", # LATIN CAPITAL LETTER B "\x42": "C", # LATIN CAPITAL LETTER C "\x43": "D", # LATIN CAPITAL LETTER D "\x44": "E", # LATIN CAPITAL LETTER E "\x46": "F", # LATIN CAPITAL LETTER F "\x47": "G", # LATIN CAPITAL LETTER G "\x49": "H", # LATIN CAPITAL LETTER H "\x4a": "I", # LATIN CAPITAL LETTER I "\x4b": "J", # LATIN CAPITAL LETTER J "\x4c": "K", # LATIN CAPITAL LETTER K "\x4d": "L", # LATIN CAPITAL LETTER L "\x4e": "M", # LATIN CAPITAL LETTER M "\x4f": "N", # LATIN CAPITAL LETTER N "\x50": "O", # LATIN CAPITAL LETTER O "\x51": "P", # LATIN CAPITAL LETTER P "\x53": "Q", # LATIN CAPITAL LETTER Q "\x54": "R", # LATIN CAPITAL LETTER R "\x55": "S", # LATIN CAPITAL LETTER S "\x56": "T", # LATIN CAPITAL LETTER T "\x57": "U", # LATIN CAPITAL LETTER U "\x58": "V", # LATIN CAPITAL LETTER V "\x59": "W", # LATIN CAPITAL LETTER W "\x5a": "X", # LATIN CAPITAL LETTER X "\x5b": "Y", # LATIN CAPITAL LETTER Y "\x5c": "Z", # LATIN CAPITAL LETTER Z "\x1a": "[", # LEFT SQUARE BRACKET "\x23": "\\", # REVERSE SOLIDUS "\x1b": "]", # RIGHT SQUARE BRACKET "\x26": "^", # CIRCUMFLEX ACCENT "\x1f": "_", # UNDERSCORE "\x2c": "`", # GRAVE ACCENT "\x60": "a", # LATIN SMALL LETTER A "\x61": "b", # LATIN SMALL LETTER B "\x62": "c", # LATIN SMALL LETTER C "\x63": "d", # LATIN SMALL LETTER D "\x64": "e", # LATIN SMALL LETTER E "\x66": "f", # LATIN SMALL LETTER F "\x67": "g", # LATIN SMALL LETTER G "\x69": "h", # LATIN SMALL LETTER H "\x6a": "i", # LATIN SMALL LETTER I "\x6b": "j", # LATIN SMALL LETTER J "\x6c": "k", # LATIN SMALL LETTER K "\x6d": "l", # LATIN SMALL LETTER L "\x6e": "m", # LATIN SMALL LETTER M "\x6f": "n", # LATIN SMALL LETTER N "\x70": "o", # LATIN SMALL LETTER O "\x71": "p", # LATIN SMALL LETTER P "\x73": "q", # LATIN SMALL LETTER Q "\x74": "r", # LATIN SMALL LETTER R "\x75": "s", # LATIN SMALL LETTER S "\x76": "t", # LATIN SMALL LETTER T "\x77": "u", # LATIN SMALL LETTER U "\x78": "v", # LATIN SMALL LETTER V "\x79": "w", # LATIN SMALL LETTER W "\x7a": "x", # LATIN SMALL LETTER X "\x7b": "y", # LATIN SMALL LETTER Y "\x7c": "z", # LATIN SMALL LETTER Z "\x2a": "{", # LEFT CURLY BRACKET "\x21": "|", # VERTICAL LINE "\x2b": "}", # RIGHT CURLY BRACKET "\x2d": "~", # TILDE "\x0e": "\x7f", # DELETE CHARACTER "\x0a": "\xc2\x91", # INTERRUPT SIGNAL "\x0c": "\xc2\x92", # INFORMATION SEPARATOR "\x1e": "§", # SECTION SIGN "\x24": "¤", # CURRENCY SIGN "\x2e": "∞", # INFINITY "\x2f": " ", # NO-BREAK SPACE "\x2e": "¬", # NOT SIGN "\x45": "Ә", # CYRILLIC CAPITAL LETTER SCHWA "\x48": "Ч", # CYRILLIC CAPITAL LETTER CHA "\x52": "Ш", # CYRILLIC CAPITAL LETTER SHA "\x5d": "Э", # CYRILLIC CAPITAL LETTER E "\x5e": "Ю", # CYRILLIC CAPITAL LETTER YU "\x5f": "Я", # CYRILLIC CAPITAL LETTER YA "\x65": "ә", # CYRILLIC SMALL LETTER SCHWA "\x68": "ч", # CYRILLIC SMALL LETTER CHA "\x72": "ш", # CYRILLIC SMALL LETTER SHA "\x7d": "э", # CYRILLIC SMALL LETTER E "\x7e": "ю", # CYRILLIC SMALL LETTER YU "\x7f": "я" # CYRILLIC SMALL LETTER YA}utf = ""symbol = ""MAX = 4counter = 0with open(sys.argv[1], 'rb') as file: dkoti = file.read()for c in dkoti: symbol += chr(c) counter += 1 if c < 0x80 or counter == MAX: utf += table[symbol] symbol = "" counter = 0with open(sys.argv[2], 'w') as file: file.write(utf)
Модификаторы всё. Нахуя их так много придумали? Такое ощущение, что можно было не стараться над ними так усердно.
Эй, юникодауны, как сосётся? Смотрите, что уже готово:"00";"PS";"PUSTOJ SIMVOL";"NULL CHARACTER";"ПУСТОЙ СИМВОЛ""01";"OR";"ODNOBAJTOVYJ REXIM";"SINGLE-BYTE MODE";"ОДНОБАЙТОВЫЙ РЕЖИМ""02";"MR";"MULTIBAJTOVYJ REXIM";"MULTI-BYTE MODE";"МУЛЬТИБАЙТОВЫЙ РЕЖИМ""03";"ZS";"ZVUKOVOJ SIGNAL";"BELL";"ЗВУКОВОЙ СИГНАЛ""04";"VШ";"VOZVRAT NA ШAG";"BACKSPACE";"ВОЗВРАТ НА ШАГ""05";"GT";"GORIZONTAL′NAЯ TABULЯCIЯ";"CHARACTER TABULATION";"ГОРИЗОНТАЛЬНАЯ ТАБУЛЯЦИЯ""06";"NS";"NOVAЯ STROKA";"LINE FEED";"НОВАЯ СТРОКА""07";"VT";"VERTIKAL′NAЯ TABULЯCIЯ";"LINE TABULATION";"ВЕРТИКАЛЬНАЯ ТАБУЛЯЦИЯ""08";"SS";"SMENA STRANICY";"FORM FEED";"СМЕНА СТРАНИЦЫ""09";"VK";"VOZVRAT KARETKI";"CARRIAGE RETURN";"ВОЗВРАТ КАРЕТКИ""0a";"SP";"SIGNAL PRERYVANIЯ";"INTERRUPT SIGNAL";"СИГНАЛ ПРЕРЫВАНИЯ""0b";"SO";"SIGNAL OTMENY";"CANCEL SIGNAL";"СИГНАЛ ОТМЕНЫ""0c";"RD";"RAZDELITEL′ DANNYH";"INFORMATION SEPARATOR";"РАЗДЕЛИТЕЛЬ ДАННЫХ""0d";"OS";"OBJEDINENIE SIMVOLOV";"GRAPHEME JOINER";"ОБ′ЕДИНЕНИЕ СИМВОЛОВ""0e";"US";"UDALENIE SIMVOLA";"DELETE CHARACTER";"УДАЛЕНИЕ СИМВОЛА""0f";"UP";"UPRAVLЯЮQAЯ POSLEDOVATEL′NOST′";"ESCAPE";"УПРАВЛЯЮЩАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ""10";"0";"CIFRA NOL′";"DIGIT ZERO";"ЦИФРА НОЛЬ""11";"1";"CIFRA ODIN";"DIGIT ONE";"ЦИФРА ОДИН""12";"2";"CIFRA DVA";"DIGIT TWO";"ЦИФРА ДВА""13";"3";"CIFRA TRI";"DIGIT THREE";"ЦИФРА ТРИ""14";"4";"CIFRA ЧETYRE";"DIGIT FOUR";"ЦИФРА ЧЕТЫРЕ""15";"5";"CIFRA PЯT′";"DIGIT FIVE";"ЦИФРА ПЯТЬ""16";"6";"CIFRA ШEST′";"DIGIT SIX";"ЦИФРА ШЕСТЬ""17";"7";"CIFRA SEM′";"DIGIT SEVEN";"ЦИФРА СЕМЬ""18";"8";"CIFRA VOSEM′";"DIGIT EIGHT";"ЦИФРА ВОСЕМЬ""19";"9";"CIFRA DEVЯT′";"DIGIT NINE";"ЦИФРА ДЕВЯТЬ""1a";"[";"LEVAЯ KVADRATNAЯ SKOBKA";"LEFT SQUARE BRACKET";"ЛЕВАЯ КВАДРАТНАЯ СКОБКА""1b";"]";"PRAVAЯ KVADRATNAЯ SKOBKA";"RIGHT SQUARE BRACKET";"ПРАВАЯ КВАДРАТНАЯ СКОБКА""1c";"″";"DVOJNAЯ KAVYЧKA";"QUOTATION MARK";"ДВОЙНАЯ КАВЫЧКА""1d";"#";"REШӘTKA";"NUMBER SIGN";"РЕШЁТКА""1e";"§";"PARAGRAF";"SECTION SIGN";"ПАРАГРАФ""1f";"_";"NIXNEE PODЧӘRKIVANIE";"UNDERSCORE";"НИЖНЕЕ ПОДЧЁРКИВАНИЕ""20";"%";"ZNAK PROCENTA";"PERCENT SIGN";"ЗНАК ПРОЦЕНТА""21";"|";"VERTIKAL′NAЯ LINIЯ";"VERTICAL LINE";"ВЕРТИКАЛЬНАЯ ЛИНИЯ""22";"@";"SIMVOL SOBAKA";"COMMERCIAL AT";"СИМВОЛ СОБАКА""23";"\";"OBRATNAЯ KOSAЯ ЧERTA";"REVERSE SOLIDUS";"ОБРАТНАЯ КОСАЯ ЧЕРТА""24";"¤";"ZNAK VALЮTY";"CURRENCY SIGN";"ЗНАК ВАЛЮТЫ""25";":";"DVOETOЧIE";"COLON";"ДВОЕТОЧИЕ""26";"^";"KARET";"CIRCUMFLEX ACCENT";"КАРЕТ""27";"&";"AMPERSAND";"AMPERSAND";"АМПЕРСАНД""28";"<";"ZNAK MEN′ШE";"LESS-THAN SIGN";"ЗНАК МЕНЬШЕ""29";">";"ZNAK BOL′ШE";"GREATER-THAN SIGN";"ЗНАК БОЛЬШЕ""2a";"{";"LEVAЯ FIGURNAЯ SKOBKA";"LEFT CURLY BRACKET";"ЛЕВАЯ ФИГУРНАЯ СКОБКА""2b";"}";"PRAVAЯ FIGURNAЯ SKOBKA";"RIGHT CURLY BRACKET";"ПРАВАЯ ФИГУРНАЯ СКОБКА""2c";"`";"GRAVIS";"GRAVE ACCENT";"ГРАВИС""2d";"~";"TIL′DA";"TILDE";"ТИЛЬДА""2e";"∞";"ZNAK BESKONEЧNOSTI";"INFINITY";"ЗНАК БЕСКОНЕЧНОСТИ""2f";" ";"NERAZRYVNYJ PROBEL";"NO-BREAK SPACE";"НЕРАЗРЫВНЫЙ ПРОБЕЛ""30";"!";"VOSKLICATEL′NYJ ZNAK";"EXCLAMATION MARK";"ВОСКЛИЦАТЕЛЬНЫЙ ЗНАК""31";"+";"PLUS";"PLUS SIGN";"ПЛЮС""32";"–";"SREDNEE TIRE-MINUS";"EN DASH-MINUS";"СРЕДНЕЕ ТИРЕ-МИНУС""33";"/";"KOSAЯ ЧERTA";"SOLIDUS";"КОСАЯ ЧЕРТА""34";"*";"ZVӘZDOЧKA";"ASTERISK";"ЗВЁЗДОЧКА""35";";";"TOЧKA S ZAPЯTOJ";"SEMICOLON";"ТОЧКА С ЗАПЯТОЙ""36";",";"ZAPЯTAЯ";"COMMA";"ЗАПЯТАЯ""37";".";"TOЧKA";"FULL STOP";"ТОЧКА""38";"=";"ZNAK RAVNO";"EQUALS SIGN";"ЗНАК РАВНО""39";"?";"VOPROSITEL′NYJ ZNAK";"QUESTION MARK";"ВОПРОСИТЕЛЬНЫЙ ЗНАК""3a";"(";"LEVAЯ KRUGLAЯ SKOBKA";"LEFT PARENTHESIS";"ЛЕВАЯ КРУГЛАЯ СКОБКА""3b";")";"PRAVAЯ KRUGLAЯ SKOBKA";"RIGHT PARENTHESIS";"ПРАВАЯ КРУГЛАЯ СКОБКА""3c";"'";"APOSTROF";"APOSTROPHE";"АПОСТРОФ""3d";"-";"DEFIS";"HYPHEN";"ДЕФИС""3e";"¬";"ZNAK OTRICANIЯ";"NOT SIGN";"ЗНАК ОТРИЦАНИЯ""3f";" ";"PROBEL";"SPACE";"ПРОБЕЛ""40";"A";"LATINSKAЯ ZAGLAVNAЯ BUKVA A";"LATIN CAPITAL LETTER A";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A""41";"B";"LATINSKAЯ ZAGLAVNAЯ BUKVA B";"LATIN CAPITAL LETTER B";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА B""42";"C";"LATINSKAЯ ZAGLAVNAЯ BUKVA C";"LATIN CAPITAL LETTER C";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА C""43";"D";"LATINSKAЯ ZAGLAVNAЯ BUKVA D";"LATIN CAPITAL LETTER D";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА D""44";"E";"LATINSKAЯ ZAGLAVNAЯ BUKVA E";"LATIN CAPITAL LETTER E";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E""45";"Ә";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Ә";"CYRILLIC CAPITAL LETTER SCHWA";"КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА Ә""46";"F";"LATINSKAЯ ZAGLAVNAЯ BUKVA F";"LATIN CAPITAL LETTER F";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА F""47";"G";"LATINSKAЯ ZAGLAVNAЯ BUKVA G";"LATIN CAPITAL LETTER G";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА G""48";"Ч";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Ч";"CYRILLIC CAPITAL LETTER CHA";"КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА Ч""49";"H";"LATINSKAЯ ZAGLAVNAЯ BUKVA H";"LATIN CAPITAL LETTER H";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА H""4a";"I";"LATINSKAЯ ZAGLAVNAЯ BUKVA I";"LATIN CAPITAL LETTER I";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА I""4b";"J";"LATINSKAЯ ZAGLAVNAЯ BUKVA J";"LATIN CAPITAL LETTER J";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА J""4c";"K";"LATINSKAЯ ZAGLAVNAЯ BUKVA K";"LATIN CAPITAL LETTER K";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА K""4d";"L";"LATINSKAЯ ZAGLAVNAЯ BUKVA L";"LATIN CAPITAL LETTER L";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА L""4e";"M";"LATINSKAЯ ZAGLAVNAЯ BUKVA M";"LATIN CAPITAL LETTER M";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА M""4f";"N";"LATINSKAЯ ZAGLAVNAЯ BUKVA N";"LATIN CAPITAL LETTER N";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА N""50";"O";"LATINSKAЯ ZAGLAVNAЯ BUKVA O";"LATIN CAPITAL LETTER O";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O""51";"P";"LATINSKAЯ ZAGLAVNAЯ BUKVA P";"LATIN CAPITAL LETTER P";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА P""52";"Ш";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Ш";"CYRILLIC CAPITAL LETTER SHA";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Ш""53";"Q";"LATINSKAЯ ZAGLAVNAЯ BUKVA Q";"LATIN CAPITAL LETTER Q";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Q""54";"R";"LATINSKAЯ ZAGLAVNAЯ BUKVA R";"LATIN CAPITAL LETTER R";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА R""55";"S";"LATINSKAЯ ZAGLAVNAЯ BUKVA S";"LATIN CAPITAL LETTER S";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА S""56";"T";"LATINSKAЯ ZAGLAVNAЯ BUKVA T";"LATIN CAPITAL LETTER T";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА T""57";"U";"LATINSKAЯ ZAGLAVNAЯ BUKVA U";"LATIN CAPITAL LETTER U";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U""58";"V";"LATINSKAЯ ZAGLAVNAЯ BUKVA V";"LATIN CAPITAL LETTER V";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА V""59";"W";"LATINSKAЯ ZAGLAVNAЯ BUKVA W";"LATIN CAPITAL LETTER W";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА W""5a";"X";"LATINSKAЯ ZAGLAVNAЯ BUKVA X";"LATIN CAPITAL LETTER X";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА X""5b";"Y";"LATINSKAЯ ZAGLAVNAЯ BUKVA Y";"LATIN CAPITAL LETTER Y";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Y""5c";"Z";"LATINSKAЯ ZAGLAVNAЯ BUKVA Z";"LATIN CAPITAL LETTER Z";"ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Z""5d";"Э";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Э";"CYRILLIC CAPITAL LETTER Э";"КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА Э""5e";"Ю";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Ю";"CYRILLIC CAPITAL LETTER Ю";"КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА Ю""5f";"Я";"KIRILLIЧESKAЯ ZAGLAVNAЯ BUKVA Я";"CYRILLIC CAPITAL LETTER Я";"КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА Я""60";"a";"LATINSKAЯ STROЧNAЯ BUKVA A";"LATIN SMALL LETTER A";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A""61";"b";"LATINSKAЯ STROЧNAЯ BUKVA B";"LATIN SMALL LETTER B";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА B""62";"c";"LATINSKAЯ STROЧNAЯ BUKVA C";"LATIN SMALL LETTER C";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА C""63";"d";"LATINSKAЯ STROЧNAЯ BUKVA D";"LATIN SMALL LETTER D";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА D""64";"e";"LATINSKAЯ STROЧNAЯ BUKVA E";"LATIN SMALL LETTER E";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА E""65";"ә";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA ШVA";"CYRILLIC SMALL LETTER SCHWA";"КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА Ә""66";"f";"LATINSKAЯ STROЧNAЯ BUKVA F";"LATIN SMALL LETTER F";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА F""67";"g";"LATINSKAЯ STROЧNAЯ BUKVA G";"LATIN SMALL LETTER G";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА G""68";"ч";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA Ч";"CYRILLIC SMALL LETTER CHA";"КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА Ч""69";"h";"LATINSKAЯ STROЧNAЯ BUKVA H";"LATIN SMALL LETTER H";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА H""6a";"i";"LATINSKAЯ STROЧNAЯ BUKVA I";"LATIN SMALL LETTER I";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА I""6b";"j";"LATINSKAЯ STROЧNAЯ BUKVA J";"LATIN SMALL LETTER J";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА J""6c";"k";"LATINSKAЯ STROЧNAЯ BUKVA K";"LATIN SMALL LETTER K";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА K""6d";"l";"LATINSKAЯ STROЧNAЯ BUKVA L";"LATIN SMALL LETTER L";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА L""6e";"m";"LATINSKAЯ STROЧNAЯ BUKVA M";"LATIN SMALL LETTER M";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M""6f";"n";"LATINSKAЯ STROЧNAЯ BUKVA N";"LATIN SMALL LETTER N";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N""70";"o";"LATINSKAЯ STROЧNAЯ BUKVA O";"LATIN SMALL LETTER O";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА O""71";"p";"LATINSKAЯ STROЧNAЯ BUKVA P";"LATIN SMALL LETTER P";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА P""72";"ш";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA Ш";"CYRILLIC SMALL LETTER SHA";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Ш""73";"q";"LATINSKAЯ STROЧNAЯ BUKVA Q";"LATIN SMALL LETTER Q";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Q""74";"r";"LATINSKAЯ STROЧNAЯ BUKVA R";"LATIN SMALL LETTER R";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА R""75";"s";"LATINSKAЯ STROЧNAЯ BUKVA S";"LATIN SMALL LETTER S";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА S""76";"t";"LATINSKAЯ STROЧNAЯ BUKVA T";"LATIN SMALL LETTER T";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА T""77";"u";"LATINSKAЯ STROЧNAЯ BUKVA U";"LATIN SMALL LETTER U";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА U""78";"v";"LATINSKAЯ STROЧNAЯ BUKVA V";"LATIN SMALL LETTER V";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА V""79";"w";"LATINSKAЯ STROЧNAЯ BUKVA W";"LATIN SMALL LETTER W";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА W""7a";"x";"LATINSKAЯ STROЧNAЯ BUKVA X";"LATIN SMALL LETTER X";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА X""7b";"y";"LATINSKAЯ STROЧNAЯ BUKVA Y";"LATIN SMALL LETTER Y";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Y""7c";"z";"LATINSKAЯ STROЧNAЯ BUKVA Z";"LATIN SMALL LETTER Z";"ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Z""7d";"э";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA Э";"CYRILLIC SMALL LETTER Э";"КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА Э""7e";"ю";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA Ю";"CYRILLIC SMALL LETTER Ю";"КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА Ю""7f";"я";"KIRILLIЧESKAЯ STROЧNAЯ BUKVA Я";"CYRILLIC SMALL LETTER Я";"КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА Я"
>>2607164Я не злой, просто дикоти и Markedit - единственное, что удерживает меня от петли. У меня шизоидное расстройство, и это написано в выписной справке. Так что я буду идти на любые ухищрения, дабы продвинуть дикоти повыше. Мне нравится думать, что когда то она станет международным стандартом и потеснит уникод. Кстати, КТО ТО УНИКОКОКНУЛ И ЖИДКО ПЕРДНУВ ОБМЯК.
Ну что, уникодовы выблядки, как сосётся? Напоминаю, что в вашем храме нет таких важных диграфов, как CH, SH и ZH. Немцы и китайцы выступают за DKOTI, где они наконец появились. Советую вам не пердеть в тред, а заблаговременно сменить кодовую страницу, пока этого за вас не сделало само время.
>>2607701Когда ты в конце концов залезешь-таки в петлю — вероятнее всего от запоздало накатившего осознания тотальной, вопиющей ненужности своей калокодировочки — непременно включи прямую трансляцию.Здесь много кому не помешало бы напомнить, насколько отвратительно выглядит смерть через повешение, со всеми её мерзкими конвульсиями и расслаблением сфинктеров.
…А если совсем-совсем серьёзно, то кодировка текстовых данных — это слишком основополагающая штука, чтобы её менять. Никто не будет просто так этого делать, слишком много текста уже хранится в юникоде. Полагаю, что ты либо и правда себе не представляешь, либо намеренно избегаешь себе представить, насколько много.Точно так же никто из «убийц JPG» — ни JFIF2000 ни FLIF ни BPG — не убил JPG, а OGG не убил MP3, даже несмотря что те новые форматы во всём превосходят своих более распространённых собратьев.И это с учётом превосходства. А dkoti твоё, ко всему прочему, ничем таким кардинальным не превосходит utf8, чтобы все строем бросились, оргазмируя и роняя кал, сами перекодировать в него свои тексты.В свою очередь, тебе одному не хватит всего времени твоей жизни до глубокой старости, чтобы дождаться, пока, скажем, МГУшный суперкомпьютер «Ломоносов» довыкачает весь интернет, перекодирует его в dkoti, а потом закачает обратно.Лучше послушай совета мудрого, и поищи себя в чём-нибудь другом.Столько задач нерешённых вокруг, Проблемы тысячелетия те же, а кодировочка ещё одна в хуй не упёрлась решительно никому.
>>2607701> CH, SH и ZH. Немцы и китайцы выступают за DKOTIА про венгров с ZS, SZ, GY, LY, DZS etc. хули забыл, пёс? А про валлийцев с FF, DD и LL? А про бретонцев с C’H? А про басков с TZ, TS и TX? А про поляков с CZ, DZ, DŹ, DŻ, RZ и т.д.? А про ирландцев с MH, BH, PH, GH, EÁI, UÍO, AIDH и прочими диграфами, триграфами и тетраграфами?
>>2607899> OGG не убил MP3Тем не менее, AAC заметно подвинул MP3 с его позиций, PNG потеснил GIF (за исключением анимированных картинок, бо APNG плохо приживается), WebP потихоньку набирает обороты как замена JPEG, а AVC почти убил DivX и XviD, оставив их для старых аппаратных плееров.> кодировочка ещё одна в хуй не упёрлась решительно никому.Каким-нибудь гикам, может, и упёрлась. Филологам, например, работающих с древними японскими или славянскими текстами. Да и то у них свои кодировки уже есть, а одна на всех им вряд ли нужна.
DKOTI, кстати, исключительно хуёвое название. Как его англоязычные-то произносить будут? Как "Dick O'Tea"? Назови лучше Omnicode, Ubikode или еще как-нить в таком духе.
>>2607956> Как его англоязычные-то произносить будут?Ди-ко-ти>>2607899TRON живёт, и DKOTI будет жить.
Вообще, мне нравится шиза ОПа - я сам в юности, когда под ДОСом сидел, пилил собственную кодовую страницу, чтобы строки с Ё нормально сортировались. Но если ОП действительно претендует на то, чтобы его хуйня стала международной кодировкой, свободной от недостатков Юникода, то помещение кириллицы в базовую страницу, да ещё хуй знает в каком порядке - большая концептуальная ошибка. Там должна быть наиболее употребительная расширенная латиница.>>2607966> Ди-ко-тиНу то есть Dick O'Tea, как я и говорил, лел.
>>2607973Наиболее употребительная расширенная латиница не влезла бы в оставшиеся 6 кодовых позиций. Зато новый русский алфавит как раз занимает 32 символа.
>>2607966Между «будет жить» и «заменит юникод» ненулевая разница, не находишь?Такшта вот, предсказываю будущее: >>2607883
>>2607985> Наиболее употребительная расширенная латиница не влезла бы в оставшиеся 6 кодовых позицийТогда лучше типографику накидай: разные тире, разные кавычки, разные пробелы, символ параграфа, вся хуйня.
>>2607998Латкир. Латиница, дополненная кириллицей.>>2608016Так уже среднее тире, параграф, неразрывный пробел, знак валюты, бесконечность, знак отрицания.
>>2608170> среднее тиреДлинное добавь. Знак переноса. Минус (U+2212) в дополнение к дефису-минусу (U+002D).> бесконечность, знак отрицания.Кавычки-ёлочки и кавычки-лапки нужнее.> Латиница, дополненная кириллицей.Не нужно, потому что ещё большая шиза, чем сама ДКОТИ.
>>2608175> дефис-минусТы хотел сказать, среднее тире-минус? Дефис минусом не является.Знак отрицания нужен, его можно добавить в япы и регулярные выражения.Всё, что ты перечислил, уже добавлено, но не в базовую страницу.
>>2608205> Ты хотел сказать, среднее тире-минус? Я хотел сказать hyphen-minus. А среднее тире - это en dash (U+2013), вот как раз оно и не является минусом.> Дефис минусом не является."-" используется и как дефис в русском, и как минус в ЯП.
>>2608450> hyphen-minusЭто в убогом уникоде. В DKOTI есть hyphen и en dash-minus.>>2608399Новый алфавит, уже год как принят всесоюзной ассоциацией по стандартизации.
>>2608642> en dash-minusЗачем?> Новый алфавит, уже год как принят всесоюзной ассоциацией по стандартизации. Ссылочку?
>>2608719Удваиваю вот этого содомита.Какая ещё нахрен всесоюзная организация? Ссылку на стандарт, срочно.
>>2608780Загуглил "латкир", нашёл только пару сообщений шизоОПа в других местах:http://remdev.org/viewtopic.php?id=38https://2ch.hk/fl/res/423484.html
>>2608833Нужен сайт - будет вам сайт. А пока учите латкир:A - АB - БC - ЦD - ДE - ЕӘ - ЁF - ФG - ГЧ - ЧH - ХI - ИJ - ЙK - КL - ЛM - МN - НO - ОP - ПШ - ШQ - ЩR - РS - СT - ТU - УV - ВW - Ў (используется в заимствованных словах)X - ЖY - ЫZ - З' - Ь
>>2595739Дикси звучит как название хуёвого магазина говна типа fixprice. А с латыни переводится как ЯСКОЗАЛ!1, лол.
>>2608843> Ә - ЁЧтобы использовать шва вместо буквы ё, это надо быть не просто шизиком, но шизиком, абсолютно не шарящим ни в графике, ни в фонетике русского языка.> Ш - Ш> Q - ЩА в этом какой смысл? И куда ты проебал Ю и Я?
>>2608863Предлагаешь поставить вместо шва именно Ё? Но у неё диэрезис. Не хочется тащить на базовую страницу диакритику. Англосаксы вон юзают E как I, а C как S, почему тогда мне нельзя?>>2608882> пук
>>2608890> Не хочется тащить на базовую страницу диакритикуБудь последователен, убери с базовой страницы Й. Эстет хуев, ты не про свои хотелки думай, а про юзабилити. С таким подходом у народа к твоей ДКОТИ претензий будет больше, чем у тебя к Юникоду.
>>2608917Ладно, и чем ты предлагаешь заполнить 6 свободных букв? Если латиницей, то какой? Послать нахуй латкир и перевести русский полностью на латиницу с диакритикой?
>>2608890Да ты ещё и дислексик, ко всему прочему.>>2608882: > Мне одному сдаётся, что ОП давно уже выпилился свалил, а с нами беседует какая-то троллота?>>2608890: > пукНайди дохуя ошибок.Уж не знаю как там насчёт ОП-а — а вот тебя, дислексика, нельзя даже близко подпускать к созданию кодировок.
>>2608923Чтобы вместить на базовую страницу же.Но мы не принципиальны, нам похуй на самом то деле, в Совке уже два года основным официальным языком принят английский. Поэтому, последний вопрос: а если эти 32 буквы заполнить гибридом английского и эсперанто алфавитов? Получится как раз.
>>2608919Ну и ещё: где найти хоть что-нибудь насчёт деятельности твоей «всесоюзной ассоциацией по стандартизации», помимо твоего уютного внутреннего мирка? А то пока что к содержимому твоей головушки наблюдаемая реальность имеет в лучшем случае опосредованное отношение.Про отсутствие интернет-страницы у организации, якобы сертифицирующей кодировки на замену юникоду — это конечно вообще пушка. Тем более в том случае, если она не плод воспалённой фантазии аффтара.
>>2608926> на самом то деле, в Совке уже два года основным официальным языком принят английскийТы одупляешь вообще, что ты несёшь?Срочно сюда ссылку на википедийную статью про это знаменательное событие.
ОПчик, ты ещё для Квэнья диакритику не забудь, и клингонский уж до кучи. Его буквально сегодня Всесоюзная ассоциация стандартизации приняла вторым официальным языком.Подписался на эпичный тред
>>2608734> В Совке два года назад> Официальным языком принят инглишОй бляяять, оп, красавчик, ты либо действительно шизик, либо тролль 81 лвл. Если шизик, можешь к своему психиатру даже не ходить, тебя уже ничто не спасёт.
>>2608952Всё это смешно до тех пор, пока опчик не выкатит на базе дикоти свою ось, которая внезапно окажется очень лёгкой и функциональной и заимеет всех поклонников и винды и прыщей
>>2608950> КвэньяКстати, в Юникод хотели же добавить и кирт, и тенгвар.http://std.dkuug.dk/JTC1/SC2/WG2/docs/n1641/n1641.htmhttp://std.dkuug.dk/JTC1/SC2/WG2/docs/n1642/n1642.htmНо вроде ещё не добавили, ОП если поторопится, то сможет заработать популярность своей кодировки у толкинистов, кек.
Вот и ещё один день, когда в DKOTI нет клингонского.А ведь Всесоюзная ассоциация по стандартизации ещё вчера его приняла!
>>2608942круть, похоже на "return to forever"вот эта песня очень понравилась; надеюсь, что остальные не такие же )
>Magmaтолько перезатягивают немного; им бы 1/2 выкинуть где-то... или даже больше, чтобы это было песней, а не оперой>>2608965>выкатит на базе дикоти свою осьКодировкОС?
>>2611027Клингонский где?Его там твоя ассоциация всесоюзная позавчера уже основным алфавитом приняла, а ты всё кириллицей пишешь до сих пор.
>>2611044Дак решением твоей всесоюзной этой хуитки (самой-самой настоящей, атвичаю) он позавчера был объявлен настоящим.Давай, попробуй оспорь.
>>2611052Какая тебе ссылка, уёбушек? Забыл уже, что сам сочинял, чтобы мне ссылку не давать?А я напомню:>>2608821> У новых госорганизаций СССР ещё нет сайтов, все стандарты хранятся в бумажных архивах
>>2611063>>2608930>ссылку на википедийную статьюСоюз советских символьных раскладок (СССР) уже утверждал ДКОИ-8. Вот посмотрите:https://ru.wikipedia.org/wiki/%D0%94%D0%9A%D0%9E%D0%98-8Так что кодировка, киррилическая кстати, уже использовалась в эвээмные годы с лохматого 74-го. И об этом не могут не знать СИДы (советы информационных депутатов). Так что спокойно, товарищи. Коллективное письмо на ОПа даже писать не надо - тред однозначно уже читают соответствующие службы.Кстати, отсутствует буква Ё, так что ежа одного не будет - только 2 или более!
https://ru.wikipedia.org/wiki/EBCDIC>Произношение названия этой кодировки в Союзе звучало следующим образом: «ЕБСДИК»>>2595734>Идеальное названиеЕбсдик, в оригинале.
>>2595741>Предложи своё название"Extended Binary Coded Decimal Interchange Code"По идее, ЕбсдикОС, а кодировка - Ебсди-код. Это если обращаться к истокам.А сейчас она ведь уже более прогрессивная, более расширенная, чем была. Поэтому БолеРасКо. Всё просто. -- Почему у меня буквы не отображаются?-- Потому что Болераско не стоит. ;)
>>2611523>накакал своей кодировкой на хабрА ссылкой на этот тред туда псикнул, чтобы рабочий процесс не выпадал из виду?
>>2611501Там 9 свободных кодовых позиций в строчке заглавных диграфов + дохуя для строчных. Хочешь заполнить - пожалуйста.
D+ BASIC SYMBOLSD+80 CONTROL CHARACTERSD+81 CONTROL CHARACTERSD+82 CONTROL CHARACTERSD+83 SINGLE-BYTE SELECTORSD+84 PUNCTUATIOND+85 PUNCTUATIOND+86 PUNCTUATIOND+87 NATURAL SCIENCESD+88 NATURAL SCIENCESD+89 NATURAL SCIENCESD+8A NATURAL SCIENCESD+8B NATURAL SCIENCESD+8C NATURAL SCIENCESD+8D NUMBER FORMSD+8E NUMBER FORMSD+8F LETTERLIKE SYMBOLSD+90 MODIFIER SYMBOLSD+91 MODIFIER LETTERSD+92 COMBINING DIACRITICAL MARKSD+93 COMBINING DIACRITICAL MARKSD+94 COMBINING DIACRITICAL LETTERSD+95 SUPERSCRIPTS AND SUBSCRIPTSD+96 CURRENCY SYMBOLSD+97 CAPITAL LATIND+98 CAPITAL LATIND+99 CAPITAL LATIND+9A CAPITAL LATIND+9B CAPITAL LATIND+9C SMALL LATIND+9D SMALL LATIND+9E SMALL LATIND+9F SMALL LATIND+A0 SMALL LATIND+A1 COMMON LATIND+A2 COMMON LATIND+A3 COMMON LATIND+A4 COMMON LATIND+A5 COMMON LATIND+A6 COMMON LATIND+A7 COMMON LATIND+A8 CAPITAL GREEKD+A9 CAPITAL GREEKD+AA SMALL GREEKD+AB SMALL GREEKD+AC COMMON GREEKD+AD COMMON GREEKD+AE COMMON GREEKD+AF COMMON GREEK
"Вместе меняем мир к лучшему" - вот как ведут себя те, кто уже перешёл на DKOTI. Но только не уникодобляди. Девиз уникодоблядей - "Сосали, сосём и будем сосать". Какие же они противные, просто обоссать их сверху.
>>2613782Выдумать себе врага, а потом этому врагу выдумать каких-нибудь фатальных недостатков и тем самым его одолеть.Удобно, наверное.Как там Всесоюзная стандартизация поживает, шизик?
>>2613818И что с того? Мне очень уютно в моём манямирке. Он такой проработанный, что как бы уникодауны скоро ирл не соснули.
>>2613875>как бы уникодауны скоро ирл не соснулиТебе твой доктор, наверное, ни раз говорил о вреде навязчивых идей, идеи об твоей исключительности и мании величия? Жри таблетки по расписанию, и старайся в этот самый риал лайф свой нос не высовывать - перемолет он тебя на раз, даже не замтит. А ты дальше будешь сидеть на нейролептиках, и обороняться после ИХ прихода. жаль только, что ОНИ будут существовать в твоей больной головушке
>>2613938А я вот считаю себя пророком. И что ты мне сделаешь? В ухо пёрнешь? Моя жизнь намного лучше, чем у тех нытиков из /rf без стимула и целей в жизни.
>>2613991Со стороны ты выглядишь тем, кем ты собственно и являешься — шизиком с делюзиями грандёра, кидающимся на людей.
>>2613991Чтобы бы тебя доебать, достаточно анонам не отписываться в этом треде. Ты же, как побитая сучка, будешь бить клавиатуру о стол, когда увидишь, что нахуй никому неинтересен. А ты говоришь, про пердёж в твоё ухо, лол.Самое интересное, что ты небезталантиловый поц. Твою бы шизоидную энергию и желание докопаться до самых тонкостей да в мирное русло. А так, как тебе уже сотню раз писали, твои усилия нахуй никому не нужны. Поверь мне, будь трижды твоя кодировка лучше - она никому сейчас не нужны. Сейчас на спичках не экономят безотносительно того, правильно это или нет Ссаная вебня, примером которой может служить эта борда проёбывает в десятки тысяч раз больше памяти и тактов ЦПУ, чем могла бы.
Обновлено. Вот скрипт перевода UTF-8 в DKOTI https://gitlab.com/2che/dkoti/blob/master/utf2dkoti.py и обратно https://gitlab.com/2che/dkoti/blob/master/dkoti2utf.py
Остались:Самаритянское письмо - 1 страницаМандейский - 1 страницаДеванагари - 2 страницыБенгальский - 1 страницаГурмукхи - 1 страницаГуджарати - 1 страницаОрия - 1 страницаТамильский - 1 страницаТелугу - 1 страницаКаннада - 1 страницаМалаялам - 1 страницаСингальский - 2 страницыТайский - 1 страницаЛаосский - 1 страницаТибетский - 2 страницыБирманский - 2 страницыГрузинский - 2 страницыХангыль - 3 страницыЭфиопский - 5 страницЧероки - 2 страницыКанадское слоговое - 6 страницОгамический - 1 страницаРуны - 1 страницаБайбайин - 1 страницаХануноо - 1 страницаБухид - 1 страницаТагбанва - 1 страницаКхмерский - 2 страницыСтаромонгольский - 2 страницыЛимбу - 1 страницаТай лы - 2 страницыБугийский - 1 страницаТай Тхам - 2 страницыБалийский - 1 страницаСунданский - 1 страницаБатакский - 1 страницаЛепча - 1 страницаОл-чики - 1 страницаВедические - 1 страницаИтого, 60 страниц из 64. Некоторые можно совместить, а некоторые устаревшие вообще выкинуть в трёхбайтовые, освободив место для стрелок, рамок, брайля, всяких вложенных цифр и технических символов.
Завершай работу, няша. Даже если она никому не нужна и в конце концов окажется говном без задач, всё равно лучше пилить свою кодировку, 15-ый стандарт, чем, скажем, have sex.
>>2615467Всё ещё на людей кидаешься, шизик?Знаешь, в какой-то момент я тебе даже сочувствовал, но всякому же блядь терпению приходит конец.Я с интересом и без капли жалости буду ждать твоего обещанного самовыпила.
>>2616546Как раз таки на своей пеке я уже давно пишу DKOTI, это допещерный сосач всё никак на неё не перейдёт.
>>2595708>Вот скажи, нахуя тебе например подтверждение на запрос телетайпаА как я в консольке сидеть тогда буду?
>>2595771>Она удобна, значит, похуй на байтоёбскую оптимизацию. Как у вас там в 80-ых?Нахуя в наше время страдать подобной хуйней?