четвер, 16 січня 2014 р.

Ubuntu в числах

Не отставая от британских учёных, решил поиграть в числа с Ubuntu. Какое самое длинное название? Какие буквы чаще повторяются? Если интересно, то приступаем ...

Данная таблица хранит кодовые названия каждого релиза, которое состоит из двух слов. Лидер Canonical Марк Шатлворт традиционно даёт имя новому релизу, в котором оба слова начинаются на одну и ту же букву, а с релиза Ubuntu 5.04 Hoary Hedgehog начали с буквы B и двигаются вперёд по английскому алфавиту. Интересно, а в будущем, когда дойдём до буквы Z, то куда будем двигаться?

Прилагательное
Название
Д 1
Д 2
Д 1+2
Warty Warthog 5 7 12
Hoary Hedgehog 5 8 13
Breezy Badger 6 6 12
Dapper Drake 6 5 11
Edgy Eft 4 3 7
Feisty Fawn 6 4 10
Gutsy Gibbon 5 6 11
Hardy Heron 5 5 10
Intrepid Ibex 8 4 12
Jaunty Jackalope 6 9 15
Karmic Koala 6 5 11
Lucid Lynx 5 4 9
Maverick Meerkat 8 7 15
Natty Narwhal 5 7 12
Oneiric Ocelot 7 6 13
Precise Pangolin 7 8 15
Quantal Quetzal 7 7 14
Raring Ringtail 6 8 14
Saucy Salamander 5 10 15
Trusty Tahr 6 4 10
  Среднее ариф. 5,9 6,15 12,05
Самое короткое 4 3 7
Самое длинное 8 10 15

Д1 - это длина прилагательного.
Д2 - длина названия.
Д1+2 - длина всего имени.

Самоё короткое имя (прилагательное + название) у релиза Ubuntu 6.10 Edgy Eft - 7 букв. 4 буквы в прилагательном и 3 в названии. Интересный момент в том, что релиз-предшественник 6.06 должен быть 6.04, но задержался. Получается, что релиз 6.10 имеет не только самое короткое название, но и самое краткое расстояние между ним и предыдущим релизом - 4 месяца.

Релизов с самым длинным именем в 15 символов аж 4 штуки:

  • Jaunty Jackalope = 6 + 9
  • Maverick Meerkat = 8 + 7
  • Precise Pangolin = 7 + 8
  • Saucy Salamander = 5 + 10

У релиза Ubuntu 13.10 Saucy Salamander самое длинное название: Salamander = 10 букв. А у двух релизов Ubuntu - Intrepid Ibex и Maverick Meerkat - самое длинное прилагательное в 8 букв.

В среднем:

  • в прилагательном - 5,9 букв.
  • в названии - 6,15 букв.
  • в полном имени - 12,05 букв.

Возьмём все имена (прилагательные + название) запишем в нижнем регистре и без пробелов в одну строку
wartywarthoghoaryhedgehogbreezybadgerdapperdrakeedgyeftfeistyfawngutsygibbonhardyheronintrepidibex
jauntyjackalopekarmickoalalucidlynxmaverickmeerkatnattynarwhaloneiricocelotprecisepangolinquantalquet
zalraringringtailsaucysalamandertrustytahr

Программно подсчитаем и узнаем, что в строке 241 символ. Подсчитаем частоту распределения букв в строке, что раньше использовалось в криптоанализе при взломе шифров.

Получилась таблица, где
Кол-во - это количество вхождений каждой буквы английского алфавита в строке.
Частота Ubuntu - это частотное распределение английских букв в нашей строке имён Убунту. Получено как процентное соотношение (Кол-во каждой буквы / 241) * 100.
Частота English - эти данные взяты из английской википедии Relative frequencies of letters in the English language и отражают естественное частотное распределение английских букв в английских текстах.

Буква
Кол-во
Частота Ubuntu
Частота English
a 30 12,45 8,1
b 5 2,07 1,4
c 8 3,32 2,7
d 9 3,73 4,2
e 23 9,54 12,7
f 3 1,24 2,2
g 10 4,15 2
h 8 3,32 6
i 15 6,22 6,9
j 2 0,83 0,15
k 6 2,49 0,7
l 11 4,56 4
m 4 1,66 2,4
n 15 6,22 6,7
o 11 4,56 7,5
p 6 2,49 1,9
q 2 0,83 0,095
r 22 9,13 5,9
s 6 2,49 6,3
t 17 7,05 9
u 7 2,90 2,7
v 1 0,41 0,978
w 4 1,66 2,3
x 2 0,83 0,15
y 12 4,98 1,9
z 2 0,83 0,074

Самая часто встречающаяся буква - это а. 30 букв а во всех именах релизов Убунту. Самая редкая буква - v. 1 буква v находится в прилагательном Maverick релиза Ubuntu 10.10 Maverick Meerkat.

Строим график по данным.

Частотные распределения букв в именах релиза Ubuntu

И что говорит график? Да фиг его знает . Имена релизов даёт самоназначенный великодушный пожизненный диктатор (Self-Appointed Benevolent Dictator for Life, SABDFL) Марк Шаттлворт после обдумывания. Имена релизов - его видение ситуации.

Наблюдается повышенная, по сравнению с естественным распределением, "тяга" к буквам: a, r, y. Буквы e, s - Марк, неявно для себя, недолюбливает, хотя английская буква e - самая часто встречающаяся буква в английских текстах, наверное, из-за артикля the.

241 - количество букв в строке, возможно, недостаточно для правильного суждения. С появлением новых релизов суммарное количество букв будет возрастать и интересно будет посмотреть изменения и/или тенденцию.

Дополнительные материалы:
Статистика использования рабочих сред в Ubuntu.

Немає коментарів:

Дописати коментар

HyperComments for Blogger

comments powered by HyperComments