chacha20-neon-core.S 11 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523
  1. /*
  2. * ChaCha20 256-bit cipher algorithm, RFC7539, ARM NEON functions
  3. *
  4. * Copyright (C) 2016 Linaro, Ltd. <ard.biesheuvel@linaro.org>
  5. *
  6. * This program is free software; you can redistribute it and/or modify
  7. * it under the terms of the GNU General Public License version 2 as
  8. * published by the Free Software Foundation.
  9. *
  10. * Based on:
  11. * ChaCha20 256-bit cipher algorithm, RFC7539, x64 SSE3 functions
  12. *
  13. * Copyright (C) 2015 Martin Willi
  14. *
  15. * This program is free software; you can redistribute it and/or modify
  16. * it under the terms of the GNU General Public License as published by
  17. * the Free Software Foundation; either version 2 of the License, or
  18. * (at your option) any later version.
  19. */
  20. #include <linux/linkage.h>
  21. .text
  22. .fpu neon
  23. .align 5
  24. ENTRY(chacha20_block_xor_neon)
  25. // r0: Input state matrix, s
  26. // r1: 1 data block output, o
  27. // r2: 1 data block input, i
  28. //
  29. // This function encrypts one ChaCha20 block by loading the state matrix
  30. // in four NEON registers. It performs matrix operation on four words in
  31. // parallel, but requireds shuffling to rearrange the words after each
  32. // round.
  33. //
  34. // x0..3 = s0..3
  35. add ip, r0, #0x20
  36. vld1.32 {q0-q1}, [r0]
  37. vld1.32 {q2-q3}, [ip]
  38. vmov q8, q0
  39. vmov q9, q1
  40. vmov q10, q2
  41. vmov q11, q3
  42. mov r3, #10
  43. .Ldoubleround:
  44. // x0 += x1, x3 = rotl32(x3 ^ x0, 16)
  45. vadd.i32 q0, q0, q1
  46. veor q4, q3, q0
  47. vshl.u32 q3, q4, #16
  48. vsri.u32 q3, q4, #16
  49. // x2 += x3, x1 = rotl32(x1 ^ x2, 12)
  50. vadd.i32 q2, q2, q3
  51. veor q4, q1, q2
  52. vshl.u32 q1, q4, #12
  53. vsri.u32 q1, q4, #20
  54. // x0 += x1, x3 = rotl32(x3 ^ x0, 8)
  55. vadd.i32 q0, q0, q1
  56. veor q4, q3, q0
  57. vshl.u32 q3, q4, #8
  58. vsri.u32 q3, q4, #24
  59. // x2 += x3, x1 = rotl32(x1 ^ x2, 7)
  60. vadd.i32 q2, q2, q3
  61. veor q4, q1, q2
  62. vshl.u32 q1, q4, #7
  63. vsri.u32 q1, q4, #25
  64. // x1 = shuffle32(x1, MASK(0, 3, 2, 1))
  65. vext.8 q1, q1, q1, #4
  66. // x2 = shuffle32(x2, MASK(1, 0, 3, 2))
  67. vext.8 q2, q2, q2, #8
  68. // x3 = shuffle32(x3, MASK(2, 1, 0, 3))
  69. vext.8 q3, q3, q3, #12
  70. // x0 += x1, x3 = rotl32(x3 ^ x0, 16)
  71. vadd.i32 q0, q0, q1
  72. veor q4, q3, q0
  73. vshl.u32 q3, q4, #16
  74. vsri.u32 q3, q4, #16
  75. // x2 += x3, x1 = rotl32(x1 ^ x2, 12)
  76. vadd.i32 q2, q2, q3
  77. veor q4, q1, q2
  78. vshl.u32 q1, q4, #12
  79. vsri.u32 q1, q4, #20
  80. // x0 += x1, x3 = rotl32(x3 ^ x0, 8)
  81. vadd.i32 q0, q0, q1
  82. veor q4, q3, q0
  83. vshl.u32 q3, q4, #8
  84. vsri.u32 q3, q4, #24
  85. // x2 += x3, x1 = rotl32(x1 ^ x2, 7)
  86. vadd.i32 q2, q2, q3
  87. veor q4, q1, q2
  88. vshl.u32 q1, q4, #7
  89. vsri.u32 q1, q4, #25
  90. // x1 = shuffle32(x1, MASK(2, 1, 0, 3))
  91. vext.8 q1, q1, q1, #12
  92. // x2 = shuffle32(x2, MASK(1, 0, 3, 2))
  93. vext.8 q2, q2, q2, #8
  94. // x3 = shuffle32(x3, MASK(0, 3, 2, 1))
  95. vext.8 q3, q3, q3, #4
  96. subs r3, r3, #1
  97. bne .Ldoubleround
  98. add ip, r2, #0x20
  99. vld1.8 {q4-q5}, [r2]
  100. vld1.8 {q6-q7}, [ip]
  101. // o0 = i0 ^ (x0 + s0)
  102. vadd.i32 q0, q0, q8
  103. veor q0, q0, q4
  104. // o1 = i1 ^ (x1 + s1)
  105. vadd.i32 q1, q1, q9
  106. veor q1, q1, q5
  107. // o2 = i2 ^ (x2 + s2)
  108. vadd.i32 q2, q2, q10
  109. veor q2, q2, q6
  110. // o3 = i3 ^ (x3 + s3)
  111. vadd.i32 q3, q3, q11
  112. veor q3, q3, q7
  113. add ip, r1, #0x20
  114. vst1.8 {q0-q1}, [r1]
  115. vst1.8 {q2-q3}, [ip]
  116. bx lr
  117. ENDPROC(chacha20_block_xor_neon)
  118. .align 5
  119. ENTRY(chacha20_4block_xor_neon)
  120. push {r4-r6, lr}
  121. mov ip, sp // preserve the stack pointer
  122. sub r3, sp, #0x20 // allocate a 32 byte buffer
  123. bic r3, r3, #0x1f // aligned to 32 bytes
  124. mov sp, r3
  125. // r0: Input state matrix, s
  126. // r1: 4 data blocks output, o
  127. // r2: 4 data blocks input, i
  128. //
  129. // This function encrypts four consecutive ChaCha20 blocks by loading
  130. // the state matrix in NEON registers four times. The algorithm performs
  131. // each operation on the corresponding word of each state matrix, hence
  132. // requires no word shuffling. For final XORing step we transpose the
  133. // matrix by interleaving 32- and then 64-bit words, which allows us to
  134. // do XOR in NEON registers.
  135. //
  136. // x0..15[0-3] = s0..3[0..3]
  137. add r3, r0, #0x20
  138. vld1.32 {q0-q1}, [r0]
  139. vld1.32 {q2-q3}, [r3]
  140. adr r3, CTRINC
  141. vdup.32 q15, d7[1]
  142. vdup.32 q14, d7[0]
  143. vld1.32 {q11}, [r3, :128]
  144. vdup.32 q13, d6[1]
  145. vdup.32 q12, d6[0]
  146. vadd.i32 q12, q12, q11 // x12 += counter values 0-3
  147. vdup.32 q11, d5[1]
  148. vdup.32 q10, d5[0]
  149. vdup.32 q9, d4[1]
  150. vdup.32 q8, d4[0]
  151. vdup.32 q7, d3[1]
  152. vdup.32 q6, d3[0]
  153. vdup.32 q5, d2[1]
  154. vdup.32 q4, d2[0]
  155. vdup.32 q3, d1[1]
  156. vdup.32 q2, d1[0]
  157. vdup.32 q1, d0[1]
  158. vdup.32 q0, d0[0]
  159. mov r3, #10
  160. .Ldoubleround4:
  161. // x0 += x4, x12 = rotl32(x12 ^ x0, 16)
  162. // x1 += x5, x13 = rotl32(x13 ^ x1, 16)
  163. // x2 += x6, x14 = rotl32(x14 ^ x2, 16)
  164. // x3 += x7, x15 = rotl32(x15 ^ x3, 16)
  165. vadd.i32 q0, q0, q4
  166. vadd.i32 q1, q1, q5
  167. vadd.i32 q2, q2, q6
  168. vadd.i32 q3, q3, q7
  169. veor q12, q12, q0
  170. veor q13, q13, q1
  171. veor q14, q14, q2
  172. veor q15, q15, q3
  173. vrev32.16 q12, q12
  174. vrev32.16 q13, q13
  175. vrev32.16 q14, q14
  176. vrev32.16 q15, q15
  177. // x8 += x12, x4 = rotl32(x4 ^ x8, 12)
  178. // x9 += x13, x5 = rotl32(x5 ^ x9, 12)
  179. // x10 += x14, x6 = rotl32(x6 ^ x10, 12)
  180. // x11 += x15, x7 = rotl32(x7 ^ x11, 12)
  181. vadd.i32 q8, q8, q12
  182. vadd.i32 q9, q9, q13
  183. vadd.i32 q10, q10, q14
  184. vadd.i32 q11, q11, q15
  185. vst1.32 {q8-q9}, [sp, :256]
  186. veor q8, q4, q8
  187. veor q9, q5, q9
  188. vshl.u32 q4, q8, #12
  189. vshl.u32 q5, q9, #12
  190. vsri.u32 q4, q8, #20
  191. vsri.u32 q5, q9, #20
  192. veor q8, q6, q10
  193. veor q9, q7, q11
  194. vshl.u32 q6, q8, #12
  195. vshl.u32 q7, q9, #12
  196. vsri.u32 q6, q8, #20
  197. vsri.u32 q7, q9, #20
  198. // x0 += x4, x12 = rotl32(x12 ^ x0, 8)
  199. // x1 += x5, x13 = rotl32(x13 ^ x1, 8)
  200. // x2 += x6, x14 = rotl32(x14 ^ x2, 8)
  201. // x3 += x7, x15 = rotl32(x15 ^ x3, 8)
  202. vadd.i32 q0, q0, q4
  203. vadd.i32 q1, q1, q5
  204. vadd.i32 q2, q2, q6
  205. vadd.i32 q3, q3, q7
  206. veor q8, q12, q0
  207. veor q9, q13, q1
  208. vshl.u32 q12, q8, #8
  209. vshl.u32 q13, q9, #8
  210. vsri.u32 q12, q8, #24
  211. vsri.u32 q13, q9, #24
  212. veor q8, q14, q2
  213. veor q9, q15, q3
  214. vshl.u32 q14, q8, #8
  215. vshl.u32 q15, q9, #8
  216. vsri.u32 q14, q8, #24
  217. vsri.u32 q15, q9, #24
  218. vld1.32 {q8-q9}, [sp, :256]
  219. // x8 += x12, x4 = rotl32(x4 ^ x8, 7)
  220. // x9 += x13, x5 = rotl32(x5 ^ x9, 7)
  221. // x10 += x14, x6 = rotl32(x6 ^ x10, 7)
  222. // x11 += x15, x7 = rotl32(x7 ^ x11, 7)
  223. vadd.i32 q8, q8, q12
  224. vadd.i32 q9, q9, q13
  225. vadd.i32 q10, q10, q14
  226. vadd.i32 q11, q11, q15
  227. vst1.32 {q8-q9}, [sp, :256]
  228. veor q8, q4, q8
  229. veor q9, q5, q9
  230. vshl.u32 q4, q8, #7
  231. vshl.u32 q5, q9, #7
  232. vsri.u32 q4, q8, #25
  233. vsri.u32 q5, q9, #25
  234. veor q8, q6, q10
  235. veor q9, q7, q11
  236. vshl.u32 q6, q8, #7
  237. vshl.u32 q7, q9, #7
  238. vsri.u32 q6, q8, #25
  239. vsri.u32 q7, q9, #25
  240. vld1.32 {q8-q9}, [sp, :256]
  241. // x0 += x5, x15 = rotl32(x15 ^ x0, 16)
  242. // x1 += x6, x12 = rotl32(x12 ^ x1, 16)
  243. // x2 += x7, x13 = rotl32(x13 ^ x2, 16)
  244. // x3 += x4, x14 = rotl32(x14 ^ x3, 16)
  245. vadd.i32 q0, q0, q5
  246. vadd.i32 q1, q1, q6
  247. vadd.i32 q2, q2, q7
  248. vadd.i32 q3, q3, q4
  249. veor q15, q15, q0
  250. veor q12, q12, q1
  251. veor q13, q13, q2
  252. veor q14, q14, q3
  253. vrev32.16 q15, q15
  254. vrev32.16 q12, q12
  255. vrev32.16 q13, q13
  256. vrev32.16 q14, q14
  257. // x10 += x15, x5 = rotl32(x5 ^ x10, 12)
  258. // x11 += x12, x6 = rotl32(x6 ^ x11, 12)
  259. // x8 += x13, x7 = rotl32(x7 ^ x8, 12)
  260. // x9 += x14, x4 = rotl32(x4 ^ x9, 12)
  261. vadd.i32 q10, q10, q15
  262. vadd.i32 q11, q11, q12
  263. vadd.i32 q8, q8, q13
  264. vadd.i32 q9, q9, q14
  265. vst1.32 {q8-q9}, [sp, :256]
  266. veor q8, q7, q8
  267. veor q9, q4, q9
  268. vshl.u32 q7, q8, #12
  269. vshl.u32 q4, q9, #12
  270. vsri.u32 q7, q8, #20
  271. vsri.u32 q4, q9, #20
  272. veor q8, q5, q10
  273. veor q9, q6, q11
  274. vshl.u32 q5, q8, #12
  275. vshl.u32 q6, q9, #12
  276. vsri.u32 q5, q8, #20
  277. vsri.u32 q6, q9, #20
  278. // x0 += x5, x15 = rotl32(x15 ^ x0, 8)
  279. // x1 += x6, x12 = rotl32(x12 ^ x1, 8)
  280. // x2 += x7, x13 = rotl32(x13 ^ x2, 8)
  281. // x3 += x4, x14 = rotl32(x14 ^ x3, 8)
  282. vadd.i32 q0, q0, q5
  283. vadd.i32 q1, q1, q6
  284. vadd.i32 q2, q2, q7
  285. vadd.i32 q3, q3, q4
  286. veor q8, q15, q0
  287. veor q9, q12, q1
  288. vshl.u32 q15, q8, #8
  289. vshl.u32 q12, q9, #8
  290. vsri.u32 q15, q8, #24
  291. vsri.u32 q12, q9, #24
  292. veor q8, q13, q2
  293. veor q9, q14, q3
  294. vshl.u32 q13, q8, #8
  295. vshl.u32 q14, q9, #8
  296. vsri.u32 q13, q8, #24
  297. vsri.u32 q14, q9, #24
  298. vld1.32 {q8-q9}, [sp, :256]
  299. // x10 += x15, x5 = rotl32(x5 ^ x10, 7)
  300. // x11 += x12, x6 = rotl32(x6 ^ x11, 7)
  301. // x8 += x13, x7 = rotl32(x7 ^ x8, 7)
  302. // x9 += x14, x4 = rotl32(x4 ^ x9, 7)
  303. vadd.i32 q10, q10, q15
  304. vadd.i32 q11, q11, q12
  305. vadd.i32 q8, q8, q13
  306. vadd.i32 q9, q9, q14
  307. vst1.32 {q8-q9}, [sp, :256]
  308. veor q8, q7, q8
  309. veor q9, q4, q9
  310. vshl.u32 q7, q8, #7
  311. vshl.u32 q4, q9, #7
  312. vsri.u32 q7, q8, #25
  313. vsri.u32 q4, q9, #25
  314. veor q8, q5, q10
  315. veor q9, q6, q11
  316. vshl.u32 q5, q8, #7
  317. vshl.u32 q6, q9, #7
  318. vsri.u32 q5, q8, #25
  319. vsri.u32 q6, q9, #25
  320. subs r3, r3, #1
  321. beq 0f
  322. vld1.32 {q8-q9}, [sp, :256]
  323. b .Ldoubleround4
  324. // x0[0-3] += s0[0]
  325. // x1[0-3] += s0[1]
  326. // x2[0-3] += s0[2]
  327. // x3[0-3] += s0[3]
  328. 0: ldmia r0!, {r3-r6}
  329. vdup.32 q8, r3
  330. vdup.32 q9, r4
  331. vadd.i32 q0, q0, q8
  332. vadd.i32 q1, q1, q9
  333. vdup.32 q8, r5
  334. vdup.32 q9, r6
  335. vadd.i32 q2, q2, q8
  336. vadd.i32 q3, q3, q9
  337. // x4[0-3] += s1[0]
  338. // x5[0-3] += s1[1]
  339. // x6[0-3] += s1[2]
  340. // x7[0-3] += s1[3]
  341. ldmia r0!, {r3-r6}
  342. vdup.32 q8, r3
  343. vdup.32 q9, r4
  344. vadd.i32 q4, q4, q8
  345. vadd.i32 q5, q5, q9
  346. vdup.32 q8, r5
  347. vdup.32 q9, r6
  348. vadd.i32 q6, q6, q8
  349. vadd.i32 q7, q7, q9
  350. // interleave 32-bit words in state n, n+1
  351. vzip.32 q0, q1
  352. vzip.32 q2, q3
  353. vzip.32 q4, q5
  354. vzip.32 q6, q7
  355. // interleave 64-bit words in state n, n+2
  356. vswp d1, d4
  357. vswp d3, d6
  358. vswp d9, d12
  359. vswp d11, d14
  360. // xor with corresponding input, write to output
  361. vld1.8 {q8-q9}, [r2]!
  362. veor q8, q8, q0
  363. veor q9, q9, q4
  364. vst1.8 {q8-q9}, [r1]!
  365. vld1.32 {q8-q9}, [sp, :256]
  366. // x8[0-3] += s2[0]
  367. // x9[0-3] += s2[1]
  368. // x10[0-3] += s2[2]
  369. // x11[0-3] += s2[3]
  370. ldmia r0!, {r3-r6}
  371. vdup.32 q0, r3
  372. vdup.32 q4, r4
  373. vadd.i32 q8, q8, q0
  374. vadd.i32 q9, q9, q4
  375. vdup.32 q0, r5
  376. vdup.32 q4, r6
  377. vadd.i32 q10, q10, q0
  378. vadd.i32 q11, q11, q4
  379. // x12[0-3] += s3[0]
  380. // x13[0-3] += s3[1]
  381. // x14[0-3] += s3[2]
  382. // x15[0-3] += s3[3]
  383. ldmia r0!, {r3-r6}
  384. vdup.32 q0, r3
  385. vdup.32 q4, r4
  386. adr r3, CTRINC
  387. vadd.i32 q12, q12, q0
  388. vld1.32 {q0}, [r3, :128]
  389. vadd.i32 q13, q13, q4
  390. vadd.i32 q12, q12, q0 // x12 += counter values 0-3
  391. vdup.32 q0, r5
  392. vdup.32 q4, r6
  393. vadd.i32 q14, q14, q0
  394. vadd.i32 q15, q15, q4
  395. // interleave 32-bit words in state n, n+1
  396. vzip.32 q8, q9
  397. vzip.32 q10, q11
  398. vzip.32 q12, q13
  399. vzip.32 q14, q15
  400. // interleave 64-bit words in state n, n+2
  401. vswp d17, d20
  402. vswp d19, d22
  403. vswp d25, d28
  404. vswp d27, d30
  405. vmov q4, q1
  406. vld1.8 {q0-q1}, [r2]!
  407. veor q0, q0, q8
  408. veor q1, q1, q12
  409. vst1.8 {q0-q1}, [r1]!
  410. vld1.8 {q0-q1}, [r2]!
  411. veor q0, q0, q2
  412. veor q1, q1, q6
  413. vst1.8 {q0-q1}, [r1]!
  414. vld1.8 {q0-q1}, [r2]!
  415. veor q0, q0, q10
  416. veor q1, q1, q14
  417. vst1.8 {q0-q1}, [r1]!
  418. vld1.8 {q0-q1}, [r2]!
  419. veor q0, q0, q4
  420. veor q1, q1, q5
  421. vst1.8 {q0-q1}, [r1]!
  422. vld1.8 {q0-q1}, [r2]!
  423. veor q0, q0, q9
  424. veor q1, q1, q13
  425. vst1.8 {q0-q1}, [r1]!
  426. vld1.8 {q0-q1}, [r2]!
  427. veor q0, q0, q3
  428. veor q1, q1, q7
  429. vst1.8 {q0-q1}, [r1]!
  430. vld1.8 {q0-q1}, [r2]
  431. veor q0, q0, q11
  432. veor q1, q1, q15
  433. vst1.8 {q0-q1}, [r1]
  434. mov sp, ip
  435. pop {r4-r6, pc}
  436. ENDPROC(chacha20_4block_xor_neon)
  437. .align 4
  438. CTRINC: .word 0, 1, 2, 3