Optimization of pmix functions for ARM-32

sadko4u · sadko4u · commit 099616aab916 · 2025-11-29T14:19:31.000+03:00
diff --git a/include/private/dsp/arch/arm/neon-d32/pmath/pmix.h b/include/private/dsp/arch/arm/neon-d32/pmath/pmix.h
@@ -30,7 +30,283 @@ namespace lsp
 {
     namespace neon_d32
     {
+        void pmix_v1(float *dst, const float *src, const float *k, size_t count)
+        {
+            ARCH_ARM_ASM
+            (
+                // x16 blocks
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("blo         2f")
+                __ASM_EMIT("1:")
+                __ASM_EMIT("vldm        %[dst], {q0-q3}")           // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4-q7}")          // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8-q11}")           // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vsub.f32    q6, q6, q2")
+                __ASM_EMIT("vsub.f32    q7, q7, q3")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q9")
+                __ASM_EMIT("vmla.f32    q2, q6, q10")
+                __ASM_EMIT("vmla.f32    q3, q7, q11")
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q3}")
+                __ASM_EMIT("bhs         1b")
+                // x8 block
+                __ASM_EMIT("2:")
+                __ASM_EMIT("adds        %[count], #8")
+                __ASM_EMIT("blt         4f")
+                __ASM_EMIT("vldm        %[dst], {q0-q1}")           // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4-q5}")          // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8-q9}")            // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q9")
+                __ASM_EMIT("sub         %[count], #8")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q1}")
+                // x4 blocks
+                __ASM_EMIT("4:")
+                __ASM_EMIT("adds        %[count], #4")
+                __ASM_EMIT("blt         6f")
+                __ASM_EMIT("vldm        %[dst], {q0}")              // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4}")             // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8}")               // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("sub         %[count], #4")
+                __ASM_EMIT("vstm        %[dst]!, {q0}")
+                // x1 blocks
+                __ASM_EMIT("6:")
+                __ASM_EMIT("adds        %[count], #3")
+                __ASM_EMIT("blt         8f")
+                __ASM_EMIT("7:")
+                __ASM_EMIT("vld1.32     {d0[], d1[]}, [%[dst]]")    // q0   = d
+                __ASM_EMIT("vld1.32     {d8[], d9[]}, [%[src]]!")   // q4   = s
+                __ASM_EMIT("vld1.32     {d16[], d17[]}, [%[k]]!")   // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("subs        %[count], #1")
+                __ASM_EMIT("vst1.32     {d0[0]}, [%[dst]]!")
+                __ASM_EMIT("bge         7b")
+                // end
+                __ASM_EMIT("8:")
 
+                : [dst] "+r" (dst), [src] "+r" (src), [k] "+r" (k),
+                  [count] "+r" (count)
+                :
+                : "cc", "memory",
+                  "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+                  "q8", "q9", "q10", "q11"
+            );
+        }
+
+        void pmix_v2(float *dst, const float *src1, const float *src2, const float *k, size_t count)
+        {
+            ARCH_ARM_ASM
+            (
+                // x16 blocks
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("blo         2f")
+                __ASM_EMIT("1:")
+                __ASM_EMIT("vldm        %[src1]!, {q0-q3}")         // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4-q7}")         // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8-q11}")           // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vsub.f32    q6, q6, q2")
+                __ASM_EMIT("vsub.f32    q7, q7, q3")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q9")
+                __ASM_EMIT("vmla.f32    q2, q6, q10")
+                __ASM_EMIT("vmla.f32    q3, q7, q11")
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q3}")
+                __ASM_EMIT("bhs         1b")
+                // x8 block
+                __ASM_EMIT("2:")
+                __ASM_EMIT("adds        %[count], #8")
+                __ASM_EMIT("blt         4f")
+                __ASM_EMIT("vldm        %[src1]!, {q0-q1}")         // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4-q5}")         // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8-q9}")            // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q9")
+                __ASM_EMIT("sub         %[count], #8")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q1}")
+                // x4 blocks
+                __ASM_EMIT("4:")
+                __ASM_EMIT("adds        %[count], #4")
+                __ASM_EMIT("blt         6f")
+                __ASM_EMIT("vldm        %[src1]!, {q0}")            // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4}")            // q4   = s
+                __ASM_EMIT("vldm        %[k]!, {q8}")               // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("sub         %[count], #4")
+                __ASM_EMIT("vstm        %[dst]!, {q0}")
+                // x1 blocks
+                __ASM_EMIT("6:")
+                __ASM_EMIT("adds        %[count], #3")
+                __ASM_EMIT("blt         8f")
+                __ASM_EMIT("7:")
+                __ASM_EMIT("vld1.32     {d0[], d1[]}, [%[src1]]!")  // q0   = d
+                __ASM_EMIT("vld1.32     {d8[], d9[]}, [%[src2]]!")  // q4   = s
+                __ASM_EMIT("vld1.32     {d16[], d17[]}, [%[k]]!")   // q8   = k
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("subs        %[count], #1")
+                __ASM_EMIT("vst1.32     {d0[0]}, [%[dst]]!")
+                __ASM_EMIT("bge         7b")
+                // end
+                __ASM_EMIT("8:")
+
+                : [dst] "+r" (dst), [src1] "+r" (src1), [src2] "+r" (src2), [k] "+r" (k),
+                  [count] "+r" (count)
+                :
+                : "cc", "memory",
+                  "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+                  "q8", "q9", "q10", "q11"
+            );
+        }
+
+        void pmix_k1(float *dst, const float *src, float k, size_t count)
+        {
+            ARCH_ARM_ASM
+            (
+                // x16 blocks
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vld1.32     {d16[], d17[]}, [%[k]]")    // q8   = k
+                __ASM_EMIT("blo         2f")
+                __ASM_EMIT("1:")
+                __ASM_EMIT("vldm        %[dst], {q0-q3}")           // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4-q7}")          // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vsub.f32    q6, q6, q2")
+                __ASM_EMIT("vsub.f32    q7, q7, q3")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q8")
+                __ASM_EMIT("vmla.f32    q2, q6, q8")
+                __ASM_EMIT("vmla.f32    q3, q7, q8")
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q3}")
+                __ASM_EMIT("bhs         1b")
+                // x8 block
+                __ASM_EMIT("2:")
+                __ASM_EMIT("adds        %[count], #8")
+                __ASM_EMIT("blt         4f")
+                __ASM_EMIT("vldm        %[dst], {q0-q1}")           // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4-q5}")          // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q8")
+                __ASM_EMIT("sub         %[count], #8")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q1}")
+                // x4 blocks
+                __ASM_EMIT("4:")
+                __ASM_EMIT("adds        %[count], #4")
+                __ASM_EMIT("blt         6f")
+                __ASM_EMIT("vldm        %[dst], {q0}")              // q0   = d
+                __ASM_EMIT("vldm        %[src]!, {q4}")             // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("sub         %[count], #4")
+                __ASM_EMIT("vstm        %[dst]!, {q0}")
+                // x1 blocks
+                __ASM_EMIT("6:")
+                __ASM_EMIT("adds        %[count], #3")
+                __ASM_EMIT("blt         8f")
+                __ASM_EMIT("7:")
+                __ASM_EMIT("vld1.32     {d0[], d1[]}, [%[dst]]")    // q0   = d
+                __ASM_EMIT("vld1.32     {d8[], d9[]}, [%[src]]!")   // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("subs        %[count], #1")
+                __ASM_EMIT("vst1.32     {d0[0]}, [%[dst]]!")
+                __ASM_EMIT("bge         7b")
+                // end
+                __ASM_EMIT("8:")
+
+                : [dst] "+r" (dst), [src] "+r" (src),
+                  [count] "+r" (count)
+                : [k] "r" (&k)
+                : "cc", "memory",
+                  "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+                  "q8"
+            );
+        }
+
+        void pmix_k2(float *dst, const float *src1, const float *src2, float k, size_t count)
+        {
+            ARCH_ARM_ASM
+            (
+                // x16 blocks
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vld1.32     {d16[], d17[]}, [%[k]]")    // q8   = k
+                __ASM_EMIT("blo         2f")
+                __ASM_EMIT("1:")
+                __ASM_EMIT("vldm        %[src1]!, {q0-q3}")         // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4-q7}")         // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vsub.f32    q6, q6, q2")
+                __ASM_EMIT("vsub.f32    q7, q7, q3")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q8")
+                __ASM_EMIT("vmla.f32    q2, q6, q8")
+                __ASM_EMIT("vmla.f32    q3, q7, q8")
+                __ASM_EMIT("subs        %[count], #16")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q3}")
+                __ASM_EMIT("bhs         1b")
+                // x8 block
+                __ASM_EMIT("2:")
+                __ASM_EMIT("adds        %[count], #8")
+                __ASM_EMIT("blt         4f")
+                __ASM_EMIT("vldm        %[src1]!, {q0-q1}")         // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4-q5}")         // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vsub.f32    q5, q5, q1")
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("vmla.f32    q1, q5, q8")
+                __ASM_EMIT("sub         %[count], #8")
+                __ASM_EMIT("vstm        %[dst]!, {q0-q1}")
+                // x4 blocks
+                __ASM_EMIT("4:")
+                __ASM_EMIT("adds        %[count], #4")
+                __ASM_EMIT("blt         6f")
+                __ASM_EMIT("vldm        %[src1]!, {q0}")            // q0   = d
+                __ASM_EMIT("vldm        %[src2]!, {q4}")            // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("sub         %[count], #4")
+                __ASM_EMIT("vstm        %[dst]!, {q0}")
+                // x1 blocks
+                __ASM_EMIT("6:")
+                __ASM_EMIT("adds        %[count], #3")
+                __ASM_EMIT("blt         8f")
+                __ASM_EMIT("7:")
+                __ASM_EMIT("vld1.32     {d0[], d1[]}, [%[src1]]!")  // q0   = d
+                __ASM_EMIT("vld1.32     {d8[], d9[]}, [%[src2]]!")  // q4   = s
+                __ASM_EMIT("vsub.f32    q4, q4, q0")                // q4   = s - d
+                __ASM_EMIT("vmla.f32    q0, q4, q8")                // q0   = d + (s-d)*k
+                __ASM_EMIT("subs        %[count], #1")
+                __ASM_EMIT("vst1.32     {d0[0]}, [%[dst]]!")
+                __ASM_EMIT("bge         7b")
+                // end
+                __ASM_EMIT("8:")
+
+                : [dst] "+r" (dst), [src] "+r" (src),
+                  [count] "+r" (count)
+                : [k] "r" (&k)
+                : "cc", "memory",
+                  "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+                  "q8"
+            );
+        }
     } /* namespace neon_d32 */
 } /* namespace lsp */
 
diff --git a/src/main/arm/neon-d32.cpp b/src/main/arm/neon-d32.cpp
@@ -441,6 +441,11 @@
                 EXPORT1(clamp_vv2);
                 EXPORT1(clamp_kk1);
                 EXPORT1(clamp_kk2);
+
+                EXPORT1(pmix_v1);
+                EXPORT1(pmix_v2);
+                EXPORT1(pmix_k1);
+                EXPORT1(pmix_k2);
             }
         } /* namespace neon_d32 */
     } /* namespace lsp */
diff --git a/src/test/ptest/pmath/pmix_k1.cpp b/src/test/ptest/pmath/pmix_k1.cpp
@@ -113,7 +113,7 @@ PTEST_BEGIN("dsp.pmath", pmix_k1, 5, 1000)
             IF_ARCH_X86(CALL(avx::pmix_k1));
             IF_ARCH_X86(CALL(avx::pmix_k1_fma3));
             IF_ARCH_X86(CALL(avx512::pmix_k1));
-//            IF_ARCH_ARM(CALL(neon_d32::pmix_k1));
+            IF_ARCH_ARM(CALL(neon_d32::pmix_k1));
 //            IF_ARCH_AARCH64(CALL(asimd::pmix_k1));
             PTEST_SEPARATOR;
         }
diff --git a/src/test/ptest/pmath/pmix_k2.cpp b/src/test/ptest/pmath/pmix_k2.cpp
@@ -113,7 +113,7 @@ PTEST_BEGIN("dsp.pmath", pmix_k2, 5, 1000)
             IF_ARCH_X86(CALL(avx::pmix_k2));
             IF_ARCH_X86(CALL(avx::pmix_k2_fma3));
             IF_ARCH_X86(CALL(avx512::pmix_k2));
-//            IF_ARCH_ARM(CALL(neon_d32::pmix_k2));
+            IF_ARCH_ARM(CALL(neon_d32::pmix_k2));
 //            IF_ARCH_AARCH64(CALL(asimd::pmix_k2));
             PTEST_SEPARATOR;
         }
diff --git a/src/test/ptest/pmath/pmix_v1.cpp b/src/test/ptest/pmath/pmix_v1.cpp
@@ -117,7 +117,7 @@ PTEST_BEGIN("dsp.pmath", pmix_v1, 5, 1000)
             IF_ARCH_X86(CALL(avx::pmix_v1));
             IF_ARCH_X86(CALL(avx::pmix_v1_fma3));
             IF_ARCH_X86(CALL(avx512::pmix_v1));
-//            IF_ARCH_ARM(CALL(neon_d32::pmix_v1));
+            IF_ARCH_ARM(CALL(neon_d32::pmix_v1));
 //            IF_ARCH_AARCH64(CALL(asimd::pmix_v1));
             PTEST_SEPARATOR;
         }
diff --git a/src/test/ptest/pmath/pmix_v2.cpp b/src/test/ptest/pmath/pmix_v2.cpp
@@ -115,7 +115,7 @@ PTEST_BEGIN("dsp.pmath", pmix_v2, 5, 1000)
             IF_ARCH_X86(CALL(avx::pmix_v2));
             IF_ARCH_X86(CALL(avx::pmix_v2_fma3));
             IF_ARCH_X86(CALL(avx512::pmix_v2));
-//            IF_ARCH_ARM(CALL(neon_d32::pmix_v2));
+            IF_ARCH_ARM(CALL(neon_d32::pmix_v2));
 //            IF_ARCH_AARCH64(CALL(asimd::pmix_v2));
             PTEST_SEPARATOR;
         }
diff --git a/src/test/utest/pmath/pmix_k1.cpp b/src/test/utest/pmath/pmix_k1.cpp
@@ -123,7 +123,7 @@ UTEST_BEGIN("dsp.pmath", pmix_k1)
         IF_ARCH_X86(CALL(generic::pmix_k1, avx::pmix_k1, 32));
         IF_ARCH_X86(CALL(generic::pmix_k1, avx::pmix_k1_fma3, 32));
         IF_ARCH_X86(CALL(generic::pmix_k1, avx512::pmix_k1, 64));
-//        IF_ARCH_ARM(CALL(generic::pmix_k1, neon_d32::pmix_k1, 16));
+        IF_ARCH_ARM(CALL(generic::pmix_k1, neon_d32::pmix_k1, 16));
 //        IF_ARCH_AARCH64(CALL(generic::pmix_k1, asimd::pmix_k1, 16));
     }
 UTEST_END
diff --git a/src/test/utest/pmath/pmix_k2.cpp b/src/test/utest/pmath/pmix_k2.cpp
@@ -123,7 +123,7 @@ UTEST_BEGIN("dsp.pmath", pmix_k2)
         IF_ARCH_X86(CALL(generic::pmix_k2, avx::pmix_k2, 32));
         IF_ARCH_X86(CALL(generic::pmix_k2, avx::pmix_k2_fma3, 32));
         IF_ARCH_X86(CALL(generic::pmix_k2, avx512::pmix_k2, 64));
-//        IF_ARCH_ARM(CALL(generic::pmix_k2, neon_d32::pmix_k2, 16));
+        IF_ARCH_ARM(CALL(generic::pmix_k2, neon_d32::pmix_k2, 16));
 //        IF_ARCH_AARCH64(CALL(generic::pmix_k2, asimd::pmix_k1, 16));
     }
 UTEST_END
diff --git a/src/test/utest/pmath/pmix_v1.cpp b/src/test/utest/pmath/pmix_v1.cpp
@@ -126,7 +126,7 @@ UTEST_BEGIN("dsp.pmath", pmix_v1)
         IF_ARCH_X86(CALL(generic::pmix_v1, avx::pmix_v1, 32));
         IF_ARCH_X86(CALL(generic::pmix_v1, avx::pmix_v1_fma3, 32));
         IF_ARCH_X86(CALL(generic::pmix_v1, avx512::pmix_v1, 64));
-//        IF_ARCH_ARM(CALL(generic::pmix_v1, neon_d32::pmix_v1, 16));
+        IF_ARCH_ARM(CALL(generic::pmix_v1, neon_d32::pmix_v1, 16));
 //        IF_ARCH_AARCH64(CALL(generic::pmix_v1, asimd::pmix_v1, 16));
     }
 UTEST_END
diff --git a/src/test/utest/pmath/pmix_v2.cpp b/src/test/utest/pmath/pmix_v2.cpp
@@ -126,7 +126,7 @@ UTEST_BEGIN("dsp.pmath", pmix_v2)
         IF_ARCH_X86(CALL(generic::pmix_v2, avx::pmix_v2, 32));
         IF_ARCH_X86(CALL(generic::pmix_v2, avx::pmix_v2_fma3, 32));
         IF_ARCH_X86(CALL(generic::pmix_v2, avx512::pmix_v2, 64));
-//        IF_ARCH_ARM(CALL(generic::pmix_v2, neon_d32::pmix_v2, 16));
+        IF_ARCH_ARM(CALL(generic::pmix_v2, neon_d32::pmix_v2, 16));
 //        IF_ARCH_AARCH64(CALL(generic::pmix_v2, asimd::pmix_v2, 16));
     }
 UTEST_END

Original file line number	Diff line number	Diff line change
`@@ -113,7 +113,7 @@ PTEST_BEGIN("dsp.pmath", pmix_k1, 5, 1000)`
`113`	`113`	`IF_ARCH_X86(CALL(avx::pmix_k1));`
`114`	`114`	`IF_ARCH_X86(CALL(avx::pmix_k1_fma3));`
`115`	`115`	`IF_ARCH_X86(CALL(avx512::pmix_k1));`
`116`		`-// IF_ARCH_ARM(CALL(neon_d32::pmix_k1));`
	`116`	`+ IF_ARCH_ARM(CALL(neon_d32::pmix_k1));`
`117`	`117`	`// IF_ARCH_AARCH64(CALL(asimd::pmix_k1));`
`118`	`118`	`PTEST_SEPARATOR;`
`119`	`119`	`}`
Original file line number	Diff line number	Diff line change
`@@ -117,7 +117,7 @@ PTEST_BEGIN("dsp.pmath", pmix_v1, 5, 1000)`
`117`	`117`	`IF_ARCH_X86(CALL(avx::pmix_v1));`
`118`	`118`	`IF_ARCH_X86(CALL(avx::pmix_v1_fma3));`
`119`	`119`	`IF_ARCH_X86(CALL(avx512::pmix_v1));`
`120`		`-// IF_ARCH_ARM(CALL(neon_d32::pmix_v1));`
	`120`	`+ IF_ARCH_ARM(CALL(neon_d32::pmix_v1));`
`121`	`121`	`// IF_ARCH_AARCH64(CALL(asimd::pmix_v1));`
`122`	`122`	`PTEST_SEPARATOR;`
`123`	`123`	`}`
Original file line number	Diff line number	Diff line change
`@@ -115,7 +115,7 @@ PTEST_BEGIN("dsp.pmath", pmix_v2, 5, 1000)`
`115`	`115`	`IF_ARCH_X86(CALL(avx::pmix_v2));`
`116`	`116`	`IF_ARCH_X86(CALL(avx::pmix_v2_fma3));`
`117`	`117`	`IF_ARCH_X86(CALL(avx512::pmix_v2));`
`118`		`-// IF_ARCH_ARM(CALL(neon_d32::pmix_v2));`
	`118`	`+ IF_ARCH_ARM(CALL(neon_d32::pmix_v2));`
`119`	`119`	`// IF_ARCH_AARCH64(CALL(asimd::pmix_v2));`
`120`	`120`	`PTEST_SEPARATOR;`
`121`	`121`	`}`
Original file line number	Diff line number	Diff line change
`@@ -123,7 +123,7 @@ UTEST_BEGIN("dsp.pmath", pmix_k1)`
`123`	`123`	`IF_ARCH_X86(CALL(generic::pmix_k1, avx::pmix_k1, 32));`
`124`	`124`	`IF_ARCH_X86(CALL(generic::pmix_k1, avx::pmix_k1_fma3, 32));`
`125`	`125`	`IF_ARCH_X86(CALL(generic::pmix_k1, avx512::pmix_k1, 64));`
`126`		`-// IF_ARCH_ARM(CALL(generic::pmix_k1, neon_d32::pmix_k1, 16));`
	`126`	`+ IF_ARCH_ARM(CALL(generic::pmix_k1, neon_d32::pmix_k1, 16));`
`127`	`127`	`// IF_ARCH_AARCH64(CALL(generic::pmix_k1, asimd::pmix_k1, 16));`
`128`	`128`	`}`
`129`	`129`	`UTEST_END`
Original file line number	Diff line number	Diff line change
`@@ -126,7 +126,7 @@ UTEST_BEGIN("dsp.pmath", pmix_v1)`
`126`	`126`	`IF_ARCH_X86(CALL(generic::pmix_v1, avx::pmix_v1, 32));`
`127`	`127`	`IF_ARCH_X86(CALL(generic::pmix_v1, avx::pmix_v1_fma3, 32));`
`128`	`128`	`IF_ARCH_X86(CALL(generic::pmix_v1, avx512::pmix_v1, 64));`
`129`		`-// IF_ARCH_ARM(CALL(generic::pmix_v1, neon_d32::pmix_v1, 16));`
	`129`	`+ IF_ARCH_ARM(CALL(generic::pmix_v1, neon_d32::pmix_v1, 16));`
`130`	`130`	`// IF_ARCH_AARCH64(CALL(generic::pmix_v1, asimd::pmix_v1, 16));`
`131`	`131`	`}`
`132`	`132`	`UTEST_END`