From mboxrd@z Thu Jan  1 00:00:00 1970
MIME-Version: 1.0
In-Reply-To: <CACzOosBPd3-HxQGuMeoL9aMSoUDNvwRfNNNT=KhQJm2X3z5eDw@mail.gmail.com>
References: <CACzOosBPd3-HxQGuMeoL9aMSoUDNvwRfNNNT=KhQJm2X3z5eDw@mail.gmail.com>
Date: Thu, 26 Dec 2013 18:46:39 -0500
Message-ID: <CACzOosASeD5Nf8wW54T_KEF6pudeDsxPOKxfO0Mp8fZdzC7fDw@mail.gmail.com>
From: cherry <lunaria21@gmail.com>
To: Fans of the OS Plan 9 from Bell Labs <9fans@9fans.net>
Content-Type: multipart/alternative; boundary=047d7b6d9f62c51f8b04ee789613
Subject: Re: [9fans] MIPS LE fp register ordering in MOVD
Topicbox-Message-UUID: a8615bf0-ead8-11e9-9d60-3106f5b1d025

--047d7b6d9f62c51f8b04ee789613
Content-Type: text/plain; charset=ISO-8859-1

Another issue is 0l/vl seems to output wrong bits for single precision
floats in little endian mode, due to a similar reason: it used bytes 4-7
instead of 0-3. This seems to fix it:

% diff /sys/src/cmd/vl/asm.c asm.c
672c672,675
<                     buf.dbuf[l] = cast[fnuxi8[i+4]];
---
>                     if(little)
>                         buf.dbuf[l] = cast[fnuxi8[i]];
>                     else
>                         buf.dbuf[l] = cast[fnuxi8[i+4]];

An alternative fix would be simply use fnuxi4 instead of fnuxi8, so that
both BE and LE would work (I guess, don't have BE machine to test). Is
there any (probably historical) reason for not using fnuxi4? I am asking
this since in /sys/src/cmd/vl/l.h:

EXTERN    char    fnuxi4[4];    /* for 3l [sic] */

Thanks,
- cherry




On Tue, Dec 24, 2013 at 12:20 PM, cherry <lunaria21@gmail.com> wrote:

> Hello Fans,
>
> It seems 0l/vl in little endian mode outputs wrong ordering of fp
> registers in MOVD. For a double, which is stored in an even-odd pair of fp
> registers, the least significant bits should be held in the even numbered
> register, regardless of the endianess. When moving from/to memory, in LE
> mode the first 4 bytes should go to even numbered registers, which is
> different from BE mode.
>
> A patch is submitted.
>
> % patch/diff 0l-movd-fpreg-order
> /sys/src/cmd/vl/asm.c
>     asm.c.orig:1019,1026 -
> /n/sources/patch/0l-movd-fpreg-order/asm.c:1019,1031
>                   o1 = OP_IRR(opirr(ALAST), v>>16, REGZERO, REGTMP);
>                   o2 = OP_IRR(opirr(AOR), v, REGTMP, REGTMP);
>                   o3 = OP_RRR(oprrr(AADDU), r, REGTMP, REGTMP);
>     -             o4 = OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP, p->to.reg+1);
>     -             o5 = OP_IRR(opirr(AMOVF+ALAST), 4, REGTMP, p->to.reg);
>     +             if(little) {
>     +                 o4 = OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP,
> p->to.reg);
>     +                 o5 = OP_IRR(opirr(AMOVF+ALAST), 4, REGTMP,
> p->to.reg+1);
>     +             } else {
>     +                 o4 = OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP,
> p->to.reg+1);
>     +                 o5 = OP_IRR(opirr(AMOVF+ALAST), 4, REGTMP,
> p->to.reg);
>     +             }
>                   break;
>               case 16:
>                   o1 = OP_IRR(opirr(ALAST), v>>16, REGZERO, REGTMP);
>     asm.c.orig:1029,1036 -
> /n/sources/patch/0l-movd-fpreg-order/asm.c:1034,1046
>                   o4 = OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP, p->to.reg);
>                   break;
>               case 8:
>     -             o1 = OP_IRR(opirr(AMOVF+ALAST), v, r, p->to.reg+1);
>     -             o2 = OP_IRR(opirr(AMOVF+ALAST), v+4, r, p->to.reg);
>     +             if(little) {
>     +                 o1 = OP_IRR(opirr(AMOVF+ALAST), v, r, p->to.reg);
>     +                 o2 = OP_IRR(opirr(AMOVF+ALAST), v+4, r, p->to.reg+1);
>     +             } else {
>     +                 o1 = OP_IRR(opirr(AMOVF+ALAST), v, r, p->to.reg+1);
>     +                 o2 = OP_IRR(opirr(AMOVF+ALAST), v+4, r, p->to.reg);
>     +             }
>                   break;
>               case 4:
>                   o1 = OP_IRR(opirr(AMOVF+ALAST), v, r, p->to.reg);
>     asm.c.orig:1050,1057 -
> /n/sources/patch/0l-movd-fpreg-order/asm.c:1060,1072
>                   o1 = OP_IRR(opirr(ALAST), v>>16, REGZERO, REGTMP);
>                   o2 = OP_IRR(opirr(AOR), v, REGTMP, REGTMP);
>                   o3 = OP_RRR(oprrr(AADDU), r, REGTMP, REGTMP);
>     -             o4 = OP_IRR(opirr(AMOVF), 0, REGTMP, p->from.reg+1);
>     -             o5 = OP_IRR(opirr(AMOVF), 4, REGTMP, p->from.reg);
>     +             if(little) {
>     +                 o4 = OP_IRR(opirr(AMOVF), 0, REGTMP, p->from.reg);
>     +                 o5 = OP_IRR(opirr(AMOVF), 4, REGTMP, p->from.reg+1);
>     +             } else {
>     +                 o4 = OP_IRR(opirr(AMOVF), 0, REGTMP, p->from.reg+1);
>     +                 o5 = OP_IRR(opirr(AMOVF), 4, REGTMP, p->from.reg);
>     +             }
>                   break;
>               case 16:
>                   if(r == REGTMP)
>     asm.c.orig:1062,1069 -
> /n/sources/patch/0l-movd-fpreg-order/asm.c:1077,1089
>                   o4 = OP_IRR(opirr(AMOVF), 0, REGTMP, p->from.reg);
>                   break;
>               case 8:
>     -             o1 = OP_IRR(opirr(AMOVF), v, r, p->from.reg+1);
>     -             o2 = OP_IRR(opirr(AMOVF), v+4, r, p->from.reg);
>     +             if(little) {
>     +                 o1 = OP_IRR(opirr(AMOVF), v, r, p->from.reg);
>     +                 o2 = OP_IRR(opirr(AMOVF), v+4, r, p->from.reg+1);
>     +             } else {
>     +                 o1 = OP_IRR(opirr(AMOVF), v, r, p->from.reg+1);
>     +                 o2 = OP_IRR(opirr(AMOVF), v+4, r, p->from.reg);
>     +             }
>                   break;
>               case 4:
>                   o1 = OP_IRR(opirr(AMOVF), v, r, p->from.reg);
>
> Let me know if I missed anything.
>
> Thanks and Merry Christmas.
> - cherry
>
>

--047d7b6d9f62c51f8b04ee789613
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable

<div dir=3D"ltr">Another issue is 0l/vl seems to output wrong bits for sing=
le precision floats in little endian mode, due to a similar reason: it used=
 bytes 4-7 instead of 0-3. This seems to fix it:<br><br>% diff /sys/src/cmd=
/vl/asm.c asm.c<br>
672c672,675<br>&lt; =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 buf.d=
buf[l] =3D cast[fnuxi8[i+4]];<br>---<br>&gt; =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 if(little)<br>&gt; =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 =A0=A0=A0 =A0=A0=A0 buf.dbuf[l] =3D cast[fnuxi8[i]];<br>&gt; =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 else<br>&gt; =A0=A0=A0 =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 buf.dbuf[l] =3D cast[fnuxi8[i+4]];<=
br>
<br>An alternative fix would be simply use fnuxi4 instead of fnuxi8, so tha=
t both BE and LE would work (I guess, don&#39;t have BE machine to test). I=
s there any (probably historical) reason for not using fnuxi4? I am asking =
this since in /sys/src/cmd/vl/l.h:<br>
<br>EXTERN=A0=A0=A0 char=A0=A0=A0 fnuxi4[4];=A0=A0=A0 /* for 3l [sic] */<br=
><br>Thanks,<br>- cherry<br><br><br></div><div class=3D"gmail_extra"><br><b=
r><div class=3D"gmail_quote">On Tue, Dec 24, 2013 at 12:20 PM, cherry <span=
 dir=3D"ltr">&lt;<a href=3D"mailto:lunaria21@gmail.com" target=3D"_blank">l=
unaria21@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class=3D"gmail_quote" style=3D"margin:0 0 0 .8ex;border-left:1p=
x #ccc solid;padding-left:1ex"><div dir=3D"ltr">Hello Fans,<br><br>It seems=
 0l/vl in little endian mode outputs wrong ordering of fp registers in MOVD=
. For a double, which is stored in an even-odd pair of fp registers, the le=
ast significant bits should be held in the even numbered register, regardle=
ss of the endianess. When moving from/to memory, in LE mode the first 4 byt=
es should go to even numbered registers, which is different from BE mode.<b=
r>

<br>A patch is submitted.<br><br>% patch/diff 0l-movd-fpreg-order<br>/sys/s=
rc/cmd/vl/asm.c<br>=A0=A0=A0 asm.c.orig:1019,1026 - /n/sources/patch/0l-mov=
d-fpreg-order/asm.c:1019,1031<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 o1 =3D OP_IRR(opirr(ALAST), v&gt;&gt;16, REGZERO, REGTMP);<br>

=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AOR), v, RE=
GTMP, REGTMP);<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o3 =3D OP_RRR=
(oprrr(AADDU), r, REGTMP, REGTMP);<br>=A0=A0=A0 - =A0=A0=A0 =A0=A0=A0 =A0=
=A0=A0 o4 =3D OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP, p-&gt;to.reg+1);<br>=A0=
=A0=A0 - =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o5 =3D OP_IRR(opirr(AMOVF+ALAST), 4,=
 REGTMP, p-&gt;to.reg);<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 if(little) {<br>=A0=A0=A0 + =A0=
=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMOVF+ALAST), 0, R=
EGTMP, p-&gt;to.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 o5 =3D OP_IRR(opirr(AMOVF+ALAST), 4, REGTMP, p-&gt;to.reg+1);<br>=A0=A0=
=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 } else {<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMO=
VF+ALAST), 0, REGTMP, p-&gt;to.reg+1);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 o5 =3D OP_IRR(opirr(AMOVF+ALAST), 4, REGTMP, p-&gt;to.r=
eg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 }<br>=A0=A0=A0 =A0 =A0=A0=
=A0 =A0=A0=A0 =A0=A0=A0 break;<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 case 16=
:<br>

=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opirr(ALAST), v&g=
t;&gt;16, REGZERO, REGTMP);<br>=A0=A0=A0 asm.c.orig:1029,1036 - /n/sources/=
patch/0l-movd-fpreg-order/asm.c:1034,1046<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=
=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMOVF+ALAST), 0, REGTMP, p-&gt;to.reg);<b=
r>

=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 break;<br>=A0=A0=A0 =A0 =A0=A0=
=A0 =A0=A0=A0 case 8:<br>=A0=A0=A0 - =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D O=
P_IRR(opirr(AMOVF+ALAST), v, r, p-&gt;to.reg+1);<br>=A0=A0=A0 - =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AMOVF+ALAST), v+4, r, p-&gt;to.reg)=
;<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 if(little) {<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opirr(AMO=
VF+ALAST), v, r, p-&gt;to.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AMOVF+ALAST), v+4, r, p-&gt;to.reg+1);<br=
>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 } else {<br>=A0=A0=A0 + =A0=A0=
=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opirr(AMOVF+ALAST), v, r, p=
-&gt;to.reg+1);<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AMO=
VF+ALAST), v+4, r, p-&gt;to.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 }<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 break;<br>=A0=A0=A0 =
=A0 =A0=A0=A0 =A0=A0=A0 case 4:<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 o1 =3D OP_IRR(opirr(AMOVF+ALAST), v, r, p-&gt;to.reg);<br>

=A0=A0=A0 asm.c.orig:1050,1057 - /n/sources/patch/0l-movd-fpreg-order/asm.c=
:1060,1072<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opi=
rr(ALAST), v&gt;&gt;16, REGZERO, REGTMP);<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=
=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AOR), v, REGTMP, REGTMP);<br>

=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o3 =3D OP_RRR(oprrr(AADDU), r, =
REGTMP, REGTMP);<br>=A0=A0=A0 - =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR=
(opirr(AMOVF), 0, REGTMP, p-&gt;from.reg+1);<br>=A0=A0=A0 - =A0=A0=A0 =A0=
=A0=A0 =A0=A0=A0 o5 =3D OP_IRR(opirr(AMOVF), 4, REGTMP, p-&gt;from.reg);<br=
>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 if(little) {<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMO=
VF), 0, REGTMP, p-&gt;from.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 =A0=A0=A0 o5 =3D OP_IRR(opirr(AMOVF), 4, REGTMP, p-&gt;from.reg+1);<br>=
=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 } else {<br>=A0=A0=A0 + =A0=A0=A0=
 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMOVF), 0, REGTMP, p-&gt=
;from.reg+1);<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o5 =3D OP_IRR(opirr(AMO=
VF), 4, REGTMP, p-&gt;from.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=
=A0 }<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 break;<br>=A0=A0=A0 =
=A0 =A0=A0=A0 =A0=A0=A0 case 16:<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=
=A0=A0 if(r =3D=3D REGTMP)<br>=A0=A0=A0 asm.c.orig:1062,1069 - /n/sources/p=
atch/0l-movd-fpreg-order/asm.c:1077,1089<br>

=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o4 =3D OP_IRR(opirr(AMOVF), 0, =
REGTMP, p-&gt;from.reg);<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 bre=
ak;<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 case 8:<br>=A0=A0=A0 - =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opirr(AMOVF), v, r, p-&gt;from.reg+1);<br=
>=A0=A0=A0 - =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AMOVF), v+4,=
 r, p-&gt;from.reg);<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 if(little) {<br>=A0=A0=A0 + =A0=
=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o1 =3D OP_IRR(opirr(AMOVF), v, r, p-&g=
t;from.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o2 =3D =
OP_IRR(opirr(AMOVF), v+4, r, p-&gt;from.reg+1);<br>=A0=A0=A0 + =A0=A0=A0 =
=A0=A0=A0 =A0=A0=A0 } else {<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =
=A0=A0=A0 o1 =3D OP_IRR(opirr(AMOVF), v, r, p-&gt;from.reg+1);<br>

=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 o2 =3D OP_IRR(opirr(AMO=
VF), v+4, r, p-&gt;from.reg);<br>=A0=A0=A0 + =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =
}<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 break;<br>=A0=A0=A0 =A0 =
=A0=A0=A0 =A0=A0=A0 case 4:<br>=A0=A0=A0 =A0 =A0=A0=A0 =A0=A0=A0 =A0=A0=A0 =
o1 =3D OP_IRR(opirr(AMOVF), v, r, p-&gt;from.reg);<br>

<br>Let me know if I missed anything.<br><br>Thanks and Merry Christmas.<sp=
an class=3D"HOEnZb"><font color=3D"#888888"><br>- cherry<br><br></font></sp=
an></div>
</blockquote></div><br></div>

--047d7b6d9f62c51f8b04ee789613--